Guia | |
---|---|
Áreas | Inteligencia artificial |
Sub Áreas | Visión computacional |
Estado | Disponible |
Un modelo multimodal procesa información textual y visual en un espacio latente conjunto. Actualmente estos modelos se entrenan con dos encoders (uno visual y otro de texto) que se fusionan a través de algún mecanismo interno (proyectores, transformadores, etc). Un problema interesante es determinar cómo ocurre la asociación de entidades que representan un mismo concepto. Por ejemplo, uno quisiera saber cómo se representa la relación entre la palabra "gato" con la información de una imagen que contiene un "gato". Un camino interesante es determinar un espacio de conceptos en donde ocurren estas relaciones. Esta memoria/tesis tiene por objetivo desarrollar y analizar este framework de análisis de explicabilidad basada en conceptos. En particular, tenemos un caso de estudio interesante para analizar, un modelo multimodal entrenado sobre patrones geométricos de vasijas arqueológicas, sobre el cual podemos realizar preguntas-respuestas y analizar el modelo y sus interacciones.