Introducción al Trabajo de Título
Guia
Áreas Ciencia e Ingeniería de datos, Inteligencia artificial
Sub Áreas Minería de datos, Aprendizaje de máquina, Procesamiento de lenguaje natural, Visión computacional
Estado Disponible
Descripción

En el mundo real, los datos no son unimodales. Lo que significa que no son solo texto, solo imagenes, o video sin audio. Todo es multimodal y como humanos aprendemos de esta manera. 

Podemos usar teoria de la informacion para modelizar la reparticion de la cantidad de informacion contenido en cada modalidad, al respecto de una variable/tarea. En particular la teoria de la Partial Information Decomposition [1, 5]. 

Tomamos el ejemplo de saber si o no si un meme es chistoso... Las modalidades son el texto, y la imagen, y la tarea seria si es gracioso o no. Se puede cantificar en Unicidad (lo que hay en cada modalidad de manera separada), Redundancia (lo que hay en cada modalidad y ambos tienen eso), y Sinergia (lo que se obtene solo cuando los modalidades se combinan). 

Por ejemplo, cuando vas a ver un meme, sin vas a mirar solo la imagen, o solo el texto, vas a medir una cantidad de informacion segundo si es chistoso o no. Pero con los dos, es mucho mas facil de saber la respuesta a la tarea. Eso significa que hay mucha sinergia, y que el ejemplo necesita un modelo complejo que modeliza las interacciones entre las modalidades. 

En este tesis, queremos ver como cantificar la Unicidad, la Redundancia, y la Sinergia en los datos, usando el flujo de attencion [2,3,4] en los modelos Transformers tipo LLMs. 

 

Referencias


[1] Liang, P. P., Cheng, Y., Fan, X., Ling, C. K., Nie, S., Chen, R. J., … Morency, L. P. (2023). Quantifying & Modeling Multimodal Interactions: An Information Decomposition Framework. Advances in Neural Information Processing Systems, 36(NeurIPS), 1–43.
[2] Abnar, S., & Zuidema, W. (2020). Quantifying Attention Flow in Transformers. In ACL. https://doi.org/10.18653/v1/2020.acl-main.385
[3] Mohebbi, H., Zuidema, W., Chrupała, G., & Alishahi, A. (2023). Quantifying Context Mixing in Transformers.
[4] Zhang, Z., Yadav, S., Han, F., & Shutova, E. (2025). Cross-modal Information Flow in Multimodal Large Language Models. In CVPR. Retrieved from http://arxiv.org/abs/2411.18620
[5] Liang, P. P., Ling, C. K., Cheng, Y., Obolenskiy, A., Liu, Y., Pandey, R., … Salakhutdinov, R. (2024). MULTIMODAL LEARNING WITHOUT LABELED MULTI- MODAL DATA: GUARANTEES AND APPLICATIONS. ICLR, 361, 555–628.