Guia |
![]()
Valentin Barriere
|
---|---|
Áreas | Ciencia e Ingeniería de datos, Inteligencia artificial |
Sub Áreas | Minería de datos, Aprendizaje de máquina, Procesamiento de lenguaje natural, Visión computacional |
Estado | Disponible |
En el mundo real, los datos no son unimodales. Lo que significa que no son solo texto, solo imagenes, o video sin audio. Todo es multimodal y como humanos aprendemos de esta manera.
Podemos usar teoria de la informacion para modelizar la reparticion de la cantidad de informacion contenido en cada modalidad, al respecto de una variable/tarea. En particular la teoria de la Partial Information Decomposition [1, 5].
Tomamos el ejemplo de saber si o no si un meme es chistoso... Las modalidades son el texto, y la imagen, y la tarea seria si es gracioso o no. Se puede cantificar en Unicidad (lo que hay en cada modalidad de manera separada), Redundancia (lo que hay en cada modalidad y ambos tienen eso), y Sinergia (lo que se obtene solo cuando los modalidades se combinan).
Por ejemplo, cuando vas a ver un meme, sin vas a mirar solo la imagen, o solo el texto, vas a medir una cantidad de informacion segundo si es chistoso o no. Pero con los dos, es mucho mas facil de saber la respuesta a la tarea. Eso significa que hay mucha sinergia, y que el ejemplo necesita un modelo complejo que modeliza las interacciones entre las modalidades.
En este tesis, queremos ver como cantificar la Unicidad, la Redundancia, y la Sinergia en los datos, usando el flujo de attencion [2,3,4] en los modelos Transformers tipo LLMs.
Referencias:
[1] Liang, P. P., Cheng, Y., Fan, X., Ling, C. K., Nie, S., Chen, R. J., … Morency, L. P. (2023). Quantifying & Modeling Multimodal Interactions: An Information Decomposition Framework. Advances in Neural Information Processing Systems, 36(NeurIPS), 1–43.
[2] Abnar, S., & Zuidema, W. (2020). Quantifying Attention Flow in Transformers. In ACL. https://doi.org/10.18653/v1/2020.acl-main.385
[3] Mohebbi, H., Zuidema, W., Chrupała, G., & Alishahi, A. (2023). Quantifying Context Mixing in Transformers.
[4] Zhang, Z., Yadav, S., Han, F., & Shutova, E. (2025). Cross-modal Information Flow in Multimodal Large Language Models. In CVPR. Retrieved from http://arxiv.org/abs/2411.18620
[5] Liang, P. P., Ling, C. K., Cheng, Y., Obolenskiy, A., Liu, Y., Pandey, R., … Salakhutdinov, R. (2024). MULTIMODAL LEARNING WITHOUT LABELED MULTI- MODAL DATA: GUARANTEES AND APPLICATIONS. ICLR, 361, 555–628.