Introducción al Trabajo de Título
Guia
Áreas Ciencia e Ingeniería de datos, Inteligencia artificial
Sub Áreas Minería de datos, Aprendizaje de máquina, Procesamiento de lenguaje natural, Visión computacional
Estado Disponible
Descripción

Funds will be available to support the research of the student. 

En este tesis, vamos a integrar el speech (parola/discurso) de un humano en un LLM, para fusionar los datos de acustica con los datos verbales. La idea es de usar un Tokenizer de Speech [2] para transformar al audio en una serie de valores enteras (tokens) y integrarlas en un LLM [1]. 

De este manera, la informacion puede fusionar (mezclarse entre las diferentes modalidades) directamente usando los pesos ya pre-entrenados de un LLMs, que pueden modelizar fenomenos muy complejos. 

La idea seria de 
- tratar este tipo de modelizacion en varias tareas como reconocimiento de emociones en la voz, analisis de sentimiento multilingue, analisis de argumentacion, deteccion de chistes en stand-up, etc... 
- tratar de explicar que fenomenas se estan modelizando en la parte audio, usando el flujo de attencion entre las modalidades 

Referencias: 
[1] Llama Team. (2024). The Llama 3 Herd of Models, 1–92.
[2] Zhang, X., Zhang, D., Li, S., Zhou, Y., & Qiu, X. (2024). SPEECHTOKENIZER: UNIFIED SPEECH TOKENIZER FOR SPEECH LANGUAGE MODELS. In 12th International Conference on Learning Representations, ICLR 2024 (pp. 1–21).