Guia |
![]()
Valentin Barriere
|
---|---|
Áreas | Ciencia e Ingeniería de datos, Inteligencia artificial |
Sub Áreas | Minería de datos, Aprendizaje de máquina, Procesamiento de lenguaje natural, Visión computacional |
Estado | Disponible |
Funds will be available to support the research of the student.
En este tesis, vamos a integrar el speech (parola/discurso) de un humano en un LLM, para fusionar los datos de acustica con los datos verbales. La idea es de usar un Tokenizer de Speech [2] para transformar al audio en una serie de valores enteras (tokens) y integrarlas en un LLM [1].
De este manera, la informacion puede fusionar (mezclarse entre las diferentes modalidades) directamente usando los pesos ya pre-entrenados de un LLMs, que pueden modelizar fenomenos muy complejos.
La idea seria de
- tratar este tipo de modelizacion en varias tareas como reconocimiento de emociones en la voz, analisis de sentimiento multilingue, analisis de argumentacion, deteccion de chistes en stand-up, etc...
- tratar de explicar que fenomenas se estan modelizando en la parte audio, usando el flujo de attencion entre las modalidades
Referencias:
[1] Llama Team. (2024). The Llama 3 Herd of Models, 1–92.
[2] Zhang, X., Zhang, D., Li, S., Zhou, Y., & Qiu, X. (2024). SPEECHTOKENIZER: UNIFIED SPEECH TOKENIZER FOR SPEECH LANGUAGE MODELS. In 12th International Conference on Learning Representations, ICLR 2024 (pp. 1–21).