DCC | Introducción al Trabajo de Título

Guia	Gonzalo Navarro 5273c19cc4a211f0838e3e1dd57defb7@dcc.uchile.cl gnavarro@dcc.uchile.cl	Coguia	Felipe Bravo M. 52750a02c4a211f0838e3e1dd57defb7@dcc.uchile.cl fbravo@dcc.uchile.cl
Áreas	Ciencia e Ingeniería de datos, Inteligencia artificial
Sub Áreas	Procesamiento masivo de datos, Procesamiento de lenguaje natural
Estado	Disponible

Descripción

El entrenamiento de los Large Language Models (LLMs) requiere tokenizar grandes textos eficientemente de forma consistente, es decir que sub-textos iguales deberían tokenizarse de la misma manera. Un método existente usa Byte-Pair Encoding (BPE), ver https://huggingface.co/learn/nlp-course/en/chapter6/5. Esta técnica, sin embargo, es bastante limitada, y se puede generalizar a una técnica más amplia y elegante llamada Re-Pair, ver https://en.wikipedia.org/wiki/Re-Pair. Un problema de Re-Pair es que, para funcionar en tiempo lineal, requiere tener todo el texto en memoria, lo que no es factible en textos muy grandes. Una alternativa reciente y menos estudiada en este caso es el Prefix-Free Parsing (PFP), que se ha usado para indexar grandes colecciones de genomas, ver https://arxiv.org/abs/1803.11245.

El objetivo de la memoria es (1) comparar la calidad de los LLMs resultantes usando BPE, Re-Pair y PFP en textos de tamaño moderado, y (2) demostrar la escalabilidad de PFP en textos mucho mayores, determinando si los resultados son competitivos para construir LLMs. La memoria puede llevar a una publicación si los resultados son buenos.