Guia | Coguia | ||
---|---|---|---|
Áreas | Ciencia e Ingeniería de datos, Inteligencia artificial | ||
Sub Áreas | Procesamiento masivo de datos, Procesamiento de lenguaje natural | ||
Estado | Disponible |
El entrenamiento de los Large Language Models (LLMs) requiere tokenizar grandes textos eficientemente de forma consistente, es decir que sub-textos iguales deberían tokenizarse de la misma manera. Un método existente usa Byte-Pair Encoding (BPE), ver https://huggingface.co/learn/nlp-course/en/chapter6/5. Esta técnica, sin embargo, es bastante limitada, y se puede generalizar a una técnica más amplia y elegante llamada Re-Pair, ver https://en.wikipedia.org/wiki/Re-Pair. Un problema de Re-Pair es que, para funcionar en tiempo lineal, requiere tener todo el texto en memoria, lo que no es factible en textos muy grandes. Una alternativa reciente y menos estudiada en este caso es el Prefix-Free Parsing (PFP), que se ha usado para indexar grandes colecciones de genomas, ver https://arxiv.org/abs/1803.11245.
El objetivo de la memoria es (1) comparar la calidad de los LLMs resultantes usando BPE, Re-Pair y PFP en textos de tamaño moderado, y (2) demostrar la escalabilidad de PFP en textos mucho mayores, determinando si los resultados son competitivos para construir LLMs. La memoria puede llevar a una publicación si los resultados son buenos.