Introducción al Trabajo de Título
Guia Coguia
Áreas Ciencia e Ingeniería de datos, Inteligencia artificial
Sub Áreas Procesamiento masivo de datos, Procesamiento de lenguaje natural
Estado Disponible
Descripción

El entrenamiento de los Large Language Models (LLMs) requiere tokenizar grandes textos eficientemente de forma consistente, es decir que sub-textos iguales deberían tokenizarse de la misma manera. Un método existente usa Byte-Pair Encoding (BPE), ver https://huggingface.co/learn/nlp-course/en/chapter6/5. Esta técnica, sin embargo, es bastante limitada, y se puede generalizar a una técnica más amplia y elegante llamada Re-Pair, ver https://en.wikipedia.org/wiki/Re-Pair. Un problema de Re-Pair es que, para funcionar en tiempo lineal, requiere tener todo el texto en memoria, lo que no es factible en textos muy grandes. Una alternativa reciente y menos estudiada en este caso es el Prefix-Free Parsing (PFP), que se ha usado para indexar grandes colecciones de genomas, ver https://arxiv.org/abs/1803.11245

El objetivo de la memoria es (1) comparar la calidad de los LLMs resultantes usando BPE, Re-Pair y PFP en textos de tamaño moderado, y (2) demostrar la escalabilidad de PFP en textos mucho mayores, determinando si los resultados son competitivos para construir LLMs. La memoria puede llevar a una publicación si los resultados son buenos.