| Guia | |
|---|---|
| Áreas | |
| Sub Áreas | |
| Estado | Disponible |
La capacidad de un modelo de lenguaje para comprimir sus propios pesos es un upper-bound de su complejidad de Kolmogorov, lo que teóricamente refleja cuánta estructura genuina ha aprendido versus memorización . Esta tesis explora si métricas de compresibilidad de modelos (lossless y lossy) sirven como predictores de generalización en tareas no vistas, complementando o superando métricas tradicionales como la pérdida de validación o la precisión en benchmark. Motivada por evidencia reciente de transiciones de fase durante el entrenamiento donde la complejidad del modelo cae abruptamente y coincide con mejoras de generalización (The Complexity Dynamics of Grokking), la investigación busca establecer una conexión empírica y teórica entre compresión y capacidad de generalización, con aplicaciones para comparar modelos y detectar cuándo un modelo ha "realmente aprendido" versus memorizado.