| Guia | |
|---|---|
| Áreas | |
| Sub Áreas | |
| Estado | Disponible |
Los sparse autoencoders han surgido recientemente como una herramienta prometedora para interpretar representaciones internas de modelos de deep learning, especialmente en modelos de lenguaje (Decomposing Language Models With Dictionary Learning). Sin embargo, estos métodos requieren un proceso adicional de entrenamiento sobre las activaciones del modelo, lo que implica altos costos computacionales y dificulta su aplicación a modelos grandes o a múltiples capas.
Esta tesis busca explorar alternativas para extraer representaciones interpretables sin requerir el entrenamiento previo de autoencoders. En particular, se investigarán métodos basados en descomposiciones matriciales (por ejemplo, PCA o factorizaciones de bajo rango), técnicas geométricas y métodos estadísticos que permitan identificar features latentes directamente a partir de las activaciones del modelo. El objetivo es evaluar si estas aproximaciones pueden capturar estructuras semánticas comparables a las obtenidas con sparse autoencoders, reduciendo significativamente el costo computacional y facilitando el análisis interpretativo de modelos neuronales.