Titulación DCC

Descripción

El patrimonio arqueológico del mundo andino concentra miles de piezas cerámicas distribuidas en museos, colecciones universitarias y sitios de excavación. La descripción sistemática y detallada de estas piezas (condición necesaria para su catalogación, recuperación y análisis comparativo) exige actualmente la intervención de especialistas, lo que implica altos costos en tiempo y recursos. Este cuello de botella limita severamente la escala a la que los corpus digitalizados pueden ser explotados por la investigación.

La confluencia reciente de dos líneas tecnológicas abre una oportunidad inédita: (1) los modelos de visión-lenguaje (VLMs) de gran escala, capaces de generar descripciones libres a partir de imágenes o renderizaciones de modelos 3D, y (2) el paradigma LLM-as-a-Judge, que permite usar modelos de lenguaje como evaluadores y refinadores de texto generado automáticamente. La combinación de ambas técnicas plantea la posibilidad de construir un pipeline que, sin requerir anotaciones expertas masivas, produzca descripciones de calidad comparable.

El problema central puede formularse como sigue: dado un conjunto de vasijas arqueológicas representadas por una imagen de alta resolución y/o un modelo 3D, ¿es posible generar automáticamente descripciones textuales de calidad arqueológica suficiente (sin contar con anotaciones expertas masivas) aprovechando la capacidad generativa de los VLMs y el juicio evaluativo de los LLMs?

Este problema presenta tres desafíos técnicos concretos:

  • Multimodalidad asimétrica: la información visual disponible puede ser una sola imagen 2D o un modelo 3D completo; el pipeline debe ser robusto a esta variación.

  • Dominio especializado: los VLMs generalistas no poseen conocimiento específico sobre estilos cerámicos andinos, técnicas de manufactura prehispánica ni vocabulario técnico arqueológico.

  • Evaluación sin ground truth: en ausencia de descripciones expertas para la mayoría de las piezas, se requiere una metodología de evaluación que no dependa de un gold standard denso.