Leveraging Model Soups to Classify Intangible Cultural Heritage Images from the Mekong Delta

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que tienes una biblioteca llena de fotos antiguas y preciosas del Delta del Mekong en Vietnam. Estas fotos muestran tradiciones que no se pueden tocar, como bailes, festivales, música y artesanías. A este tipo de patrimonio lo llamamos "Patrimonio Cultural Inmaterial".

El problema es que clasificar estas fotos es un verdadero reto, como intentar distinguir entre dos gemelos que visten casi igual. Muchas tradiciones se ven muy parecidas en las imágenes (por ejemplo, dos festivales diferentes que ambos tienen mucha gente, música y templos), y además, hay muy pocas fotos de buena calidad para enseñarle a una computadora cómo diferenciarlas.

Aquí es donde entra este estudio, que propone una solución inteligente y elegante. Vamos a explicarlo con una analogía sencilla:

1. El Problema: El "Estudiante Solitario"

Imagina que tienes un estudiante muy inteligente (un modelo de Inteligencia Artificial llamado CoAtNet) que intenta aprender a identificar estas tradiciones.

Si le das solo un libro de texto (un modelo entrenado una sola vez), el estudiante podría memorizar demasiado los ejemplos que ve y fallar cuando le muestres algo nuevo (esto se llama sobreajuste).
O podría ser muy inestable: un día acierta todo, al día siguiente falla estrepitosamente.

2. La Solución: La "Sopa de Modelos" (Model Soups)

En lugar de tener un solo estudiante, los autores proponen crear una "Sopa de Modelos".

Imagina que durante el entrenamiento, el estudiante toma notas en diferentes momentos:

A las 10:00 AM, tiene una idea brillante sobre cómo se ve un festival.
A las 2:00 PM, tiene otra perspectiva diferente sobre una artesanía.
A las 6:00 PM, tiene una tercera visión.

En lugar de elegir solo una de estas notas, la técnica de la "Sopa" toma todas esas versiones diferentes del estudiante y las mezcla en una sola "sopa" perfecta.

La analogía culinaria: No es como mezclar ingredientes al azar. Es como si un chef experto (el algoritmo) probara la sopa en diferentes momentos, y solo añadiera los ingredientes (las versiones del modelo) que mejoran el sabor, ignorando los que arruinan el plato.
El resultado: Obtienes un "super-estudiante" que tiene la sabiduría combinada de todos los momentos, pero que solo ocupa el espacio de uno solo. ¡Es como tener el cerebro de un equipo entero en la cabeza de una sola persona!

3. ¿Por qué funciona tan bien? (La Diversidad)

El estudio descubrió algo fascinante usando una técnica llamada MDS (que es como un mapa de estrellas).

Imagina que cada versión del modelo es una estrella en el cielo.
Los métodos antiguos (como el "Voto Suave") tomaban estrellas que estaban muy juntas, casi pegadas. Al mezclarlas, no ganaban mucha información nueva.
La "Sopa de Modelos", en cambio, busca estrellas que están lejos unas de otras en el cielo (modelos con perspectivas muy diferentes). Al mezclar estrellas distantes, cubres todo el cielo y reduces los errores.

4. Los Resultados: ¡Un Éxito Cultural!

Cuando probaron esta "Sopa" con las fotos del Delta del Mekong:

Antes: Los mejores métodos acertaban alrededor del 65-67% de las veces.
Ahora: Con la "Sopa", la precisión subió al 72.36%.
Es como si, de repente, el sistema pudiera distinguir entre festivales que antes parecían idénticos, ayudando a preservar estas tradiciones de manera más digital y precisa.

En Resumen

Este estudio nos enseña que, cuando tenemos pocos datos (como en el caso de las culturas ricas pero poco documentadas), no necesitamos crear modelos más complejos y pesados. En su lugar, podemos tomar un modelo inteligente, dejarlo "pensar" en diferentes momentos, y mezclar sus mejores ideas en una sola "sopa" que es más sabia, más estable y más precisa que cualquiera de sus partes por separado.

Es una forma de celebrar la diversidad, no solo en la cultura humana, sino también en la inteligencia artificial, para proteger nuestro patrimonio común.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo en español, estructurado según los puntos solicitados:

Resumen Técnico: Clasificación de Imágenes del Patrimonio Cultural Inmaterial del Delta del Mekong mediante "Model Soups" y CoAtNet

1. Planteamiento del Problema

La clasificación de imágenes del Patrimonio Cultural Inmaterial (ICH, por sus siglas en inglés) en el Delta del Mekong (Vietnam) enfrenta desafíos únicos que limitan la eficacia de los modelos de aprendizaje profundo convencionales:

Datos limitados y ruidosos: El conjunto de datos (ICH-17) contiene solo 7,406 imágenes distribuidas en 17 clases, con una proporción significativa de imágenes irrelevantes o ruidosas tras el preprocesamiento manual.
Alta similitud visual interclase: Muchas categorías comparten contextos visuales muy similares (ej. festivales religiosos o ceremonias con decoraciones y escenarios parecidos), lo que dificulta la distinción.
Heterogeneidad del dominio: La diversidad de expresiones culturales y la variabilidad en la calidad de las imágenes provocan que los modelos tiendan al sobreajuste (overfitting) o a aprender correlaciones espurias, resultando en una mala generalización.
Costo computacional: Las técnicas de ensamble tradicionales (como el Soft Voting con múltiples modelos independientes) aumentan el costo de inferencia y el uso de memoria, lo cual es poco práctico para despliegues eficientes.

2. Metodología Propuesta

Los autores proponen un marco robusto que combina una arquitectura híbrida avanzada con una técnica de ensamble eficiente en el espacio de pesos:

Arquitectura Base (CoAtNet): Se utiliza CoAtNet, un modelo híbrido que integra operaciones convolucionales (para capturar patrones locales) con mecanismos de auto-atención (para modelar dependencias de largo alcance). La arquitectura propuesta sigue una configuración C-C-T-T (dos etapas convolucionales seguidas de dos etapas tipo Transformer), equilibrando la extracción de características locales y el contexto global. Se evaluaron dos variantes: CoAtNet-0 y CoAtNet-2 (más pesado).
Técnica de Ensamble: Model Soups: En lugar de entrenar múltiples modelos desde cero con diferentes semillas, se generan múltiples checkpoints (puntos de guardado) durante un único proceso de entrenamiento de CoAtNet.
- Estrategia de Selección: Se emplea un algoritmo de selección "hambrienta" (greedy). Se comienza con el checkpoint de mayor precisión en validación y se añaden iterativamente otros checkpoints solo si su promedio con el conjunto actual mejora el rendimiento en validación.
- Promedio de Pesos: Una vez seleccionados los checkpoints óptimos, se promedian sus vectores de parámetros ( $\theta_{soup} = \frac{1}{|S|} \sum \theta^{(k)}$ ). Esto crea un único modelo final que no requiere tiempo de inferencia adicional ni almacenamiento extra en comparación con un solo modelo.
Análisis de Diversidad: Para entender la eficacia del ensamble, se utiliza la Escalación Multidimensional (MDS) basada en distancias de entropía cruzada entre las salidas de los modelos. Esto permite visualizar la diversidad geométrica de los checkpoints en el espacio de salidas, demostrando que el método selecciona modelos complementarios y no redundantes.

3. Contribuciones Clave

Aplicación pionera: Es el primer estudio que aplica la técnica de Model Soups sobre una arquitectura CoAtNet para la clasificación de patrimonio cultural.
Eficiencia sin sacrificar rendimiento: Demuestra que el promediado de pesos en el espacio de parámetros mejora la generalización sin aumentar el costo de inferencia, a diferencia de los ensambles tradicionales.
Análisis teórico-empírico: Proporciona una descomposición de sesgo-varianza y una visualización geométrica (vía MDS) que confirma que Model Soups reduce la varianza al estabilizar predicciones a través de checkpoints diversos, mientras que el Soft Voting tiende a promediar modelos redundantes y agrupados.
Validación en datos escasos: Evidencia que el preentrenamiento en ImageNet es crucial para este dominio, ya que el entrenamiento desde cero (from scratch) provoca una caída drástica en el rendimiento (aprox. 20-22 puntos porcentuales).

4. Resultados Experimentales

Los experimentos se realizaron en el conjunto de datos ICH-17 (17 clases, 7,406 imágenes), dividido en entrenamiento, validación y prueba.

Rendimiento General:
- El modelo CoAtNet-2 + Uniform Soup alcanzó el estado del arte (SOTA) con una precisión (Accuracy) del 72.36% y un F1-score macro del 69.28%.
- Superó significativamente a las líneas base fuertes: ResNet-50 (65.55%), DenseNet-121 (64.35%) y ViT (70.09%).
- Incluso la variante más ligera, CoAtNet-0, superó a ViT y a los modelos anteriores sin ensamble, demostrando la eficiencia de la arquitectura híbrida.
Comparación de Estrategias:
- Tanto el Uniform Soup (promedio de todos los seleccionados) como el Greedy Soup (selección incremental) mejoraron el rendimiento sobre el modelo base.
- El Uniform Soup obtuvo los mejores resultados globales, mientras que el Greedy Soup ofreció una mejora ligeramente menor pero competitiva, útil en escenarios con restricciones de recursos.
Análisis por Clase:
- El método mejoró el F1-score en 11 de las 17 clases.
- Mejoras notables se observaron en clases difíciles como "Festival Ok Om Bok" (Clase 6), donde la precisión saltó del 61.70% al 74.47%, indicando una mayor estabilidad en categorías ambiguas.
Análisis de Diversidad (MDS):
- La visualización mostró que los modelos ingredientes (ingredients) están bien dispersos en el espacio de salidas.
- El ensamble resultante se sitúa en el centro de esta distribución, confirmando que integra comportamientos heterogéneos. En contraste, el Soft Voting tiende a agruparse en regiones más redundantes.

5. Significado e Impacto

Este trabajo es significativo por varias razones:

Preservación Cultural: Ofrece una solución escalable y de alto rendimiento para digitalizar y clasificar el patrimonio cultural inmaterial del Delta del Mekong, facilitando su documentación y difusión.
Avance en Aprendizaje Profundo: Valida que el promediado de pesos (weight-space ensembling) es una estrategia superior para reducir la varianza en entornos de datos limitados (low-resource), superando a las técnicas de votación tradicionales.
Eficiencia Operativa: Al generar un único modelo final a partir de múltiples checkpoints, la solución es ideal para despliegues en entornos con recursos computacionales limitados, manteniendo la robustez de un ensamble.
Guía para Futuras Investigaciones: Establece una base para integrar señales multimodales (metadatos textuales) y escalar la metodología a otros conjuntos de datos de patrimonio cultural en diferentes regiones.

En conclusión, la combinación de la arquitectura híbrida CoAtNet con la técnica de Model Soups proporciona un marco principista y eficiente para abordar la clasificación de imágenes culturales complejas, logrando un equilibrio óptimo entre precisión, generalización y costo computacional.

Leveraging Model Soups to Classify Intangible Cultural Heritage Images from the Mekong Delta

1. El Problema: El "Estudiante Solitario"

2. La Solución: La "Sopa de Modelos" (Model Soups)

3. ¿Por qué funciona tan bien? (La Diversidad)

4. Los Resultados: ¡Un Éxito Cultural!

En Resumen

Resumen Técnico: Clasificación de Imágenes del Patrimonio Cultural Inmaterial del Delta del Mekong mediante "Model Soups" y CoAtNet

1. Planteamiento del Problema

2. Metodología Propuesta

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Más como este

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers