Leveraging Model Soups to Classify Intangible Cultural Heritage Images from the Mekong Delta

Este trabajo propone un marco robusto que combina la arquitectura CoAtNet con la técnica de "model soups" para clasificar imágenes del Patrimonio Cultural Inmaterial del Delta del Mekong, logrando un rendimiento superior al reducir la varianza mediante el promediado de checkpoints diversos en un escenario de datos limitados.

Quoc-Khang Tran, Minh-Thien Nguyen, Nguyen-Khang Pham

Publicado 2026-03-10
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que tienes una biblioteca llena de fotos antiguas y preciosas del Delta del Mekong en Vietnam. Estas fotos muestran tradiciones que no se pueden tocar, como bailes, festivales, música y artesanías. A este tipo de patrimonio lo llamamos "Patrimonio Cultural Inmaterial".

El problema es que clasificar estas fotos es un verdadero reto, como intentar distinguir entre dos gemelos que visten casi igual. Muchas tradiciones se ven muy parecidas en las imágenes (por ejemplo, dos festivales diferentes que ambos tienen mucha gente, música y templos), y además, hay muy pocas fotos de buena calidad para enseñarle a una computadora cómo diferenciarlas.

Aquí es donde entra este estudio, que propone una solución inteligente y elegante. Vamos a explicarlo con una analogía sencilla:

1. El Problema: El "Estudiante Solitario"

Imagina que tienes un estudiante muy inteligente (un modelo de Inteligencia Artificial llamado CoAtNet) que intenta aprender a identificar estas tradiciones.

  • Si le das solo un libro de texto (un modelo entrenado una sola vez), el estudiante podría memorizar demasiado los ejemplos que ve y fallar cuando le muestres algo nuevo (esto se llama sobreajuste).
  • O podría ser muy inestable: un día acierta todo, al día siguiente falla estrepitosamente.

2. La Solución: La "Sopa de Modelos" (Model Soups)

En lugar de tener un solo estudiante, los autores proponen crear una "Sopa de Modelos".

Imagina que durante el entrenamiento, el estudiante toma notas en diferentes momentos:

  • A las 10:00 AM, tiene una idea brillante sobre cómo se ve un festival.
  • A las 2:00 PM, tiene otra perspectiva diferente sobre una artesanía.
  • A las 6:00 PM, tiene una tercera visión.

En lugar de elegir solo una de estas notas, la técnica de la "Sopa" toma todas esas versiones diferentes del estudiante y las mezcla en una sola "sopa" perfecta.

  • La analogía culinaria: No es como mezclar ingredientes al azar. Es como si un chef experto (el algoritmo) probara la sopa en diferentes momentos, y solo añadiera los ingredientes (las versiones del modelo) que mejoran el sabor, ignorando los que arruinan el plato.
  • El resultado: Obtienes un "super-estudiante" que tiene la sabiduría combinada de todos los momentos, pero que solo ocupa el espacio de uno solo. ¡Es como tener el cerebro de un equipo entero en la cabeza de una sola persona!

3. ¿Por qué funciona tan bien? (La Diversidad)

El estudio descubrió algo fascinante usando una técnica llamada MDS (que es como un mapa de estrellas).

  • Imagina que cada versión del modelo es una estrella en el cielo.
  • Los métodos antiguos (como el "Voto Suave") tomaban estrellas que estaban muy juntas, casi pegadas. Al mezclarlas, no ganaban mucha información nueva.
  • La "Sopa de Modelos", en cambio, busca estrellas que están lejos unas de otras en el cielo (modelos con perspectivas muy diferentes). Al mezclar estrellas distantes, cubres todo el cielo y reduces los errores.

4. Los Resultados: ¡Un Éxito Cultural!

Cuando probaron esta "Sopa" con las fotos del Delta del Mekong:

  • Antes: Los mejores métodos acertaban alrededor del 65-67% de las veces.
  • Ahora: Con la "Sopa", la precisión subió al 72.36%.
  • Es como si, de repente, el sistema pudiera distinguir entre festivales que antes parecían idénticos, ayudando a preservar estas tradiciones de manera más digital y precisa.

En Resumen

Este estudio nos enseña que, cuando tenemos pocos datos (como en el caso de las culturas ricas pero poco documentadas), no necesitamos crear modelos más complejos y pesados. En su lugar, podemos tomar un modelo inteligente, dejarlo "pensar" en diferentes momentos, y mezclar sus mejores ideas en una sola "sopa" que es más sabia, más estable y más precisa que cualquiera de sus partes por separado.

Es una forma de celebrar la diversidad, no solo en la cultura humana, sino también en la inteligencia artificial, para proteger nuestro patrimonio común.