Leveraging Model Soups to Classify Intangible Cultural Heritage Images from the Mekong Delta

Questo studio propone un framework innovativo che combina l'architettura CoAtNet con la tecnica "model soups" per classificare immagini del patrimonio culturale immateriale del Delta del Mekong, ottenendo risultati all'avanguardia su dati scarsi riducendo la varianza del modello senza aumentare i costi di inferenza.

Quoc-Khang Tran, Minh-Thien Nguyen, Nguyen-Khang Pham

Pubblicato 2026-03-10
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

🎨 Il "Sapore Unico" della Cultura: Come l'Intelligenza Artificiale impara a riconoscere le tradizioni del Delta del Mekong

Immagina di essere un cuoco esperto che deve riconoscere i piatti tipici di una regione specifica: il Delta del Mekong in Vietnam. Questo posto è pieno di tradizioni incredibili, come feste antiche, musiche uniche e mestieri artigianali (come tessere stuoie o intrecciare bambù).

Il problema? Ci sono migliaia di foto di queste tradizioni, ma sono tutte un po' confuse.

  • Due feste diverse possono sembrare identiche (stessi colori, stesse persone, stessi luoghi).
  • Non ci sono molte foto "etichettate" (come se avessimo solo 10 ricette scritte per 1000 piatti diversi).
  • L'Intelligenza Artificiale (IA), se lasciata sola, si confonde facilmente: o impara a memoria le foto sbagliate (come un bambino che impara la risposta a una domanda senza capire la materia) o non impara nulla di utile.

Gli autori di questo studio hanno trovato un modo geniale per risolvere questo problema. Ecco come funziona, passo dopo passo.

1. L'Architetto Ibrido: CoAtNet (Il Cuoco con Due Mani)

Per prima cosa, hanno scelto un "architetto" speciale per costruire il cervello dell'IA, chiamato CoAtNet.
Immagina un cuoco che ha due mani:

  • La mano sinistra è un vecchio maestro che guarda i dettagli vicini (come il filo di una stuoia o il tessuto di un vestito).
  • La mano destra è un visionario che guarda il quadro d'insieme (come l'atmosfera della festa o la folla).
    CoAtNet unisce queste due abilità: guarda i dettagli e il contesto allo stesso tempo. È molto meglio dei vecchi metodi che guardavano solo i dettagli o solo il contesto.

2. Il Segreto: Le "Zuppe di Modelli" (Model Soups)

Qui arriva la parte più divertente. Normalmente, quando addestri un'IA, ottieni un "cervello" finale. Se sbaglia, ricominci da capo.
Invece, gli autori hanno detto: "E se invece di un solo cervello, ne avessimo tanti piccoli, presi durante il viaggio di apprendimento?".

Immagina di cuocere una zuppa:

  • Hai un pentolone (il modello di base).
  • Durante la cottura, assaggi la zuppa ogni tanto e salvi un cucchiaino di quella versione (questi sono i checkpoint).
  • A volte la zuppa è troppo salata, a volte troppo dolce, a volte perfetta.
  • Invece di scegliere solo il cucchiaino "perfetto", prendi diversi cucchiaini presi in momenti diversi e li mescoli tutti insieme in una grande zuppa finale.

Questa tecnica si chiama "Model Soups" (Zuppe di Modelli).

  • Zuppa Uniforme: Mescoli tutti i cucchiaini salvati in parti uguali.
  • Zuppa "Avidità" (Greedy): Assaggi ogni volta che aggiungi un cucchiaino. Se la zuppa diventa migliore, lo tieni; se peggiora, lo butti via.

Perché funziona?
Se mescoli solo zuppe identiche, ottieni la stessa zuppa. Ma se mescoli zuppe leggermente diverse (alcune più salate, altre più dolci), il risultato è una zuppa perfettamente bilanciata che non sbaglia quasi mai. L'IA diventa più stabile e meno propensa a fare errori stupidi.

3. La Mappa della Diversità (MDS)

Gli scienziati hanno voluto essere sicuri che non stessero mescolando zuppe tutte uguali. Hanno usato una mappa speciale (chiamata MDS) per vedere dove si trovavano i "cucchiaini" nello spazio delle idee.
Hanno scoperto che:

  • I vecchi metodi (come il "Voto Morbido") prendevano cucchiaini che erano tutti raggruppati nello stesso punto (tutti uguali).
  • La loro "Zuppa" prendeva cucchiaini sparsi ovunque: alcuni a nord, alcuni a sud, alcuni a est.
    Conclusione: Hanno mescolato ingredienti molto diversi tra loro, creando una ricetta molto più ricca e resistente.

4. I Risultati: Un Trionfo Culturale

Hanno testato tutto questo su 7.406 foto di 17 diverse tradizioni del Delta del Mekong.

  • I vecchi metodi (come ResNet o ViT) avevano un successo del 65-70%.
  • La loro "Zuppa" con l'architetto CoAtNet ha raggiunto il 72,36% di precisione.

Non è solo un numero: significa che l'IA ora riesce a distinguere meglio una festa religiosa da un'altra, o un mestiere artigianale da un altro, anche quando le foto sono confuse o simili.

🌟 In Sintesi

Immagina di dover insegnare a un bambino a riconoscere le tradizioni del Vietnam.

  1. Invece di dargli un solo libro di testo, gli dai molti appunti presi in momenti diversi.
  2. Invece di fargli scegliere il "migliore" appuntino, gli fai leggere e mescolare tutti gli appunti insieme.
  3. Il risultato è un bambino che capisce la materia in modo più profondo, sicuro e creativo, senza confondersi quando le cose si assomigliano.

Questo studio ci dice che, per salvare e digitalizzare la nostra cultura (specialmente quando abbiamo poche foto), non serve sempre un computer più potente, ma serve mescolare le idee giuste nel modo giusto. Una vera "zuppa" di intelligenza! 🍲🧠🇻🇳