Leveraging Model Soups to Classify Intangible Cultural Heritage Images from the Mekong Delta

Cet article propose un cadre robuste combinant l'architecture hybride CoAtNet et la technique de « model soups » pour améliorer la classification des images du patrimoine culturel immatériel du delta du Mékong, atteignant des performances de pointe en réduisant la variance grâce à un ensemencement intelligent de checkpoints géométriquement diversifiés.

Quoc-Khang Tran, Minh-Thien Nguyen, Nguyen-Khang Pham

Publié 2026-03-10
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple et imagée de cet article de recherche, comme si nous en discutions autour d'un café.

🌊 Le Défi : Classer les Trésors du Mékong

Imaginez que vous êtes un archiviste dans le delta du Mékong (au Vietnam). Votre mission est de trier des milliers de photos de patrimoine culturel immatériel : des festivals, des danses, des métiers d'art (comme tisser des nattes ou construire des bateaux en bois).

Le problème ? C'est un vrai casse-tête pour deux raisons :

  1. Il y a peu de photos : Contrairement aux chats ou aux voitures, il n'y a pas des millions d'exemples pour chaque tradition.
  2. Tout se ressemble : Regardez la photo d'un festival de prière à la mer et celle d'une cérémonie dans un temple. Pour un humain, c'est différent. Pour un ordinateur, c'est souvent un brouillard de couleurs et de foules très similaires.

Si on demande à un ordinateur standard de classer ces photos, il va souvent se tromper, soit parce qu'il n'a pas assez appris (il "oublie" vite), soit parce qu'il a trop appris par cœur sur les rares exemples (il "hallucine" des détails qui n'existent pas).

🧠 La Solution : Le "CoAtNet" et la "Soupe de Modèles"

Les chercheurs ont proposé une recette en deux étapes pour résoudre ce problème.

1. Le Cuisinier de Base : CoAtNet

Imaginez un chef cuisinier très doué nommé CoAtNet. Ce chef a une double compétence unique :

  • Il a l'œil d'un peintre (les convolutions) qui voit les détails locaux : le motif sur un tissu, la couleur d'un costume.
  • Il a la vision d'un astronome (l'attention) qui voit le contexte global : la foule, l'ambiance du festival, la relation entre les objets.

En combinant ces deux regards, CoAtNet est bien meilleur pour comprendre ces images complexes que les chefs traditionnels (comme ResNet ou ViT).

2. La Magie : La "Soupe de Modèles" (Model Soups)

C'est ici que ça devient intéressant. Au lieu de faire confiance à un seul chef, les chercheurs ont une idée géniale : faire une soupe.

Imaginez que vous entraînez votre chef CoAtNet pendant 50 jours. À la fin de chaque jour, vous prenez une "photo" de ses connaissances (un checkpoint).

  • Le jour 10, il est encore un peu novice.
  • Le jour 30, il est excellent mais un peu trop confiant.
  • Le jour 45, il est très prudent.

Habituellement, on ne garde que la photo du jour 45 (le meilleur). Mais ici, les chercheurs disent : "Et si on mélangeait les connaissances du jour 10, 20, 30 et 45 ?"

C'est la Soupe de Modèles. Ils prennent les poids (les connaissances) de plusieurs versions du modèle et les moyennent (ils les mélangent dans une casserole).

  • L'analogie : C'est comme si vous demandiez à un jury de 5 experts de voter. Au lieu de prendre la décision du seul expert le plus fort, vous prenez la moyenne de leurs avis. Si l'un se trompe sur un détail, les autres le corrigent. Le résultat est plus stable, plus juste et moins sujet aux erreurs.

Il existe deux façons de faire cette soupe :

  • La Soupe Uniforme : On prend un échantillon aléatoire de bons jours et on les mélange tous.
  • La Soupe Gourmande (Greedy) : On commence avec le meilleur jour, puis on ajoute un autre jour seulement si cela améliore encore le goût de la soupe. On ne garde que les ingrédients qui ajoutent vraiment quelque chose.

📊 Les Résultats : Une Victoire Culturelle

Les chercheurs ont testé cette méthode sur 7 406 photos de 17 catégories différentes.

  • Sans la soupe : Le meilleur modèle classique (ViT) avait environ 67% de réussite.
  • Avec la soupe : Leur modèle a atteint 72,36% de réussite !

C'est une différence énorme dans le monde de l'intelligence artificielle. De plus, cela ne coûte pas plus cher à l'utilisation : une fois la soupe mélangée, on n'a qu'un seul modèle à utiliser, pas cinq.

🔍 Pourquoi ça marche ? (L'Analyse)

Pourquoi mélanger des modèles aide-t-il ?
Les chercheurs ont utilisé une technique visuelle (appelée MDS) pour regarder comment les modèles "pensent".

  • Le vote classique (Soft Voting) : C'est comme prendre 10 personnes qui ont toutes la même opinion et les faire voter. Le résultat est le même, juste un peu plus bruyant.
  • La Soupe de Modèles : C'est comme prendre 10 personnes qui ont des opinions différentes mais complémentaires. En les mélangeant, on obtient une vision plus large et plus précise. La "soupe" sélectionne des modèles qui regardent les images sous des angles différents, ce qui réduit les erreurs.

🎓 En Résumé

Cette recherche nous apprend que pour protéger et classer le patrimoine culturel (qui est souvent rare et complexe), il ne faut pas chercher le "super-héros" unique. Il faut plutôt créer une équipe.

En mélangeant intelligemment les différentes étapes d'apprentissage d'une seule intelligence artificielle (la "soupe"), on obtient un expert plus sage, plus fiable et capable de distinguer les nuances subtiles de la culture du delta du Mékong, même avec peu de données.

C'est une victoire pour la technologie, mais surtout pour la préservation de la mémoire humaine ! 🇻🇳✨