Leveraging Model Soups to Classify Intangible Cultural Heritage Images from the Mekong Delta

Die Studie stellt einen robusten Framework vor, der die CoAtNet-Architektur mit der Model-Soups-Technik kombiniert, um die Klassifizierung von Bildern des immateriellen Kulturerbes im Mekong-Delta in ressourcenarmen Szenarien durch eine varianzreduzierende Gewichtung diverser Checkpoints auf ein neues Leistungsniveau zu heben.

Quoc-Khang Tran, Minh-Thien Nguyen, Nguyen-Khang Pham

Veröffentlicht 2026-03-10
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Titel: Wie man die unsichtbare Kultur des Mekong-Deltas mit einer „Suppe" aus KI-Modellen rettet

Stellen Sie sich vor, Sie versuchen, die reiche, unsichtbare Kultur des Mekong-Deltas in Vietnam zu bewahren. Es gibt dort unzählige Traditionen: Musikfeste, Bootsbau, Weben von Matten und spezielle Zeremonien. Die Forscher wollen diese Traditionen digital archivieren, indem sie ein Computerprogramm (eine KI) trainieren, das Fotos dieser Ereignisse automatisch erkennt und benennt.

Das Problem? Es gibt nur wenige, gut beschriftete Fotos, und viele Traditionen sehen sich auf Bildern extrem ähnlich. Ein Bootsfest sieht dem anderen sehr ähnlich, und eine Zeremonie kann leicht mit einer anderen verwechselt werden. Ein normaler KI-Modell lernt hier oft nur auswendig (es „übertrifft" die Daten) oder macht viele Fehler, weil es zu unsicher ist.

Hier kommt die Lösung der Autoren ins Spiel: Die „Modell-Suppe" (Model Soups).

1. Das Problem: Der einsame Kämpfer

Stellen Sie sich einen einzelnen KI-Experten vor, der versucht, alle diese Traditionen zu lernen. Da er nur wenige Beispiele hat, neigt er dazu, sich zu sehr auf Details zu versteifen, die eigentlich nur Zufall sind. Wenn er dann ein neues Foto sieht, das leicht anders aussieht als die Trainingsbilder, wird er unsicher und macht Fehler. In der Wissenschaft nennt man das eine hohe „Varianz" – er ist zu empfindlich.

2. Die Lösung: Der Kochtopf mit vielen Köchen

Anstatt nur einen einzigen Experten zu haben, trainieren die Forscher einen einzigen KI-Experten (ein sogenanntes CoAtNet-Modell) über einen längeren Zeitraum. Während des Trainings macht dieser Experte viele Zwischenstände (Checkpoints).

  • Der Trick: Statt nur den letzten Stand zu nehmen, nehmen sie mehrere dieser Zwischenstände.
  • Die Suppe: Sie mischen die „Gedanken" (die Gewichte) dieser verschiedenen Zwischenstände einfach zusammen. Es ist, als würden Sie einen Topf Suppe kochen, indem Sie die besten Zutaten von verschiedenen Kochphasen in einen Topf werfen und alles gut verrühren.
  • Das Ergebnis: Sie erhalten einen einzigen, neuen KI-Experten, der die Stärken aller vorherigen Phasen vereint. Er ist nicht mehr so empfindlich, sondern stabiler und weiser.

Es gibt zwei Methoden, diese Suppe zu kochen:

  1. Die „Gierige" Suppe (Greedy Soup): Der Koch probiert jeden neuen Löffel Suppe. Wenn er schmeckt, wird er behalten. Wenn nicht, wird er weggelassen.
  2. Die „Gleiche" Suppe (Uniform Soup): Der Koch nimmt einfach alle guten Löffel und mischt sie zu gleichen Teilen.

3. Warum funktioniert das? (Die Analogie des Orchesters)

Stellen Sie sich vor, Sie haben ein Orchester. Wenn Sie nur einen Geiger hören, der nervös ist, klingt die Musik schlecht. Wenn Sie aber viele Geiger haben, die leicht unterschiedlich spielen, und Sie deren Klang mischen, gleichen sich die kleinen Fehler aus.

Die Forscher haben gezeigt, dass diese „Suppe" aus KI-Modellen nicht einfach nur viele gleiche Modelle mischt (wie ein Chor, der alle denselben Fehler macht). Stattdessen wählt die Methode Modelle aus, die sich in ihrer Denkweise unterscheiden (sie sind „divers").

  • Soft Voting (die alte Methode): Hier würden alle Modelle einfach ihre Meinung abgeben und der Durchschnitt wird genommen. Das ist wie ein Chor, bei dem jeder schreit, was er will, und man den Durchschnitt nimmt. Das funktioniert okay, aber es ist nicht optimal.
  • Modell-Suppe: Hier werden nur die Modelle ausgewählt, die sich geometrisch im Raum der Möglichkeiten unterscheiden. Es ist, als würde man einen Dirigenten wählen, der genau die richtigen Musiker kombiniert, damit sie sich gegenseitig ergänzen und keine Lücken lassen.

4. Das Ergebnis: Ein Meisterwerk der Kultur

Die Forscher haben ihre Methode an einem Datensatz mit 17 verschiedenen Kategorien von Traditionen getestet (insgesamt 7.406 Bilder).

  • Vorher: Die besten alten Methoden lagen bei etwa 65–67 % Richtigkeit.
  • Nachher: Mit der „Modell-Suppe" und dem CoAtNet-Modell erreichten sie 72,36 % Richtigkeit.

Das ist ein riesiger Sprung! Besonders bei schwierigen Kategorien, die sich sehr ähnlich sehen, hat die Suppe geholfen, die Unterscheidung zu treffen.

5. Warum ist das wichtig?

Dies ist nicht nur ein technischer Sieg. Es zeigt, wie man mit wenig Daten (wenigen Fotos) trotzdem sehr gute Ergebnisse erzielen kann.

  • Kein Extra-Aufwand: Man muss keine neuen, teuren Modelle trainieren. Man nimmt einfach die, die man schon hat, und mischt sie.
  • Stabilität: Die KI wird weniger nervös und verlässlicher.
  • Kulturerbe: Es hilft, die unschätzbare Kultur des Mekong-Deltas digital zu bewahren, auch wenn es nur wenige Fotos davon gibt.

Zusammenfassend:
Die Autoren haben bewiesen, dass man nicht immer einen neuen, super-teuren Supercomputer braucht, um KI besser zu machen. Manchmal reicht es, die „Gedanken" eines einzigen Modells zu verschiedenen Zeitpunkten zu mischen – wie eine gute Suppe –, um die Kultur der Welt besser zu verstehen und zu schützen.