Culture in Action: Evaluating Text-to-Image Models through Social Activities

Die Studie stellt CULTIVate vor, einen Benchmark zur Bewertung von Text-zu-Bild-Modellen anhand kulturell spezifischer sozialer Aktivitäten, der systematische Verzerrungen zugunsten des globalen Nordens aufdeckt und neue Metriken für eine kulturtreue Bildgenerierung bietet.

Sina Malakouti, Boqing Gong, Adriana Kovashka

Veröffentlicht 2026-03-09
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest ein Foto von einem typischen deutschen Weihnachtsmarkt machen. Ein guter Fotograf würde wissen: Es gibt Glühwein, Tannenbäume, vielleicht ein paar Lebkuchenherzen und Menschen in warmen Mänteln. Aber was passiert, wenn du einen Roboter beauftragst, dieses Bild zu malen, der nur im Internet gelernt hat?

Der Roboter könnte plötzlich riesige Bären auf dem Markt herumlaufen lassen, weil er das Wort „Bär" mit Deutschland verknüpft hat, oder er malt die Glühweintassen so riesig, dass sie wie Eimer aussehen. Er versteht zwar die Wörter, aber nicht die Kultur.

Genau dieses Problem untersuchen die Autoren dieses Papers mit dem Titel „Kultur in Aktion". Hier ist die Erklärung in einfachen Worten:

1. Das Problem: Roboter kennen nur Klischees

Bisher haben Forscher geprüft, ob KI-Bilder gut aussehen, indem sie nach Objekten suchten (z. B. „Ist da ein Eiffelturm?"). Aber Kultur ist mehr als nur Objekte. Kultur ist, wie Menschen interagieren.

  • Beispiel: In Iran isst man oft auf dem Boden um eine traditionelle Decke (Sofreh), während man in den USA am Tisch sitzt. Beide Szenen sind „Essen", aber die Kultur ist unterschiedlich.
  • Die aktuellen KI-Modelle (wie DALL-E oder Midjourney) machen hier oft Fehler. Sie produzieren Bilder, die entweder falsch sind (Halluzinationen) oder die Kultur so extrem übertreiben, dass es wie ein schlechter Hollywood-Film wirkt (Übertreibung).

2. Die Lösung: Ein neuer Test namens „CULTIVate"

Die Forscher haben einen neuen Test entwickelt, der wie ein kultureller Kochkurs funktioniert.

  • Sie haben 576 verschiedene soziale Aktivitäten (Tanzen, Grüßen, Essen, Feiern) aus 16 verschiedenen Ländern gesammelt.
  • Statt nur nach Objekten zu schauen, schauen sie sich an, wie die Menschen interagieren, wo sie stehen und was sie tragen.
  • Sie haben über 19.000 Bilder von KI-Modellen generiert und diese mit echten Fotos verglichen.

3. Der neue Maßstab: AHEaD (Das „Kultur-Check-System")

Bisher haben Forscher oft nur gemessen: „Passt das Bild zum Text?" (Das nennt man Alignment). Das ist wie wenn ein Lehrer sagt: „Du hast das Wort 'Apfel' benutzt, also ist die Aufgabe richtig." Aber was, wenn der Apfel aus Stein ist und auf dem Mond liegt?

Die Autoren haben ein neues System namens AHEaD erfunden. Stell es dir vor wie einen Kultursensoren-Check, der vier Dinge prüft:

  1. Alignment (Ausrichtung): Sind die wichtigen kulturellen Elemente da? (Ja, da ist ein Tannenbaum.)
  2. Hallucination (Halluzination): Sind Dinge da, die gar nicht dorthin gehören? (Nein, da sind keine Bären auf dem Weihnachtsmarkt.)
  3. Exaggeration (Übertreibung): Wurden die Dinge so extrem dargestellt, dass es lächerlich wirkt? (Nein, die Glühweintasse ist normal groß, nicht riesig.)
  4. Diversity (Vielfalt): Zeigt das Bild nur ein einziges Klischee oder verschiedene echte Varianten?

Das Geniale daran: Das System gibt nicht nur eine Punktzahl, sondern sagt dir genau: „Hey, du hast Bären auf dem Bild, die gehören nicht hierher, und die Tassen sind zu groß." So kann man die KI verbessern.

4. Was sie herausfanden (Die bittere Pille)

Die Forscher haben sechs der besten KI-Modelle getestet und kamen zu zwei wichtigen Ergebnissen:

  • Die alten Tests sind blind: Die bisherigen Methoden (die nur prüfen, ob Bild und Text ähnlich klingen) sind völlig unbrauchbar für Kultur. Sie loben oft genau die Bilder, die am meisten Klischees enthalten, weil die KI denkt: „Oh, Bär = Deutschland, also ist das gut!"
  • Der Nord-Süd-Unterschied: Die KI ist viel besser darin, Bilder für Länder des „Globalen Nordens" (wie USA, Deutschland, Frankreich) zu machen, als für Länder des „Globalen Südens" (wie Nigeria, Indien, Brasilien).
    • Vergleich: Wenn du der KI sagst „Feier in den USA", bekommt sie das ziemlich gut hin. Sagst du „Feier in Nigeria", produziert sie oft stereotypische oder falsche Bilder. Die KI hat also eine Art „kulturelle Voreingenommenheit".

5. Warum ist das wichtig?

Stell dir vor, du bist ein Filmemacher oder Werbetexter. Du willst eine Kampagne für ein Land in Afrika machen. Wenn du eine KI nutzt, die nur Klischees kennt, könntest du versehentlich beleidigende oder falsche Bilder produzieren.

Dieses Paper bietet ein Werkzeug, um diese Fehler zu finden und zu beheben. Es hilft uns, KI-Modelle zu trainieren, die nicht nur „hübsche Bilder" machen, sondern die die Seele und den Alltag verschiedener Kulturen wirklich verstehen und respektieren.

Kurz gesagt: Die Autoren haben eine neue Art von „Kultur-Prüfstein" gebaut, der uns zeigt, wo unsere KI noch in Klischees denkt, und uns sagt, wie wir sie dazu bringen können, die Welt so zu sehen, wie sie wirklich ist – nicht wie ein Hollywood-Film sie darstellt.