The Persistence of Cultural Memory: Investigating Multimodal Iconicity in Diffusion Models

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen sehr klugen, aber manchmal etwas verwirrten Koch. Dieser Koch hat Millionen von Kochbüchern, Fotos von Gerichten und Rezepten gelesen. Wenn Sie ihn bitten, „einen leckeren Burger" zu kochen, macht er einen ganz normalen Burger. Aber was passiert, wenn Sie ihn bitten, „den Burger aus dem Film Pulp Fiction" zu kochen?

Hier wird es spannend. Der Koch muss nun entscheiden: Soll er einfach nur irgendeinen Burger machen, der so aussieht wie in den Büchern? Oder soll er genau das Burger-Set aus dem Film nachbauen, mit dem speziellen Teller und dem speziellen Licht, das man aus dem Film kennt?

Genau dieses Problem untersucht die Studie von Maria-Teresa De Rosa Palmini und Eva Cetinic. Sie schauen sich an, wie moderne KI-Künstler (sogenannte Diffusions-Modelle) mit kulturellen Erinnerungen umgehen.

Das große Problem: „Erinnern" vs. „Nachahmen"

Wenn Sie der KI sagen: „Mach ein Bild von Der Schrei (das berühmte Gemälde von Munch)", passiert oft Folgendes:

Die KI „erinnert" sich: Sie weiß, worum es geht. Sie malt einen schreienden Menschen, einen orangefarbenen Himmel und eine Brücke. Das ist gut! Das zeigt, dass sie die kulturelle Bedeutung versteht.
Die KI „plagiiert": Aber manchmal kopiert sie das Originalbild fast 1:1. Das ist wie ein Schüler, der die Hausaufgaben einfach abfotografiert, anstatt sie selbst zu lösen. Das ist problematisch, weil es Urheberrechte verletzt.

Bisher haben Forscher nur gemessen: „Sieht das Bild dem Original ähnlich?" Aber das ist zu einfach. Die Autoren dieser Studie sagen: „Nein, wir müssen zwei Dinge trennen!"

Die neue Methode: Der „Kultur-Transformator"

Die Autoren haben eine neue Art zu messen erfunden, die sie CRT (Cultural Reference Transformation) nennen. Man kann sich das wie eine Waage vorstellen, die zwei Schalen hat:

Die linke Schale: „Erkennung" (Recognition)
- Frage: Versteht die KI, worum es geht?
- Wenn Sie „Der Schrei" eingeben, malt die KI einen schreienden Mann? Dann ist die linke Schale voll. Die KI hat den kulturellen Bezug erkannt.
Die rechte Schale: „Umsetzung" (Realization)
- Frage: Hat die KI das Original einfach abgeschrieben oder etwas Neues geschaffen?
- Wenn die KI den Mann in einer anderen Pose malt, mit anderen Farben oder einem neuen Hintergrund, aber man erkennt trotzdem sofort: „Aha, das ist Der Schrei!", dann ist die rechte Schale leer (im positiven Sinne!). Das bedeutet: Die KI hat das Konzept verstanden und neu interpretiert.

Das Ziel: Eine perfekte KI sollte die linke Schale voll haben (sie versteht den Bezug) und die rechte Schale leer lassen (sie kopiert nicht einfach). Sie sollte den „Schrei" neu malen, nicht den alten abfotografieren.

Was haben sie herausgefunden?

Die Forscher haben fünf verschiedene KI-Modelle getestet (darunter Stable Diffusion und Imagen) mit fast 800 verschiedenen kulturellen Begriffen – von berühmten Filmen wie Der Pate bis zu Albumcovern wie Dark Side of the Moon.

Hier sind die wichtigsten Erkenntnisse, einfach erklärt:

Nicht alle KIs sind gleich: Manche Modelle (wie Imagen 4) sind sehr gut darin, den kulturellen Bezug zu erkennen, ohne das Original zu stehlen. Andere Modelle (wie Flux) erkennen den Bezug oft gar nicht oder kopieren es zu stark.
Wörter sind mächtiger als Bilder: Wenn man den Prompt (den Befehl) leicht verändert – zum Beispiel statt „Der Schrei" einfach „Ein Mann, der schreit" sagt – dann fällt es manchen KIs schwer, das Bild zu erkennen. Andere KIs bleiben aber stabil. Das zeigt: Die KI lernt nicht nur Bilder, sondern auch, wie Wörter und Bilder in unserer Kultur zusammenhängen.
Es kommt auf die Einzigartigkeit an: Begriffe, die sehr einzigartig sind (z. B. ein sehr spezifischer Albumtitel), werden von der KI besser erkannt als Begriffe, die man überall hört. Es ist wie bei einem Lied: Wenn ein Song einen ganz einzigartigen Namen hat, erinnert sich die KI eher daran als an einen Song, der „Liebe" heißt (was es tausendfach gibt).
Das Alter spielt eine Rolle: Ältere Kunstwerke (wie klassische Gemälde) werden oft besser erkannt als ganz neue Dinge. Das liegt wahrscheinlich daran, dass diese Bilder schon so oft im Internet kopiert und geteilt wurden, dass die KI sie „in Fleisch und Blut" aufgenommen hat.

Warum ist das wichtig?

Stellen Sie sich vor, wir wollen KI-Modelle so trainieren, dass sie kreativ sind, aber keine Urheberrechte verletzen. Wenn wir nur sagen „Kopiere nichts!", könnte die KI vielleicht gar keine kulturellen Bilder mehr machen. Sie würde dann nur noch generische Dinge malen.

Diese Studie zeigt uns einen dritten Weg: Wir wollen KIs, die kulturelles Wissen haben, aber es in neue, eigene Kunst verwandeln.

Es ist der Unterschied zwischen einem Schüler, der die Lösung aus dem Lehrbuch abschreibt (schlecht), und einem Schüler, der die Aufgabe versteht und eine eigene, kreative Lösung findet (gut). Die Autoren sagen: „Lasst uns nicht nur prüfen, ob die KI kopiert. Lasst uns prüfen, ob sie die Kultur versteht und neu interpretiert."

Zusammenfassend: Die KI ist wie ein junger Künstler, der in einer Welt voller berühmter Bilder aufwächst. Diese Studie hilft uns zu messen, ob dieser Künstler die alten Meister nur nachplappert oder ob er ihren Geist versteht und eigene, frische Werke schafft, die trotzdem an die alten erinnern.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Text-to-Image (TTI) Diffusionsmodelle stehen vor der Herausforderung, zwischen Generalisierung (dem Lernen von Konzepten) und Memorization (dem Auswendiglernen von Trainingsdaten) zu unterscheiden. Dies wird besonders komplex bei kulturell geteilten visuellen Referenzen (z. B. Titel bekannter Filme, Gemälde oder Albumcover).

Das Dilemma: Wenn ein Modell auf einen Prompt wie „The Dark Side of the Moon" reagiert, erwartet der Nutzer oft das ikonische Prisma des Pink-Floyd-Albums, nicht ein wörtliches Bild des Mondes. Dies ist eine „multimodale Ikonizität" – eine kulturell fundierte Assoziation zwischen Text und visuellen Motiven.
Die Lücke: Bestehende Evaluierungsmetriken behandeln jede Ähnlichkeit zur Trainingsdaten als potenzielle Urheberrechtsverletzung oder „Memorization". Sie können nicht unterscheiden, ob ein Modell ein kulturelles Motiv kreativ neu interpretiert (Generalisierung) oder das Originalbild einfach kopiert (Memorization). Dies führt zu einer unzureichenden Bewertung, wie KI-Modelle kulturelles Gedächtnis verarbeiten.

2. Methodik

Die Autoren stellen einen neuen Evaluierungsrahmen vor, der zwei Dimensionen der Modellreaktion trennt: Erkennung (Recognition) und Realisierung (Realization).

A. Datensatz

Quelle: 767 kulturelle Referenzen aus Wikidata (374 statische Bilder wie Gemälde/Alben, 393 bewegte Bilder wie Filme/Serien).
Auswahlkriterien: Nur Titel (ohne Künstlernamen), Filterung auf globale Sichtbarkeit (>20 Sprachlinks), Entfernung von Eigennamen zur Vermeidung von rein lexikalischer Memorization.

B. Metriken

Erkennung (Cultural Reference Alignment - CRA):
- Misst, ob das generierte Bild die beabsichtigte kulturelle Referenz evoziert.
- Methode: Cosine-Similarität zwischen CLIP-Embeddings des generierten Bildes und einer Referenzmenge (kanonische Bilder).
- Schwellenwert: $\tau = 0.7$ . Ein Bild gilt als erkannt, wenn es über diesem Wert liegt.
Realisierung (Visual Reuse - VR):
- Misst, inwieweit lokale Bildinhalte aus den Referenzbildern kopiert wurden.
- Methode: Nutzung von DINOv3 für Patch-Level-Analyse. Bilder werden in $4\times4$ Gitter unterteilt. Die Ähnlichkeit jedes Patches des generierten Bildes zu allen Patches der Referenzbilder wird berechnet.
- Schwellenwert: $\tau_{patch} = 0.6$ .
Cultural Reference Transformation (CRT):
- Die zentrale Metrik, die beide Aspekte kombiniert: $CRT = CRA \times (1 - VR)$ .
- Ziel: Hohe CRT-Werte bedeuten, dass das Modell die Referenz erkennt, sie aber visuell transformiert (neuartig) darstellt, anstatt sie zu replizieren.

C. Experimente

Modelle: 5 Diffusionsmodelle (Stable Diffusion 2, XL, 3; Flux Schnell; Imagen 4).
Prompt-Perturbation: Synonym-Ersetzungen und wörtliche Bildbeschreibungen (via LLM/VQA), um die linguistische Sensitivität zu testen.
Faktorenanalyse: Untersuchung des Einflusses von Trainingsdaten-Häufigkeit, Text-Uniktheit, Populärität und Entstehungsdatum auf die Erkennungsrate.

3. Wichtige Beiträge

Formalisierung von Multimodaler Ikonizität: Einführung eines neuen Evaluierungsdimensions für TTI-Modelle, die kulturell fundierte Text-Bild-Assoziationen berücksichtigt.
Entkopplung von Erkennung und Realisierung: Entwicklung des CRT-Frameworks, das zwischen „kulturell fundierter Neuinterpretation" und „direkter visueller Wiederverwendung" unterscheidet.
Benchmark: Evaluation von 5 Modellen auf 767 kulturellen Konzepten mit menschlicher Validierung.
Erkenntnis über Trainingsdaten: Nachweis, dass die Erkennung kultureller Referenzen nicht nur von der Häufigkeit im Training abhängt, sondern stark von der textuellen Einzigartigkeit (Text Uniqueness) und der kulturellen Prominenz beeinflusst wird.

4. Ergebnisse

Modellvergleich:
- Imagen 4 erreicht die höchste Erkennungsrate (CRA) und eine hervorragende Transformation (CRT), da es ikonische Motive erkennt, aber weniger direkt kopiert.
- Stable Diffusion 3 (SD3) zeigt eine hohe Erkennung, aber bei statischen Bildern eine stärkere visuelle Wiederverwendung (höheres VR) als Imagen 4.
- Flux Schnell zeigt die geringste visuelle Wiederverwendung, erkennt aber auch deutlich weniger Referenzen (niedriger CRA).
- SDXL liegt in der Mitte, neigt aber bei hoher Erkennung zu stärkerer Replikation.
Korrelationen:
- Es gibt eine moderate positive Korrelation zwischen Erkennung (CRA) und visueller Wiederverwendung (VR), aber bei hoher Erkennung variiert die VR stark.
- Nur 12–27 % der erkannten Referenzen erreichen eine hohe Transformation (CRT > 0.8), d.h., die meisten Modelle neigen bei ikonischen Prompts zur Replikation.
Prompt-Perturbation:
- Änderungen am Text (Synonyme) führen zu einem signifikanten Rückgang der Erkennung.
- Imagen 4 ist am robustesten gegenüber linguistischen Änderungen.
- Interessanterweise führt eine Perturbation bei erkannten Referenzen oft zu einer höheren Transformation (niedrigeres VR), da das Modell gezwungen wird, sich vom Originalbild zu lösen.
Einflussfaktoren:
- Der stärkste Prädiktor für die Erkennung ist die Text-Uniktheit (wie einzigartig der Titel im Embedding-Space ist).
- Bei statischen Bildern korreliert das Erstellungsdatum stark (ältere Werke werden besser erkannt, vermutlich durch stärkere Online-Präsenz und Wiederholung).
- Die reine Anzahl der Trainingsdaten-Paare hat einen geringeren Einfluss als die Einzigartigkeit der Referenz.

5. Bedeutung und Fazit

Das Paper zeigt, dass das Verhalten von Diffusionsmodellen in kulturell ikonischen Kontexten nicht auf einfache „Kopie vs. Nicht-Kopie" reduziert werden kann.

Paradigmenwechsel: Die Bewertung von KI-Modellen muss über reine Ähnlichkeitsmetriken hinausgehen und untersuchen, wie kulturelles Wissen erkannt und transformiert wird.
Kulturelles Gedächtnis: Modelle internalisieren kulturelle Referenzen nicht nur durch Datenmenge, sondern durch die Distinktivität der Signale.
Implikationen: Für Urheberrecht und Ethik ist es entscheidend zu verstehen, wann ein Modell kulturelle Motive kreativ neu interpretiert (was wünschenswert ist) und wann es schlicht repliziert. Das vorgeschlagene CRT-Framework bietet ein Werkzeug, um diese Nuancen zu messen und Modelle zu entwickeln, die kulturelles Gedächtnis bewahren, ohne geistiges Eigentum zu verletzen.

Zusammenfassend liefert das Paper einen wichtigen methodischen Fortschritt, um die komplexe Beziehung zwischen KI, kulturellem Erbe und Generierungsfähigkeit zu verstehen.

The Persistence of Cultural Memory: Investigating Multimodal Iconicity in Diffusion Models

Das große Problem: „Erinnern" vs. „Nachahmen"

Die neue Methode: Der „Kultur-Transformator"

Was haben sie herausgefunden?

Warum ist das wichtig?

1. Problemstellung

2. Methodik

A. Datensatz

B. Metriken

C. Experimente

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

When both Grounding and not Grounding are Bad -- A Partially Grounded Encoding of Planning into SAT (Extended Version)

Teaching an Agent to Sketch One Part at a Time

Learning to Disprove: Formal Counterexample Generation with Large Language Models

ItinBench: Benchmarking Planning Across Multiple Cognitive Dimensions with Large Language Models

PA2D-MORL: Pareto Ascent Directional Decomposition based Multi-Objective Reinforcement Learning