The Persistence of Cultural Memory: Investigating Multimodal Iconicity in Diffusion Models

Diese Arbeit stellt mit dem Cultural Reference Transformation (CRT)-Metrik einen Evaluierungsrahmen vor, der die Unterscheidung zwischen der Erkennung kultureller Referenzen und ihrer visuellen Realisierung in Diffusionsmodellen ermöglicht, um so die Komplexität von Multimodalität und kulturellem Gedächtnis jenseits einfacher Reproduktion zu erfassen.

Maria-Teresa De Rosa Palmini, Eva Cetinic

Veröffentlicht 2026-03-09
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen sehr klugen, aber manchmal etwas verwirrten Koch. Dieser Koch hat Millionen von Kochbüchern, Fotos von Gerichten und Rezepten gelesen. Wenn Sie ihn bitten, „einen leckeren Burger" zu kochen, macht er einen ganz normalen Burger. Aber was passiert, wenn Sie ihn bitten, „den Burger aus dem Film Pulp Fiction" zu kochen?

Hier wird es spannend. Der Koch muss nun entscheiden: Soll er einfach nur irgendeinen Burger machen, der so aussieht wie in den Büchern? Oder soll er genau das Burger-Set aus dem Film nachbauen, mit dem speziellen Teller und dem speziellen Licht, das man aus dem Film kennt?

Genau dieses Problem untersucht die Studie von Maria-Teresa De Rosa Palmini und Eva Cetinic. Sie schauen sich an, wie moderne KI-Künstler (sogenannte Diffusions-Modelle) mit kulturellen Erinnerungen umgehen.

Das große Problem: „Erinnern" vs. „Nachahmen"

Wenn Sie der KI sagen: „Mach ein Bild von Der Schrei (das berühmte Gemälde von Munch)", passiert oft Folgendes:

  1. Die KI „erinnert" sich: Sie weiß, worum es geht. Sie malt einen schreienden Menschen, einen orangefarbenen Himmel und eine Brücke. Das ist gut! Das zeigt, dass sie die kulturelle Bedeutung versteht.
  2. Die KI „plagiiert": Aber manchmal kopiert sie das Originalbild fast 1:1. Das ist wie ein Schüler, der die Hausaufgaben einfach abfotografiert, anstatt sie selbst zu lösen. Das ist problematisch, weil es Urheberrechte verletzt.

Bisher haben Forscher nur gemessen: „Sieht das Bild dem Original ähnlich?" Aber das ist zu einfach. Die Autoren dieser Studie sagen: „Nein, wir müssen zwei Dinge trennen!"

Die neue Methode: Der „Kultur-Transformator"

Die Autoren haben eine neue Art zu messen erfunden, die sie CRT (Cultural Reference Transformation) nennen. Man kann sich das wie eine Waage vorstellen, die zwei Schalen hat:

  1. Die linke Schale: „Erkennung" (Recognition)
    • Frage: Versteht die KI, worum es geht?
    • Wenn Sie „Der Schrei" eingeben, malt die KI einen schreienden Mann? Dann ist die linke Schale voll. Die KI hat den kulturellen Bezug erkannt.
  2. Die rechte Schale: „Umsetzung" (Realization)
    • Frage: Hat die KI das Original einfach abgeschrieben oder etwas Neues geschaffen?
    • Wenn die KI den Mann in einer anderen Pose malt, mit anderen Farben oder einem neuen Hintergrund, aber man erkennt trotzdem sofort: „Aha, das ist Der Schrei!", dann ist die rechte Schale leer (im positiven Sinne!). Das bedeutet: Die KI hat das Konzept verstanden und neu interpretiert.

Das Ziel: Eine perfekte KI sollte die linke Schale voll haben (sie versteht den Bezug) und die rechte Schale leer lassen (sie kopiert nicht einfach). Sie sollte den „Schrei" neu malen, nicht den alten abfotografieren.

Was haben sie herausgefunden?

Die Forscher haben fünf verschiedene KI-Modelle getestet (darunter Stable Diffusion und Imagen) mit fast 800 verschiedenen kulturellen Begriffen – von berühmten Filmen wie Der Pate bis zu Albumcovern wie Dark Side of the Moon.

Hier sind die wichtigsten Erkenntnisse, einfach erklärt:

  • Nicht alle KIs sind gleich: Manche Modelle (wie Imagen 4) sind sehr gut darin, den kulturellen Bezug zu erkennen, ohne das Original zu stehlen. Andere Modelle (wie Flux) erkennen den Bezug oft gar nicht oder kopieren es zu stark.
  • Wörter sind mächtiger als Bilder: Wenn man den Prompt (den Befehl) leicht verändert – zum Beispiel statt „Der Schrei" einfach „Ein Mann, der schreit" sagt – dann fällt es manchen KIs schwer, das Bild zu erkennen. Andere KIs bleiben aber stabil. Das zeigt: Die KI lernt nicht nur Bilder, sondern auch, wie Wörter und Bilder in unserer Kultur zusammenhängen.
  • Es kommt auf die Einzigartigkeit an: Begriffe, die sehr einzigartig sind (z. B. ein sehr spezifischer Albumtitel), werden von der KI besser erkannt als Begriffe, die man überall hört. Es ist wie bei einem Lied: Wenn ein Song einen ganz einzigartigen Namen hat, erinnert sich die KI eher daran als an einen Song, der „Liebe" heißt (was es tausendfach gibt).
  • Das Alter spielt eine Rolle: Ältere Kunstwerke (wie klassische Gemälde) werden oft besser erkannt als ganz neue Dinge. Das liegt wahrscheinlich daran, dass diese Bilder schon so oft im Internet kopiert und geteilt wurden, dass die KI sie „in Fleisch und Blut" aufgenommen hat.

Warum ist das wichtig?

Stellen Sie sich vor, wir wollen KI-Modelle so trainieren, dass sie kreativ sind, aber keine Urheberrechte verletzen. Wenn wir nur sagen „Kopiere nichts!", könnte die KI vielleicht gar keine kulturellen Bilder mehr machen. Sie würde dann nur noch generische Dinge malen.

Diese Studie zeigt uns einen dritten Weg: Wir wollen KIs, die kulturelles Wissen haben, aber es in neue, eigene Kunst verwandeln.

Es ist der Unterschied zwischen einem Schüler, der die Lösung aus dem Lehrbuch abschreibt (schlecht), und einem Schüler, der die Aufgabe versteht und eine eigene, kreative Lösung findet (gut). Die Autoren sagen: „Lasst uns nicht nur prüfen, ob die KI kopiert. Lasst uns prüfen, ob sie die Kultur versteht und neu interpretiert."

Zusammenfassend: Die KI ist wie ein junger Künstler, der in einer Welt voller berühmter Bilder aufwächst. Diese Studie hilft uns zu messen, ob dieser Künstler die alten Meister nur nachplappert oder ob er ihren Geist versteht und eigene, frische Werke schafft, die trotzdem an die alten erinnern.