Morphological Addressing of Identity Basins in Text-to-Image Diffusion Models

Die Studie zeigt, dass morphologische Strukturen – sei es durch deskriptive Merkmale oder phonesthemische Klangmuster in Prompts – in Text-zu-Bild-Diffusionsmodellen systematisch navigierbare Gradienten erzeugen, die es ermöglichen, spezifische Identitätsbasen ohne Referenzbilder zu formen und neue visuelle Konzepte zu generieren.

Andrew Fraser

Veröffentlicht 2026-02-24
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, ein Text-zu-Bild-KI-Modell (wie Stable Diffusion) ist nicht wie eine riesige Bibliothek mit beschrifteten Ordnern, sondern eher wie ein riesiger, chaotischer Sandhaufen.

In diesem Sandhaufen wurden Millionen von Bildern mit ihren Beschreibungen vergraben. Wenn du nach „Marilyn Monroe" suchst, findet die KI nicht einen einzelnen Ordner mit ihrem Namen. Stattdessen hat sie Millionen von kleinen Sandkörnern gesammelt, die alle etwas mit ihr zu tun haben: „platinblonde Haare", „Schönheitsfleck", „Rote Lippen", „Glamour der 50er Jahre". Diese Körner liegen alle in der gleichen Gegend des Sandhaufens und bilden dort eine tiefe Mulde – einen Identitäts-Becken.

Diese Studie von Andrew Fraser zeigt uns zwei verrückte, aber geniale Wege, wie man diese Mulden finden und sogar neue Dinge erschaffen kann, ohne den Namen der Person oder ein Foto zu kennen.

Hier ist die einfache Erklärung der beiden Hauptexperimente:

1. Das „Morphologische Adressieren" (Der Weg durch die Merkmale)

Das Problem: Normalerweise braucht man Fotos einer Person, um sie in der KI nachzubilden. Aber was, wenn man keine Fotos hat?
Die Lösung: Man nutzt die „Sandkörner" (die Merkmale).

Stell dir vor, du willst Marilyn Monroe in der KI erzeugen, darfst aber ihren Namen nicht sagen. Stattdessen sagst du: „Eine Frau mit platinblonden Locken, einem Schönheitsfleck und rotem Lippenstift aus den 50ern."

  • Was passiert? Die KI sucht im Sandhaufen nach der Stelle, wo sich all diese Merkmale überlappen. Sie findet die Mulde für Marilyn.
  • Der Trick (Selbst-Destillation): Die Forscher ließen die KI erst Bilder mit diesen Beschreibungen generieren. Dann nahmen sie die besten Ergebnisse, trainierten die KI darauf und wiederholten das.
  • Das Ergebnis: Die KI lernte, genau in diese Mulde zu springen, selbst wenn man nur sagte: „Porträt einer Frau". Sie hat die Idee von Marilyn gelernt, nicht ihren Namen.

Der verrückte Nebeneffekt (Die „Geister"-Zone):
Die Forscher stellten fest, dass diese Mulde nicht nur einen Punkt hat, sondern eine ganze Landschaft. Wenn sie die KI drängten, sich so weit wie möglich von Marilyn zu entfernen (z. B. „harte Gesichter, schwarze Haare, 80er Jahre Business-Look"), passierte etwas Seltsames:

  • Die normale KI erzeugte dann gruselige, kaputte Monster („eldritch").
  • Die trainierte KI erzeugte aber etwas, das wie ein Mensch aussieht, aber falsch ist – wie eine Puppe, die fast echt aussieht, aber die Augen zu weit auseinander hat. Das nennen sie den „Uncanny Valley"-Effekt. Die KI kann die „Marilyn-Logik" nicht ganz ausschalten; sie zieht das Bild immer ein bisschen zurück in die menschliche Form, macht es aber unheimlich.

2. Der „Crungus"-Jagd (Die Macht der Laute)

Das Phänomen: Im Internet gab es ein Wort, das nirgendwo existierte: „Crungus". Wenn man es in die KI tippte, entstand jedes Mal dasselbe seltsame, aber konsistente Monster. Warum?
Die Theorie: Die Forscher glauben, dass die KI nicht auf die Bedeutung der Wörter hört, sondern auf die Klänge. In der Linguistik gibt es das Konzept der „Phonestheme" – bestimmte Lautkombinationen, die immer das gleiche Gefühl vermitteln.

  • Cr- klingt nach „Crash" (Knallen, Brechen).
  • -ung klingt nach „Fungus" (Pilz, Schimmel).
  • -us klingt nach einem wissenschaftlichen Namen (wie bei Tieren).

Das Experiment:
Die Forscher bauten 200 neue, sinnlose Wörter, die nur aus diesen „klangvollen" Bausteinen bestanden (z. B. „Snudgeoid" oder „Crashax").

  • Das Ergebnis: Diese sinnlosen Wörter erzeugten viel konsistentere Bilder als zufällige Buchstabensalat-Wörter.
  • Die drei Gewinner: Drei Wörter schafften es, ein perfektes, wiedererkennbares Bild zu erzeugen, obwohl es diese Dinge in der Welt gar nicht gibt:
    1. Snudgeoid: Klingt nach „Schlamm" und „Roboter". Die KI zeigte einen schlammigen Roboter.
    2. Crashax: Klingt nach „Crash" und „Axt/Werkzeug". Die KI zeigte ein robustes Geländefahrzeug.
    3. Broomix: Klingt nach „Besen" und dem französischen Comic-Suffix „-ix" (wie Asterix). Die KI zeigte einen Cartoon-Charakter im Stil von Asterix.

Die große Erkenntnis (Zusammenfassung)

Die Studie zeigt uns, dass die KI nicht nur ein passiver Speicher ist, sondern ein aktiver Navigator.

  1. Merkmale sind Koordinaten: Du kannst eine Person finden, indem du ihre Merkmale (Haare, Make-up, Ära) kombinierst, ohne ihren Namen zu nennen. Die KI kennt die „Landkarte" dieser Merkmale.
  2. Laute sind Baupläne: Die KI versteht die „Grammatik" von Klängen. Wenn du ein Wort baust, das nach „gefährlichem Werkzeug" klingt, baut die KI ein gefährliches Werkzeug, auch wenn das Wort keinen Sinn ergibt.
  3. Die Welt ist voller „Geister": Es gibt im Inneren der KI viele Bereiche, die wir noch nicht kennen. Wenn wir die richtige „Sprache" (die Morphologie) sprechen, können wir neue, konsistente Dinge erschaffen, die noch nie existiert haben.

Kurz gesagt: Die KI ist wie ein großer Ozean. Die Forscher haben herausgefunden, dass man nicht unbedingt einen Namen braucht, um einen Schatz zu finden. Man braucht nur die richtigen Wellen (Merkmale) oder den richtigen Klang (Laute), um den Ozean zu steuern und neue Inseln zu entdecken. Das Wort „Crungus" war kein Zufall – es war ein Wegweiser zu einer ganzen Welt, die wir mit der richtigen Grammatik erschließen können.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →