Morphological Addressing of Identity Basins in Text-to-Image Diffusion Models

Dit artikel demonstreert dat morfologische structuren, variërend van beschrijvende kenmerken tot fonetische patronen in prompts, navigeerbare gradiënten creëren in de latente ruimtes van tekst-naar-beeld diffusiemodellen, waardoor specifieke identiteiten en nieuwe visuele concepten kunnen worden opgewekt zonder gebruik van de oorspronkelijke naam of foto's.

Andrew Fraser

Gepubliceerd 2026-02-24
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een kunstmatige intelligentie (zoals een tekst-naar-beeld generator) niet werkt als een enorme bibliotheek waar je een specifiek boek moet zoeken met de titel. In plaats daarvan is het meer als een enorme, wazige berg van herinneringen.

In dit onderzoek, getiteld "Morphological Addressing of Identity Basins" (Morfologische Adressering van Identiteitsbekkens), ontdekken de onderzoekers hoe je die berg kunt navigeren zonder de namen van mensen of dingen te gebruiken. Ze gebruiken in plaats daarvan de vorm en het geluid van woorden om precies te weten waar ze moeten graven.

Hier is de uitleg in simpele taal, met een paar creatieve metaforen:

1. De Berg van Herinneringen (De "Bekkens")

Stel je voor dat de AI een berg heeft vol met zandkorrels. Elke zandkorrel is een foto die de AI ooit heeft gezien.

  • Als je de naam "Marilyn Monroe" typt, zoekt de AI naar een specifieke stapel zand. Maar de AI mag die naam vaak niet gebruiken (vanwege privacy).
  • De onderzoekers ontdekten dat je die stapel zand ook kunt vinden door te graven op de kenmerken die bij Marilyn horen: "platinumbloond", "mooi moedertje op de wang", "glamoureus jaren 50".
  • De Metafoor: Het is alsof je niet de naam van een huis zoekt, maar de route beschrijft: "Ga naar het huis met het rode dak, de witte deur en de tuin vol rozen." Als je die kenmerken combineert, land je precies op hetzelfde adres, zonder de naam te noemen.

2. Studie 1: Het "Zelf-Leren" van de AI

De onderzoekers deden een experiment met een AI genaamd Stable Diffusion.

  • Het Experiment: Ze lieten de AI duizenden beelden maken met alleen de beschrijvingen (zoals "platinumbloond"). De beelden waren eerst wazig en leken niet echt op Marilyn.
  • De Magie (Zelf-distillatie): De AI selecteerde de beste beelden, leerde daaruit, en deed het opnieuw. Net als een schilder die een schilderij maakt, het bekijkt, en dan een betere versie schildert.
  • Het Resultaat: Na een paar rondes kon de AI een perfect beeld van Marilyn maken, alleen met de beschrijvingen, zonder ooit een echte foto van haar te hebben gezien.
  • De Omgekeerde Wereld: Ze ontdekten ook iets raars. Als je de AI dwingt om ver weg te gaan van Marilyn (bijvoorbeeld: "donker haar, streng gezicht, 1980s zakelijk"), gebeurt er iets vreemds.
    • De normale AI maakt dan monsterachtige, "eldritch" beelden (zoals in een horrorfilm).
    • Maar de AI die ze hadden getraind, maakte beelden die er nog menselijk uitzagen, maar precies verkeerd waren. Ze noemen dit het "Uncanny Valley"-effect. Het is alsof de AI een spiegelbeeld heeft gemaakt dat net iets te langzaam beweegt. De AI heeft niet alleen geleerd hoe je naar Marilyn gaat, maar ook hoe je er vandaan gaat.

3. Studie 2: De Kracht van Geluid (De "Crungus-jacht")

In de tweede studie keken ze naar woorden die helemaal niet bestaan.

  • Het mysterie: Er was een internetfenomeen met het woord "Crungus". Als mensen dit nonsense-woord in de AI typten, kreeg iedereen hetzelfde raar wezen. Niemand wist waarom.
  • De Theorie: De onderzoekers dachten: "Misschien werkt dit door de klank van het woord." In de taalwetenschap bestaan er "klank-symbolen" (phonesthemes). Bijvoorbeeld, woorden die beginnen met sn- (snuit, snuiven, sneeuwen) hebben vaak iets met de neus of snelheid te maken. Woorden met cr- (crash, crush) hebben iets met breken of harde klappen te maken.
  • Het Experiment: Ze maakten 200 nieuwe, nonsens-woorden door deze klankpatronen te combineren (bijv. snudgeoid, crashax).
  • Het Resultaat:
    • Willekeurige nonsens-woorden (zoals "diwoz") gaven wazige, willekeurige beelden.
    • Maar de woorden met de juiste klankpatronen gaven heel duidelijke, consistente beelden.
    • Ze vonden zelfs drie nieuwe "wezens" die nooit eerder bestonden:
      1. Snudgeoid: Een robotachtig mens (door de sn- en -oid klank).
      2. Crashax: Een ruig voertuig of buggy (door cr- en -ax).
      3. Broomix: Een cartoonfiguur in een Frans-Belgische stijl (door -ix, wat doet denken aan Asterix).

De Grote Les

De kernboodschap van dit papier is dat de "ruimte" waar de AI denkt (de latente ruimte) niet willekeurig is. Het heeft een grammatica.

  • Vorm en Geluid zijn een adres: Of je nu beschrijft hoe iemand eruitziet (haar, lippenstift) of hoe een woord klinkt (cr-, -oid), je gebruikt dezelfde "morfologische druk" om de AI naar een specifiek punt in haar denkwereld te sturen.
  • De AI bouwt, het is niet alleen geheugen: De AI onthoudt niet alleen foto's. Het begrijpt patronen. Als je een woord maakt dat klinkt als een robot, bouwt de AI een robot, zelfs als dat woord nooit in de wereld heeft bestaan.

Kortom: De onderzoekers hebben bewezen dat je met de AI kunt praken als een architect. Je hoeft geen blauwdrukken (namen of foto's) te tonen; je hoeft alleen de juiste bouwstenen (klanken of kenmerken) te kiezen, en de AI weet precies waar je naartoe wilt. Het is alsof je de grammatica van de dromen van de machine hebt ontdekt.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →