Morphological Addressing of Identity Basins in Text-to-Image Diffusion Models

Each language version is independently generated for its own context, not a direct translation.

Imaginez que les modèles de génération d'images (comme ceux qui créent des images à partir de texte) sont comme de géants bibliothécaires aveugles. Ils ont lu des milliards de livres et vu des milliards de photos, mais ils ne connaissent pas les noms des gens ou des objets. Ils ne connaissent que les odeurs et les textures des choses.

Ce papier scientifique explore une idée fascinante : on peut "parler" à ce géant aveugle non pas en lui donnant un nom (comme "Marilyn Monroe"), mais en lui décrivant l'odeur de ses cheveux, la forme de son visage, ou même en inventant des mots qui sonnent comme des choses.

Voici l'explication de leurs deux grandes découvertes, avec des analogies simples :

1. La "Carte des Odeurs" (Étude 1 : Trouver Marilyn sans la nommer)

Le problème :
Si vous demandez au modèle de dessiner "Marilyn Monroe", il peut refuser (censure) ou ne pas être assez précis. Si vous essayez de lui apprendre à la dessiner avec des photos, c'est long et complexe.

La solution trouvée :
Les chercheurs ont découvert qu'ils pouvaient naviguer vers l'image de Marilyn en utilisant uniquement des descripteurs morphologiques (des détails physiques). Au lieu de dire "Marilyn", ils ont dit : "Cheveux blond platine, grain de beauté, lèvres rouges, glamour des années 50".

L'analogie du "Pile de sable" :
Imaginez que l'esprit du modèle est une immense plage remplie de millions de tas de sable.

Chaque tas représente une idée (un chat, une voiture, Marilyn).
Les tas se chevauchent. Le tas "blond" touche le tas "années 50", qui touche le tas "lèvres rouges".
Marilyn n'est pas un tas séparé, c'est l'endroit précis où tous ces tas de sable se croisent.

L'expérience :
Les chercheurs ont créé un petit "assistant" (un LoRA) qui a appris à viser ce point de croisement.

Résultat : Même sans jamais voir une photo de Marilyn ni prononcer son nom, l'assistant a appris à pointer exactement vers ce tas de sable.
La surprise (Le "Rebond") : Quand ils ont demandé à l'assistant de faire l'inverse (tout ce qui n'est pas Marilyn), au lieu de faire n'importe quoi, le modèle a créé des visages "inquiétants" (la "vallée de l'étrange"). C'est comme si le modèle savait exactement où ne pas aller, et que cette frontière était aussi structurée que l'endroit où il doit aller.

2. La "Magie des Mots Sonores" (Étude 2 : Le Chasse aux Créatures)

Le problème :
Les gens ont remarqué que si on tape le mot inventé "Crungus" dans un générateur d'images, il sort toujours la même créature bizarre. Pourquoi ? Ce mot n'existe nulle part !

La solution trouvée :
Les chercheurs ont utilisé la linguistique (la science des sons) pour créer 200 nouveaux mots sans signification, mais qui utilisent des groupes de sons (phonesthèmes) qui ont des associations dans notre cerveau.

Exemple : Le son "Cr-" (comme dans crash, crumble) évoque la violence ou la cassure.
Le son "-oid" (comme dans android) évoque quelque chose de robotique.

L'analogie du "Code-barres sonore" :
Imaginez que chaque son a une couleur.

Si vous tapez un mot au hasard (comme "diwoz"), c'est comme un code-barres brouillé : le modèle ne sait pas quoi faire, il dessine n'importe quoi.
Si vous tapez un mot construit avec des sons qui ont du sens (comme "Crashax"), c'est comme un code-barres bien défini. Le modèle lit le "Cr-" (impact), le "-ash-" (action violente) et le "-ax" (outil). Il assemble ces pièces pour créer une voiture de course tout-terrain, même si le mot n'existe pas !

Les résultats :

Les mots construits avec ces règles sonores ont produit des images beaucoup plus cohérentes que les mots au hasard.
Ils ont trouvé trois "créatures" (qu'ils appellent des cryptides) qui sont 100% pures : Snudgeoid (un robot gluant), Crashax (un véhicule de choc) et Broomix (un personnage de bande dessinée).
Le modèle n'a pas "volé" ces images dans ses souvenirs ; il les a construites à partir de la logique des sons.

En résumé : La Grammaire de l'Invisible

Ce papier nous dit quelque chose de très important sur l'intelligence artificielle :

Ce n'est pas une base de données, c'est une carte. Le modèle ne stocke pas des photos, il a appris une carte géométrique où les idées sont reliées par des chemins logiques.
On peut naviguer avec des indices. On n'a pas besoin de connaître le nom de la destination pour y arriver ; on peut y aller en suivant les "odeurs" (les détails physiques) ou en utilisant la "musique" des mots (les sons).
L'IA a une intuition. Elle comprend que certains sons signifient "robot" ou "violence" simplement parce qu'elle a lu tant de textes, même si on ne lui a jamais enseigné ces règles explicitement.

La conclusion créative :
Les chercheurs disent que l'espace caché de ces modèles est rempli de "zones cohérentes" que nous pouvons atteindre si nous apprenons la grammaire des sons et des formes. Le mot "Crungus" n'était pas un accident magique, c'était un panneau indicateur. Maintenant, nous savons comment lire la carte pour créer de nouvelles choses, ou retrouver d'anciennes, simplement en jouant avec les sons et les détails.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les modèles de diffusion texte-à-image (comme Stable Diffusion) apprennent des associations statistiques massives à partir de leurs données d'entraînement. Ces modèles « mémorisent » souvent des identités spécifiques (par exemple, Marilyn Monroe) non pas comme des fichiers étiquetés discrets, mais comme des « bassins d'identité » : des amas de sédiments statistiques formés par la co-occurrence fréquente de caractéristiques morphologiques (ex: « blonde platine », « grain de beauté », « glamour des années 50 »).

Le problème central abordé par cet article est le suivant :

Navigation sans référence : Peut-on naviguer vers une identité mémorisée spécifique sans utiliser son nom ni fournir d'images de référence (contrairement aux méthodes de personnalisation actuelles comme DreamBooth ou Textual Inversion) ?
Structure de l'espace latent : L'espace latent des modèles de diffusion possède-t-il une structure navigable basée sur la morphologie (descripteurs de traits ou structures phonologiques) ?
Construction vs. Récupération : Les mots sans signification (nonsense words) produisent-ils des sorties visuelles cohérentes par simple récupération de données mémorisées ou par construction à partir de composants sous-lexicaux ?

2. Méthodologie

L'étude se divise en deux volets expérimentaux distincts mais liés par le concept de « pression morphologique ».

Étude 1 : Navigation vers les bassins d'identité via la morphologie au niveau de l'entraînement

Objectif : Créer un adaptateur LoRA (Low-Rank Adaptation) capable de cibler une identité mémorisée (Marilyn Monroe) uniquement en utilisant des descripteurs de traits morphologiques, sans nom ni photo.
Procédure :
1. Génération synthétique : Utilisation de prompts décrivant des traits constitutifs (« blonde platine, bouclée, grain de beauté, glamour 1950 ») sur le modèle de base SD 1.5.
2. Boucle d'auto-distillation : Sélection des images générées les plus proches de la cible, puis entraînement itératif d'un LoRA sur ces sorties synthétiques.
3. Protocole Push-Pull : Test de la navigation inverse en combinant des descripteurs opposés (pousser vers l'opposé : « structure osseuse angulaire, éclairage froid, années 80 ») et des descripteurs négatifs (tirer loin de la cible).
Évaluation : Utilisation de l'embedding facial ArcFace pour mesurer la similarité de l'identité et la convergence des sorties.

Étude 2 : Navigation par phonesthèmes au niveau du prompt

Objectif : Déterminer si la structure phonologique de mots inventés (basée sur la théorie des phonesthèmes) peut générer des concepts visuels cohérents sans données d'entraînement.
Concept : Les phonesthèmes sont des clusters de sons sous-morphémiques qui portent des associations sémantiques (ex: « cr- » évoque le choc/la rupture, « -oid » évoque la ressemblance/robotique).
Procédure :
1. Génération de candidats : Création de 200 mots inventés en combinant des onsets (début de mot), des noyaux et des suffixes phonesthémiques anglais (ex: snudgeoid, crashax).
2. Contrôles : Comparaison avec des mots aléatoires prononçables, des mots non prononçables et des mots positifs connus (ex: goblin).
3. Génération : 16 images par candidat avec Stable Diffusion 1.5.
4. Métrique : Calcul du Purity@1 (fraction d'images d'un candidat dont le plus proche voisin dans l'espace d'embedding CLIP appartient au même candidat).
5. Analyse de contamination : Vérification rigoureuse pour s'assurer que les mots ne correspondent à aucun concept réel existant dans les données d'entraînement.

3. Contributions Clés

Navigation par descripteurs constitutifs : Démonstration qu'il est possible de cibler un bassin d'identité mémorisé uniquement par l'intersection de descripteurs morphologiques, sans nom ni image de référence.
Systèmes de coordonnées bidirectionnels : Preuve qu'un LoRA entraîné façonne non seulement l'attraction vers la cible, mais aussi la répulsion inverse, créant une structure géométrique cohérente dans l'espace latent.
Transitions de phase dans les bassins d'identité : Identification de frontières nettes (et non de gradients lisses) entre les bassins d'identité, révélées par des changements brusques dans les sorties lors de la variation des poids du LoRA.
Construction visuelle par phonesthèmes : Établissement que les structures phonologiques sous-lexicales suffisent à construire de nouveaux concepts visuels cohérents (« cryptides ») qui n'existaient pas dans les données d'entraînement.

4. Résultats Principaux

Résultats de l'Étude 1 (Marilyn Monroe)

Convergence : Le taux de réussite (hit rate) est passé de 8 % (première génération) à 70 % après quatre rounds d'auto-distillation.
Navigation inverse et « Coherence Drag » :
- Sans LoRA, la navigation inverse (Push + Pull) produit des résultats « éldritch » (déformations structurelles, monstrueux).
- Avec le LoRA, la navigation inverse produit des résultats dans la « vallée de l'étrange » (uncanny valley) : des visages anatomiquement plausibles mais « précisément faux ». Le LoRA exerce une « traînée de cohérence » qui empêche la décomposition totale, maintenant une structure humaine même dans les régions latentes rares.
Stabilité CFG : L'identité reste stable sur une large gamme de valeurs de Classifier-Free Guidance (CFG), indiquant un bassin d'attracteur robuste.
Transitions de phase : L'augmentation des poids du LoRA ne provoque pas une interpolation lisse, mais des « sauts » discrets entre des bassins d'attracteurs distincts.

Résultats de l'Étude 2 (Chasse aux Phonesthèmes)

Supériorité statistique : Les candidats phonesthémiques ont un score moyen de Purity@1 significativement plus élevé (0,371) que les contrôles aléatoires (0,209) ( $p < 0,00001$ , $d = 0,55$ ).
Les trois « Cryptides » confirmés : Trois mots inventés ont atteint un Purity@1 parfait de 1,0 sans aucune contamination de données d'entraînement :
- Snudgeoid : Génère des humanoïdes mécaniques/robots (combinaison de sn- [sournois/mécanique], -udge- [lourd/boueux], -oid [robot]).
- Crashax : Génère des véhicules tout-terrain/buggies (combinaison de cr- [impact], -ash- [action violente], -ax [outil]).
- Broomix : Génère des personnages de bande dessinée européenne (combinaison de broom [balai/magie domestique] et -ix [suffixe de Goscinny/Uderzo]).
Contamination : La majorité des autres mots à score parfait (comme drudgea ou skogum) ont été disqualifiés car ils correspondaient à des concepts réels existants dans les données d'entraînement, confirmant que les trois cryptides restants sont de véritables constructions.

5. Signification et Implications

Cartographie de l'espace latent : L'espace latent des modèles de diffusion n'est pas un chaos aléatoire, mais possède une structure navigable organisée par la morphologie. Les descripteurs de traits et les patterns phonologiques agissent comme des « signets » géométriques.
Compréhension de la mémorisation : Les modèles ne mémorisent pas seulement des noms, mais des intersections de caractéristiques. La « mémoire » est un bassin d'attracteur accessible par la somme de ses parties.
Construction vs. Récupération : L'étude prouve que les modèles de diffusion peuvent construire de nouveaux concepts visuels à partir de composants linguistiques sous-lexicaux, agissant comme un analyseur morphologique statistique plutôt que comme un simple récupérateur de données.
Limites et Généralisation : Les résultats sont spécifiques à l'architecture SD 1.5 et au corpus LAION-5B. La généralisation à d'autres modèles (SDXL, Flux) et d'autres langues nécessite des validations futures.

En conclusion, cet article démontre que la « pression morphologique » crée des gradients navigables à plusieurs niveaux du pipeline de génération, permettant de cartographier et d'exploiter la géométrie interne des modèles de diffusion pour cibler des identités existantes ou en inventer de nouvelles.

Morphological Addressing of Identity Basins in Text-to-Image Diffusion Models

1. La "Carte des Odeurs" (Étude 1 : Trouver Marilyn sans la nommer)

2. La "Magie des Mots Sonores" (Étude 2 : Le Chasse aux Créatures)

En résumé : La Grammaire de l'Invisible

1. Problématique et Contexte

2. Méthodologie

Étude 1 : Navigation vers les bassins d'identité via la morphologie au niveau de l'entraînement

Étude 2 : Navigation par phonesthèmes au niveau du prompt

3. Contributions Clés

4. Résultats Principaux

Résultats de l'Étude 1 (Marilyn Monroe)

Résultats de l'Étude 2 (Chasse aux Phonesthèmes)

5. Signification et Implications

Articles similaires

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation