Locating and Editing Figure-Ground Organization in Vision Transformers

Each language version is independently generated for its own context, not a direct translation.

🎨 Le Grand Débat : "Est-ce un triangle ou une flèche ?"

Imaginez que vous regardez une image floue. Votre cerveau doit décider : est-ce que je vois un objet solide (un triangle) ou est-ce que je vois un trou dans un objet (une flèche avec un coin manquant) ?

En psychologie, on appelle cela l'organisation "Figure-Sol". Notre cerveau humain a un petit biais naturel : il adore les formes convexes (qui gonflent vers l'extérieur, comme un ballon) et les considère souvent comme des objets principaux, tandis qu'il ignore les formes concaves (qui creusent vers l'intérieur).

Les chercheurs de cette étude se sont demandé : Comment une Intelligence Artificielle (IA) appelée "Vision Transformer" (ViT) prend-elle cette décision ? Est-ce qu'elle "voit" comme nous, ou est-ce qu'elle triche ?

🔍 L'Expérience : Le "Test du Dart"

Pour répondre à la question, les chercheurs ont créé un petit jeu de trompe-l'œil pour l'IA :

Ils ont dessiné une forme en "flèche" (un quadrilatère non convexe).
Ils ont masqué (effacé) la partie centrale de la flèche.
L'IA doit maintenant "deviner" ce qu'il y a sous le masque.

L'IA a deux choix possibles :

Choix A (Convexe) : Elle imagine que c'est un triangle solide (elle comble le vide). C'est ce que notre cerveau humain fait souvent par habitude.
Choix B (Concave) : Elle imagine que c'est une flèche (elle respecte le creux). C'est ce que disent les lignes réelles de l'image.

Résultat : L'IA (modèle BEiT) choisit presque toujours le triangle solide. Elle préfère la forme "gonflée" à la forme "creuse", tout comme nous.

🧠 La Révélation : Qui est le chef dans la machine ?

Le vrai génie de cette étude, c'est qu'ils n'ont pas seulement regardé ce que l'IA a fait, mais comment elle l'a fait à l'intérieur de son cerveau numérique. Ils ont utilisé une technique appelée "attribution de logit" (une sorte de radiographie des pensées de l'IA).

Voici ce qu'ils ont découvert, avec une analogie :

Imaginez que le cerveau de l'IA est une grande salle de réunion avec plusieurs étages (les couches du réseau de neurones).

Aux étages du bas (début du processus) : Tout le monde discute. Certains disent "C'est un triangle !", d'autres "C'est une flèche !". C'est le flou total.
Le coupable secret : Ils ont trouvé un seul petit participant, un "débutant" assis au tout premier étage (appelé L0H9). Ce petit participant a une idée fixe : "Je parie que c'est un triangle !".
L'effet boule de neige : Bien que ce petit participant ne soit pas très fort au début, son idée s'infiltre dans la conversation. À chaque étage, les autres participants entendent cette idée, la renforcent, et finissent par ignorer les preuves réelles de la flèche.
Le résultat : À la fin, toute la salle crie "TRIANGLE !" en chœur, même si l'image prouve le contraire.

🛠️ La Magie : Changer l'avis de l'IA

La partie la plus cool de l'étude, c'est qu'ils ont pu modifier ce processus.

Ils ont pris ce petit participant secret (L0H9) et lui ont mis un bouchon dans la bouche (en réduisant son volume de parole).

Résultat : Dès qu'ils ont coupé la parole à ce petit "préjugé", l'IA a changé d'avis ! Elle a arrêté de voir le triangle et a enfin vu la flèche comme elle était réellement dessinée.

Cela prouve que le "biais de convexité" (la préférence pour les formes rondes) n'est pas une loi immuable de la nature de l'IA. C'est juste une petite voix qui parle fort au début, et si on la calme, l'IA devient plus logique et respecte mieux les détails réels.

💡 Pourquoi est-ce important pour nous ?

Cette découverte est cruciale pour la sécurité des IA, surtout dans des domaines vitaux comme la médecine.

Imaginez un scanner médical où une tumeur a une forme irrégulière (concave). Si l'IA a ce "biais de convexité" trop fort, elle pourrait ignorer la forme réelle de la tumeur pour la lisser et la transformer en une forme "normale" (convexe), ce qui serait une erreur de diagnostic catastrophique.

Grâce à cette étude, nous savons maintenant que nous pouvons rééduquer l'IA. Nous pouvons identifier la "petite voix" qui impose ce biais et la calibrer pour que l'IA écoute mieux les preuves locales (la réalité de l'image) plutôt que ses préjugés globaux.

En résumé : Les chercheurs ont trouvé le bouton qui permet de dire à une IA : "Arrête de deviner ce que tu penses être, et regarde vraiment ce qui est dessiné."

Each language version is independently generated for its own context, not a direct translation.

Titre

Localisation et Édition de l'Organisation Figure-Fond dans les Vision Transformers

1. Problématique

Les Vision Transformers (ViT) ont démontré une capacité à intégrer des indices locaux en formes globales, réduisant le biais de texture au profit de la forme. Cependant, il reste débattu de savoir si ces modèles internalisent véritablement les principes fondamentaux de l'organisation perceptuelle humaine, tels que les lois de la Gestalt.

Le problème central abordé est l'ambiguïté figure-fond, spécifiquement la préférence humaine pour percevoir les régions convexes comme des figures (objets) et les régions concaves comme un fond. Dans les ViT, il est crucial de comprendre comment le modèle résout le conflit entre :

Les preuves géométriques locales : La forme concave réelle de l'objet (ex: une flèche ou un "dart").
Les priors organisationnels globaux : La tendance à compléter la forme en une enveloppe convexe.

L'objectif est de localiser mécaniquement où et comment ce prior de convexité est réalisé dans les composants internes d'un modèle, et de déterminer s'il peut être manipulé.

2. Méthodologie

Les auteurs utilisent le modèle BEiT (un Transformer basé sur le masquage et un auto-encodeur variationnel discret) et appliquent des techniques d'interprétabilité mécaniste.

A. Stimulus de Conflit Perceptif

Génération de données : Création de 10 000 images binaires contenant des formes de type "flèche" (quadrilatères non convexes).
Zone de conflit : Pour chaque flèche, on calcule son enveloppe convexe (convex hull). La zone de conflit est définie comme la différence entre l'enveloppe convexe et la forme concave elle-même.
Masquage : Cette zone de conflit est masquée. Le modèle doit alors reconstruire la partie manquante.
- Si le modèle complète un triangle : il privilégie la convexité (prior global).
- Si le modèle préserve la forme de flèche : il privilégie la concavité (preuve locale).

B. Attribution de Logits (Logit Attribution)

Pour isoler les composants responsables de cette préférence, les auteurs utilisent l'attribution de logits :

Principe : Le flux résiduel du Transformer est une somme linéaire des contributions de tous les composants.
Projection : Les activations internes sont projetées dans l'espace du codebook visuel discret de BEiT.
Calcul : On définit une direction latente comme la différence entre les vecteurs du codebook correspondant à la complétion convexe (figure) et celle concave (fond). L'attribution d'un composant est la projection de sa sortie sur cette direction.
- Une valeur positive indique un biais vers la convexité.
- Une valeur négative indique un biais vers la concavité.

C. Lentille d'Attention (Attention Lens)

Pour comprendre la dynamique directionnelle, les auteurs décomposent l'effet direct des têtes d'attention (attention heads) sur le flux résiduel, permettant d'identifier quelles têtes spécifiques poussent le modèle vers une interprétation donnée.

D. Intervention par Mise à l'Échelle (Activation Scaling)

Pour prouver la causalité, les auteurs appliquent une intervention active :

Ils modulent l'activation d'une tête d'attention spécifique par un facteur scalaire $\alpha$ ( $o_{l,h} = \alpha \cdot o_{l,h}$ ).
Ils mesurent le déplacement de la distribution de probabilité du modèle via la similarité de Jensen-Shannon (JSD) par rapport aux cibles idéales (triangle convexe vs flèche concave).

3. Résultats Clés

A. Dynamique de Résolution de l'Ambiguïté

Couches précoces et intermédiaires : Le flux résiduel maintient un état de compétition stable. L'attribution moyenne est proche de zéro, indiquant que ni la preuve concave ni le prior convexe ne dominent encore. L'organisation figure-fond reste ambiguë.
Couches tardives : Une résolution abrupte se produit. Le flux résiduel bascule fortement vers une préférence convexe, indiquant que la décision est prise tardivement dans le réseau.

B. Identification des Unités Fonctionnelles

La graine précoce (L0H9) : L'analyse des têtes d'attention révèle que la tête L0H9 (Couche 0, Tête 9) agit comme une "graine" précoce. Dès l'entrée, elle introduit un biais subtil mais persistant en faveur de la convexité.
Compétition tardive : Les couches supérieures (ex: L9H6) montrent une opposition active (biais concave), mais l'effet d'ensemble des têtes favorisant la convexité l'emporte. La convexité n'est pas due à la disparition des signaux concaves, mais à la somme des votes logit favorables.

C. Manipulation du Comportement

En réduisant l'activation de la tête L0H9 (par exemple, $\alpha = 0.3$ ), les auteurs parviennent à inverser le comportement du modèle.
Le modèle passe d'une préférence convexe (complétion en triangle) à une préférence concave (respect de la forme de flèche).
Cela démontre que le prior de convexité n'est pas une contrainte architecturale immuable, mais une force active gouvernée par des unités mécanistes spécifiques.

4. Contributions Principales

Décomposition Mécaniste : Les auteurs ont décomposé le flux résiduel de BEiT pour isoler les sous-structures responsables de l'organisation figure-fond, démontrant que ce processus est une opération identifiable dans le sous-espace d'attention.
Preuve de Causalité par Intervention : En modulant une seule tête d'attention (L0H9), ils ont réussi à faire basculer la décision perceptuelle du modèle à travers une frontière décisionnelle continue. Cela prouve que le biais de convexité est un processus actif et modifiable, et non un artefact passif.
Hypothèse de "Graine" (Seeding Hypothesis) : Ils proposent que l'organisation perceptuelle commence par une injection asymétrique précoce (la graine) qui fausse l'espace des hypothèses, permettant aux couches tardives de résoudre la compétition en faveur du prior global.

5. Signification et Implications

Compréhension de la Gestalt dans les IA : L'étude fournit une base mécaniste pour les principes de la Gestalt dans les réseaux de neurones, passant d'une observation comportementale à une explication computationnelle.
Robusteté et Sécurité : Dans des domaines critiques comme l'imagerie médicale ou la détection d'anomalies, où des détails locaux (concavités) sont diagnostiquement vitaux, il est crucial que les modèles ne soient pas aveuglés par des priors globaux. La capacité à "éditer" ces biais via des têtes d'attention spécifiques offre un cadre pour calibrer la confiance des modèles et éviter que des preuves locales informatives ne soient écrasées par des priors organisationnels.
Interprétabilité : Cette approche valide l'utilisation de l'interprétabilité mécaniste pour non seulement comprendre, mais aussi contrôler les processus de raisonnement visuel des Transformers.

En résumé, ce papier démontre que l'organisation figure-fond dans les ViT est le résultat d'un processus compétitif dynamique, initié par une graine précoce (L0H9) et résolu par une compétition intense dans les couches profondes, et qu'il est possible de manipuler ce processus pour modifier la perception du modèle.