Locating and Editing Figure-Ground Organization in Vision Transformers

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je naar een tekening kijkt die net even niet klopt. Je hersenen proberen het beeld te "invullen" om het zinvol te maken. Soms zien we een holte als een gat (de grond), en soms als een uitstulping (het figuur). Dit noemen psychologen figuur-grond organisatie. Mensen hebben van nature de neiging om bolle vormen als "voorwerp" te zien en holle vormen als "achtergrond".

De vraag die deze auteurs zich stellen is: Hoe doet een kunstmatige intelligentie (een Vision Transformer) dit? En nog belangrijker: Waar precies in het brein van de AI gebeurt dit, en kunnen we het veranderen?

Hier is een uitleg van hun onderzoek, vertaald naar alledaags taal met een paar leuke vergelijkingen.

1. Het Experiment: De "Pijl" die niet wil samenwerken

De onderzoekers hebben een speciaal soort "pijl" getekend (een vorm die op een dartschijf lijkt).

Het probleem: Als je het puntje van de pijl weghaalt (maskeren), ontstaat er een conflict.
- Optie A (Lokaal bewijs): De lijnen wijzen naar een holte. De AI zou de pijl moeten laten zoals hij is.
- Optie B (Globale regel): De vorm lijkt op een driehoek. De AI zou de holte dicht kunnen maken en een volle driehoek kunnen tekenen.

Mensen (en blijkbaar ook deze AI) kiezen bijna altijd voor Optie B: ze maken de driehoek dicht. Ze zien de bolle vorm als het "echte" voorwerp.

2. De Autopsie: Het brein van de AI openmaken

De onderzoekers wilden niet alleen kijken wat de AI deed, maar hoe het in zijn "hersenen" (de interne lagen van het model) gebeurde. Ze gebruikten een techniek die we kunnen vergelijken met het luisteren naar een vergadering.

Stel je het model voor als een groot bedrijf met 12 verdiepingen (lagen). Op elke verdieping zitten honderden managers (de "attention heads") die discussiëren over hoe ze het beeld moeten invullen.

Verdieping 1 t/m 10: De discussie is nog een warboel. Niemand heeft een sterke mening. Het is een onduidelijke strijd tussen "holte" en "bol".
Verdieping 11 (de laatste): Plotseling is het besluit genomen. De AI kiest duidelijk voor de bolle driehoek.

3. De ontdekking: De "Geheime Zaadjes"

Het meest interessante deel is dat ze vonden dat dit besluit niet pas op het einde wordt genomen. Er is een geheime zaadzaadje dat heel vroeg wordt geplant.

Ze ontdekten één specifieke manager (een "attention head" genaamd L0H9, op de allereerste verdieping) die direct na het zien van de afbeelding fluisterend zegt: "Hé, laten we maar eens naar een bolle vorm kijken."

Deze manager is niet de enige die het zegt, maar hij is de eerste die de richting aangeeft.
Zonder deze ene manager zou de discussie misschien anders verlopen. Hij plant een subtiele bias (voorkeur) in het systeem.

4. De "Knop" om het om te draaien

Om te bewijzen dat deze ene manager echt de sleutel is, deden de onderzoekers iets heel grappigs: ze verzwakten deze ene manager.

Stel je voor dat je die ene manager in de vergaderzaan een beetje stil maakt (door zijn stemvolume te verlagen).

Resultaat: Zonder die "bolle" fluistering, luistert de AI ineens naar de andere kant van de vergadering.
De AI stopt met het maken van de volle driehoek en tekent nu de holle pijl zoals hij er werkelijk uitziet!

Dit betekent dat de "regel" dat bolle vormen voorwerpen zijn, geen onveranderlijk wet van de natuur is voor de AI. Het is een actieve keuze die door een specifiek onderdeel van het model wordt aangestuurd. Als je dat onderdeel aanraakt, verandert de perceptie van de AI.

Waarom is dit belangrijk?

Dit onderzoek is als het vinden van de bedieningsknop voor hoe een AI de wereld ziet.

Veiligheid: In situaties waar het belangrijk is om details te zien (zoals in de medische wereld, waar een holte misschien een tumor is en geen "leuke vorm"), kunnen we de AI nu leren om niet blindelings te vertrouwen op zijn "bolle-voorwerp" instinct.
Begrip: We weten nu dat AI's niet alleen "leren" door te kijken, maar dat ze interne mechanismen hebben die lijken op de psychologische regels die ook mensen gebruiken.

Kort samengevat:
De onderzoekers hebben ontdekt dat een AI, net als een mens, graag holtes dichtmaakt om een mooi, rond voorwerp te maken. Ze hebben gevonden dat dit gebeurt door één specifieke "leider" in het eerste deel van het model. Als je die leider een beetje stilhoudt, verandert de AI van mening en ziet hij de holte weer als een holte. Het bewijst dat we de perceptie van AI's kunnen sturen door hun interne "knoppen" te draaien.

Each language version is independently generated for its own context, not a direct translation.

Titel: Locating and Editing Figure-Ground Organization in Vision Transformers

Auteurs: Stefan Arnold en Rene Gröbner (Friedrich-Alexander-Universität Erlangen-Nürnberg)

1. Probleemstelling

Vision Transformers (ViT) hebben de visuele representatie gedefinieerd door beelden te modelleren als sets van interacterende patches via self-attention, in plaats van lokale convoluties. Hoewel ViTs bekend staan om hun vermogen om globale vormen te integreren en minder gevoelig zijn voor textuurbias dan convolutie-modellen, blijft de vraag of ze fundamentele principes van perceptuele organisatie (zoals de Gestalt-wetten) daadwerkelijk internaliseren, een onderwerp van debat.

Specifiek richt dit onderzoek zich op figuur-grond organisatie (figure-ground organization). Bij mensen is er een sterke perceptuele bias om convex gebieden als "figuur" (voorgrond) te zien en concave grenzen als "grond" (achtergrond). De auteurs willen begrijpen:

Waar en hoe deze convexiteits-prior wordt gerealiseerd binnen de interne componenten van een Vision Transformer (specifiek het BEiT-model).
Of deze prior een passief artefact is of een actief, manipuleerbaar mechanisme dat de visuele redenering van het model stuurt.

2. Methodologie

De auteurs hanteren een benadering van mechanistische interpretabiliteit om de interne werking van het model te ontrafelen.

Perceptueel Conflict Stimulus:
- Er wordt een synthetische dataset van 10.000 "dart"-vormen (niet-convexe vierhoeken) gegenereerd.
- Een conflictgebied wordt gedefinieerd als het verschil tussen de concave vorm en zijn convex hull (omhullende).
- Dit gebied wordt gemaskeerd. Het model moet de gemaskeerde patch reconstrueren.
- De keuze: Als het model de driehoek sluit, kiest het voor een convexe interpretatie (figuur). Als het de inkeping behoudt, kiest het voor een concave interpretatie (grond).
Modelkeuze:
- Het model BEiT wordt gebruikt, omdat het werkt met een discrete visuele codebook (in plaats van continue pixelreconstructie zoals MAE). Dit maakt de taak een classificeerbaar probleem en vermindert ruis.
Technieken voor Analyse:
1. Logit Attribution: De auteurs gebruiken deze techniek om de bijdrage van specifieke componenten (residual stream, attention heads) aan de logits (kansen op tokens) te isoleren. Ze projecteren de output van componenten op de codebook-vectoren voor "figuur" (zwart/convex) versus "grond" (wit/concave).
2. Attention Lens: Om de richting en grootte van de bijdrage van individuele attention heads te meten, wordt de output van elke head geprojecteerd op de residual stream en vergeleken met de doelvectoren.
3. Activation Scaling: Om causaliteit te bewijzen, wordt de activatie van specifieke attention heads vermenigvuldigd met een scalair $\alpha$ . Door $\alpha$ te verlagen, wordt de invloed van een head onderdrukt.

3. Belangrijkste Bijdragen

Decompositie van de Residual Stream: De auteurs tonen aan dat figuur-grond organisatie een identificeerbare operatie is binnen de attention-subruimte van BEiT. Ze mappingen het conflict op een discrete set van attention heads.
Mechanistische Interventie: Door de activatie van één enkele attention head te moduleren, kunnen ze de perceptuele bias van het model betrouwbaar omkeren. Dit bewijst dat de convexiteits-prior een actief, causaal mechanisme is en geen statisch kenmerk.

4. Resultaten

Temporele Evolutie van de Bias:
- In de vroege en tussenliggende lagen blijft de residual stream in een staat van competitie (de attributie score ligt rond nul). Er is nog geen duidelijke dominantie van concave of convexe bewijslast.
- De resolutie van het conflict gebeurt plotseling in de latere lagen, waar de residual stream een duidelijke bias naar convexiteit vertoont.
Identificatie van Functionele Eenheden:
- L0H9 (Early Seed): De attention head in laag 0, head 9, fungeert als een "zaadje" (seed). Deze head introduceert direct bij de invoer een subtiele, maar consistente bias naar convexiteit. Hoewel deze head op zichzelf niet sterk genoeg is om de beslissing te nemen, zet hij de initiële voorwaarden.
- Latere Competitie: In latere lagen (bijv. L9H6) ontstaat er intense competitie. Sommige heads ondersteunen concave vormen (geometrische trouw), maar de som van de convexe ondersteunende votes overwint deze tegenstemmen.
Effect van Interventie (Activation Scaling):
- Door de activatie van L0H9 te verlagen (bijv. $\alpha = 0.3$ ), verschuift de waarschijnlijkheidsverdeling van het model over de beslisgrens.
- Het model stopt met het "wegrekenen" van de inkeping en reconstructeert de concave vorm in plaats van de convexe driehoek.
- Dit bevestigt dat de convexiteitsbias niet onwrikbaar is, maar afhankelijk van dit specifieke mechanisme.

5. Betekenis en Conclusie

Dit onderzoek verschuift het begrip van Gestalt-principes in AI van een puur observationeel fenomeen naar een stuurbaar mechanistisch proces.

Fundamenteel Inzicht: Convexiteit in ViT's is geen passief emergent gedrag, maar het resultaat van een competitief integratieproces dat wordt gestuurd door identificeerbare attention heads. De bias wordt vroeg "gezaaid" (seeding) en later versterkt door competitie.
Praktische Implicaties:
- Robuustheid en Veiligheid: In domeinen waar lokale concave kenmerken cruciaal zijn (bijv. medische beeldvorming voor afwijkingen of defectdetectie), kan de dominante globale prior catastrofaal leiden tot het negeren van lokale bewijslast.
- Sturing van Modellen: De auteurs bieden een raamwerk om de weging tussen globale priors en lokale bewijslast te kalibreren. Door specifieke attention heads te manipuleren, kan men modellen "sturen" om in ambiguïteitssituaties meer te vertrouwen op lokale geometrische details dan op globale vormvoorkeuren.

Samenvattend tonen de auteurs aan dat Vision Transformers figure-ground organisatie op een manier uitvoeren die mechanistisch vergelijkbaar is met menselijke perceptie, maar dat dit proces transparant is en direct beïnvloed kan worden door ingrepen in de attention-mechanismen.

Locating and Editing Figure-Ground Organization in Vision Transformers

1. Het Experiment: De "Pijl" die niet wil samenwerken

2. De Autopsie: Het brein van de AI openmaken

3. De ontdekking: De "Geheime Zaadjes"

4. De "Knop" om het om te draaien

Waarom is dit belangrijk?

Titel: Locating and Editing Figure-Ground Organization in Vision Transformers

1. Probleemstelling

2. Methodologie

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

Visual Exclusivity Attacks: Automatic Multimodal Red Teaming via Agentic Planning

AnchorNote: Exploring Speech-Driven Spatial Externalization for Co-Located Collaboration in Augmented Reality

Your Robot Will Feel You Now: Empathy in Robots and Embodied Agents

FIGURA: A Modular Prompt Engineering Method for Artistic Figure Photography in Safety-Filtered Text-to-Image Models

Measuring Research Convergence in Interdisciplinary Teams Using Large Language Models and Graph Analytics