Locating and Editing Figure-Ground Organization in Vision Transformers

Each language version is independently generated for its own context, not a direct translation.

Das große Rätsel: Was ist das Bild, was ist der Hintergrund?

Stell dir vor, du schaust auf ein Bild. Dein Gehirn muss sofort entscheiden: Was ist das eigentliche Objekt (die Figur) und was ist nur der Hintergrund (der Boden)?

Ein klassisches Beispiel aus der Psychologie ist die Konvexität (die Wölbung nach außen). Unser menschliches Gehirn mag es, wenn etwas nach außen gewölbt ist – das nehmen wir gerne als "echtes Objekt" wahr. Wenn etwas nach innen hohl ist (konkav), sehen wir das eher als eine Lücke oder den Hintergrund.

Die Forscher Stefan Arnold und Rene Gröbner wollten wissen: Wie macht das das? Ein moderner KI-Modell-Typ, der sogenannte Vision Transformer (ViT), sieht Bilder auch so. Aber wo genau im Inneren des Computers entscheidet er sich für die "Wölbung"? Und kann man diese Entscheidung manipulieren?

Der Versuch: Der "Dart"-Zwist

Um das herauszufinden, haben die Forscher ein kleines Experiment gebaut. Sie stellten sich eine Form vor, die aussieht wie ein Dart-Pfeil (ein spitzes Viereck).

Das Problem: Sie haben den Pfeil so gezeichnet, dass die Spitze nach innen zeigt (konkav).
Der Konflikt:
1. Lokaler Beweis: Die Linien zeigen klar: "Hier ist eine Ecke, die nach innen geht!" (Das wäre ein Dart).
2. Globale Regel: Unser Gehirn (und die KI) sagt aber oft: "Nein, das ist nur ein Dreieck, bei dem ein Stück fehlt!" (Das wäre ein Dreieck mit einer Einbuchtung).

Die Forscher haben den Bereich, in dem diese Entscheidung getroffen werden muss, für die KI "abgedeckt" (maskiert). Die KI musste nun raten: Füllt sie die Lücke so auf, dass ein Dart entsteht (konkav), oder schließt sie die Lücke zu einem Dreieck (konvex)?

Die Entdeckung: Ein innerer Kampf

Die Forscher haben die KI nicht einfach nur "ausgefragt", sondern sie zerlegt (wie einen Motor, den man auseinanderbaut, um zu sehen, welches Teil was tut). Sie haben geschaut, welche Teile der KI für welche Antwort verantwortlich sind.

Hier ist das Ergebnis, vereinfacht:

Der lange Streit: In den ersten und mittleren Schichten der KI herrscht Chaos. Es ist wie in einem großen Meetingraum, in dem alle Meinungen laut sind. Manche sagen "Dart!", andere sagen "Dreieck!". Die KI weiß noch nicht, was sie tun soll.
Der plötzliche Sieg: Ganz am Ende der Verarbeitungskette entscheidet sich die KI plötzlich und klar für das Dreieck (die konvexe Form). Sie ignoriert also die lokalen Linien und folgt ihrer "Regel", dass Wölbungen besser sind.

Der "Geheime Agent": Kopf L0H9

Das Spannendste kam noch: Die Forscher fanden heraus, dass dieser ganze Streit nicht zufällig ist. Es gibt einen ganz kleinen, winzigen Teil der KI (einen sogenannten "Attention Head", nennen wir ihn Herr L0H9), der schon ganz am Anfang des Prozesses eingreift.

Die Metapher: Stell dir vor, die KI ist ein riesiges Orchester. Herr L0H9 ist der erste Geiger, der noch bevor das eigentliche Stück beginnt, eine leise Note spielt, die sagt: "Wir spielen heute ein Dreieck!"
Dieser Geiger ist nicht laut. Er ist nur ein ganz kleiner Impuls. Aber er setzt den Ton. Alle anderen Instrumente (die späteren Schichten) hören diesen Impuls und stimmen sich darauf ein. Am Ende ist das Dreieck die logische Konsequenz dieses ersten, leisen Winkels.

Der Trick: Den Geiger zum Schweigen bringen

Um zu beweisen, dass dieser eine Geiger (L0H9) wirklich der Boss ist, haben die Forscher einen Eingriff vorgenommen. Sie haben die Lautstärke dieses einen Teils heruntergedreht (fast auf Null).

Das Ergebnis war verblüffend:
Sobald sie diesen einen "Geiger" leiser machten, hörte die KI auf, das Dreieck zu sehen. Plötzlich sah sie den Dart! Sie folgte nun den lokalen Linien und nicht mehr der alten Regel.

Das ist, als würde man in einem Gerichtssaal den Richter stumm schalten, der immer für "Schuld" plädiert. Plötzlich hört das Gericht auf die Beweise und spricht frei.

Warum ist das wichtig?

Bisher dachten viele, dass KI-Modelle solche Regeln (wie "Wölbungen sind Objekte") einfach so in sich tragen, wie ein fest verdrahteter Schalter.

Diese Studie zeigt aber: Nein, das ist kein festes Gesetz. Es ist ein aktiver Prozess, der von ganz bestimmten, identifizierbaren Teilen der KI gesteuert wird.

Die Bedeutung: Wenn wir verstehen, welche Teile die KI dazu bringen, Dinge falsch zu sehen (z. B. in der Medizin, wo ein kleiner, konkaver Tumor wichtig ist, aber die KI ihn ignoriert, weil sie lieber "glatte" Formen sieht), dann können wir diese Teile gezielt steuern. Wir können die KI "umstimmen", damit sie in kritischen Situationen die Details sieht und nicht nur die groben Regeln.

Zusammenfassend: Die Forscher haben gezeigt, dass KI nicht nur "blind" Regeln befolgt. Sie hat einen inneren Kampf, bei dem winzige, frühe Signale entscheiden, ob wir ein Objekt oder einen Hintergrund sehen. Und das Beste: Wir können diese Signale manipulieren, um die KI besser zu machen.

Each language version is independently generated for its own context, not a direct translation.

Titel: Lokalisierung und Bearbeitung der Figur-Hintergrund-Organisation in Vision Transformern

Autoren: Stefan Arnold und Rene Gröbner (Friedrich-Alexander-Universität Erlangen-Nürnberg)

1. Problemstellung

Vision Transformer (ViT) haben sich durch ihre Fähigkeit bewährt, globale Kontexte über Selbst-Aufmerksamkeit (Self-Attention) zu modellieren, was zu einer stärkeren Abhängigkeit von Forminformationen im Vergleich zu texturbasierten CNNs führt. Dennoch bleibt unklar, wie genau diese Modelle fundamentale Prinzipien der menschlichen Wahrnehmung, insbesondere die Figur-Hintergrund-Organisation (Gestalt-Prinzipien), internalisieren.

Ein zentrales Phänomen ist die Konvexitäts-Präferenz: Menschen neigen dazu, konvexe Regionen als „Figur" (Vordergrund) und konkave Grenzen als „Hintergrund" zu interpretieren. Das Paper untersucht, wie ein ViT (speziell das Modell BEiT) entscheidet, wenn lokale geometrische Evidenz (eine konkave Form) mit globalen organisatorischen Priors (die konvexe Hülle) in Konflikt geraten. Die Frage ist, ob diese Präferenz ein passives Artefakt oder ein aktiver, mechanistisch lokalisierbarer Prozess ist.

2. Methodik

A. Experimentelles Design: Perzeptiver Konflikt

Die Autoren generierten synthetische Stimuli in Form von „Darts" (nicht-konvexe Vierecke).

Konfliktregion: Der Bereich zwischen der konkaven Form und ihrer konvexen Hülle wird maskiert.
Aufgabe: Das Modell muss die maskierten Patches rekonstruieren.
- Eine konkave Rekonstruktion (Beibehaltung des Darts) folgt der lokalen Evidenz.
- Eine konvexe Rekonstruktion (Schließen eines Dreiecks) folgt dem globalen Gestalt-Prior.
Modell: BEiT wird verwendet, da es auf einem diskreten Vektor-Quantisierungs-Autoencoder (VQ-VAE) basiert. Dies erlaubt die Behandlung der Formvollendung als Klassifizierungsproblem über einen diskreten Codebook-Raum, anstatt eine Regression von Pixelwerten durchzuführen.

B. Mechanistische Analyse: Logit-Attribution

Um die internen Komponenten zu isolieren, die für die Entscheidung verantwortlich sind, nutzen die Autoren Logit-Attribution:

Prinzip: Der Residual-Stream eines Transformers wird als lineare Superposition der Beiträge aller Komponenten betrachtet.
Implementierung: Die Ausgabe jedes Modulkomponenten (Attention-Heads, MLPs) wird auf den Codebook-Raum projiziert.
Metrik: Es wird eine latente Richtung definiert als Differenz zwischen den Codebook-Vektoren der „Figur"-Tokens (konvex) und der „Ground"-Tokens (konkav). Ein positiver Attributionswert zeigt eine Tendenz zur Konvexität an, ein negativer zur Konkavität.

C. Intervention: Aktivitäts-Skalierung (Activation Scaling)

Um kausale Beweise zu erbringen, wird eine gezielte Intervention durchgeführt:

Die Aktivierung eines spezifischen Attention-Heads wird mit einem skalierenden Faktor $\alpha$ multipliziert ( $o_{l,h} = \alpha \cdot o_{l,h}$ ).
Dies ermöglicht das Dämpfen oder Verstärken spezifischer neuronaler Pfade, um deren Einfluss auf die finale Rekonstruktion zu testen.

3. Wichtige Beiträge

Mechanistische Dekomposition: Die Autoren zerlegen den Residual-Stream von BEiT, um die substrukturellen Einheiten (Attention-Heads) zu identifizieren, die für die Figur-Hintergrund-Trennung verantwortlich sind. Sie zeigen, dass dies eine identifizierbare Operation im Attention-Unterraum ist.
Kausale Manipulation: Durch die Modulation eines einzigen Attention-Heads gelingt es, die Rekonstruktionsneigung des Modells zuverlässig umzukehren (von konvex zu konkav). Dies beweist, dass der Konvexitäts-Prior keine unveränderliche Eigenschaft ist, sondern durch aktive mechanistische Einheiten gesteuert wird.

4. Ergebnisse

Zeitliche Auflösung des Konflikts:
- In den frühen und mittleren Schichten bleibt der Residual-Stream in einem Zustand der Ambiguität (die Attributionswerte liegen nahe Null). Es herrscht ein Wettstreit zwischen lokaler Evidenz und globalem Prior.
- Die Entscheidung fällt abrupt in den späteren Schichten, wo der Residual-Stream eine klare Bias zur Konvexität entwickelt.
Identifikation des „Samens" (Seed):
- Die Analyse der Attention-Heads enthüllt, dass der Kopf L0H9 (Layer 0, Head 9) als früher Seed fungiert. Er injiziert fast sofort nach Eingabe eine subtile, aber persistente Tendenz zur Konvexität in den Residual-Stream.
- Obwohl L0H9 allein nicht stark genug ist, um die Entscheidung zu erzwingen, setzt er die Anfangsbedingungen für die nachfolgenden Schichten.
- Spätere Schichten zeigen einen intensiven Wettbewerb (z. B. Kopf L9H6 unterstützt Konkavität), aber die Summe der konvexitätsunterstützenden Stimmen überwiegt.
Interventionsergebnis:
- Durch das Dämpfen von L0H9 (Reduktion von $\alpha$ auf 0.3) verschiebt sich die Wahrscheinlichkeitsverteilung des Modells über die Entscheidungsgrenze hinweg.
- Das Modell hört auf, das Dreieck zu schließen, und rekonstruiert stattdessen die konkave Form des Darts. Dies zeigt, dass die lokale Evidenz dominieren kann, wenn der „frühe Seed" unterdrückt wird.

5. Bedeutung und Implikationen

Aktive vs. Passive Organisation: Die Studie widerlegt die Annahme, dass Gestalt-Prinzipien in ViTs nur passive emergente Eigenschaften seien. Stattdessen werden sie durch identifizierbare, steuerbare mechanistische Einheiten (Attention-Heads) aktiv implementiert.
Steuerbarkeit: Die Fähigkeit, die Figur-Hintergrund-Organisation durch gezielte Eingriffe in einzelne Heads zu manipulieren, eröffnet neue Wege für das Mechanistic Interpretability und das Model Steering.
Anwendungsrelevanz: In kritischen Domänen wie der medizinischen Bildgebung oder der Anomalieerkennung ist es entscheidend, dass globale Priors nicht lokale, diagnostisch relevante Details (z. B. konkave Ränder von Tumoren) überschreiben. Die vorgestellte Methode bietet einen Rahmen, um zu kalibrieren, wie stark Modelle globale Priors gegenüber lokalen Evidenzen gewichten.
Hypothese der „Seedierung": Die Autoren postulieren, dass die Konvexitäts-Bias nicht als harte Regel am Ende des Netzwerks auferlegt wird, sondern als asymmetrische Anfangsbedingung („Seed") in den frühesten Schichten injiziert wird, die dann in späteren Schichten durch kompetitive Integration verstärkt wird.

Fazit: Das Paper liefert einen tiefen Einblick in die „Black Box" von Vision Transformern und zeigt, dass komplexe perceptuelle Entscheidungen wie die Figur-Hintergrund-Trennung auf spezifische, modifizierbare neuronale Schaltkreise zurückgeführt werden können.