Circuit Tracing in Vision-Language Models: Understanding the Internal Mechanisms of Multimodal Thinking

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen extrem intelligenten Roboter, der sowohl Bilder als auch Sprache versteht. Er kann dir sagen, was auf einem Foto zu sehen ist, mathematische Aufgaben lösen, die nur Zahlen auf einem Bild zeigen, oder sogar erklären, warum ein Mars-Bild dich an ein Raumschiff erinnert.

Das Problem ist: Wir wissen nicht genau, wie er das macht. Er ist wie eine „Black Box" (eine schwarze Kiste). Wir steuern Bilder und Fragen hinein, und er gibt Antworten heraus, aber der innere Prozess ist unsichtbar.

Dieses Papier von Forschern der University of Illinois stellt nun eine Art Röntgengerät für das Gehirn dieses Roboters vor. Sie nennen es „Circuit Tracing" (Schaltkreis-Spuren).

Hier ist die einfache Erklärung, wie sie das gemacht haben und was sie entdeckt haben:

1. Das Problem: Der Roboter denkt in „Kochtopf-Suppe"

Normalerweise verarbeiten diese Modelle Informationen in riesigen, undurchsichtigen Zahlenwolken. Ein Neuron (eine Rechenzelle) im Inneren könnte gleichzeitig an „Hunde", „Runde Formen" und „Freude" denken. Das macht es unmöglich zu verstehen, welcher Teil für was zuständig ist.

2. Die Lösung: Der „Übersetzer" (Transcoder)

Die Forscher haben eine neue Methode entwickelt, die sie Transcoder nennen.

Die Analogie: Stell dir vor, der Roboter spricht eine fremde, verschlüsselte Sprache. Die Transcoder sind wie ein Team von Dolmetschern, die an jeder Etage des Gebäudes stehen. Sie übersetzen die verschlüsselten Zahlenwolken in eindeutige, verständliche Konzepte.
Statt einer undurchsichtigen Suppe erhalten wir jetzt eine Liste mit klaren Zutaten: „Das ist das Feature für 'Mars'", „Das ist das Feature für 'Zahl 3'", „Das ist das Feature für 'Hand'".

3. Die Landkarte: Der „Attributions-Graph"

Sobald sie die einzelnen Zutaten (Features) verstehen können, zeichnen sie eine Landkarte.

Die Analogie: Stell dir einen riesigen Stromkreis in einem Haus vor. Wenn du das Licht im Wohnzimmer einschaltest, fließt Strom durch bestimmte Kabel. Die Forscher verfolgen genau diesen Stromfluss. Sie sehen: „Oh, das Bild von Mars hat zuerst den 'Mars-Kabel' aktiviert, dann hat das 'Raumschiff-Kabel' mitgespielt, und am Ende wurde die Antwort 'Raumschiff' generiert."
So können sie sehen, welche Teile des Gehirns für welche Aufgabe zuständig sind.

4. Was haben sie herausgefunden? (Die spannenden Entdeckungen)

Bilder und Text verschmelzen erst spät:
In den unteren Ebenen des Roboters gibt es getrennte Abteilungen: Eine denkt nur an Farben und Formen (wie ein reiner Fotograf), die andere nur an Wörter. Erst ganz oben im „Gehirn" (in den höheren Schichten) vermischen sich diese beiden Welten zu einer einzigen Idee.
- Beispiel: Ein Bild von einem Apfel wird erst oben als „Frucht" und „Essbar" verstanden, unten ist es nur eine „runde rote Form".
Mathe mit Bildern:
Wenn der Roboter eine Bild-Mathe-Aufgabe sieht (z. B. zwei Äpfel + drei Äpfel), rechnet er nicht nur mit Zahlen im Kopf. Er nutzt spezielle Schaltkreise, die die Anzahl der Objekte direkt im Bild zählen. Es ist, als würde er die Äpfel auf dem Bild „abzählen", bevor er das Ergebnis schreibt.
Halluzinationen verstehen (Der „Sechs-Finger"-Fehler):
Manchmal malen Roboter Hände mit sechs Fingern. Die Forscher haben herausgefunden, warum:
Der Roboter sieht die Hand, aber sein innerer Mechanismus ist so stark auf das Konzept „Hand" programmiert, dass er die Details ignoriert. Der „Fünf-Finger-Kabel" ist so laut, dass er den „Sechs-Finger-Kabel" übertönt. Es ist kein Zufall, sondern ein Kampf zwischen verschiedenen inneren Signalen.
Assoziationen:
Wenn man ein Bild von Mars zeigt, aktiviert der Roboter nicht nur das Wort „Mars", sondern auch das Bild eines „Raumschiffs", selbst wenn kein Raumschiff auf dem Bild ist. Das zeigt, dass der Roboter im Inneren eine eigene Welt von Assoziationen hat, die wir jetzt sehen können.

5. Der Test: „Chirurgische Eingriffe"

Um zu beweisen, dass diese Schaltkreise wirklich wichtig sind, haben die Forscher Experimente gemacht:

Steering (Lenken): Sie haben einen bestimmten „Kabel" (z. B. das für „Mars") künstlich ausgeschaltet. Ergebnis: Der Roboter konnte Mars nicht mehr erkennen oder nannte stattdessen die Erde.
Patching (Reparieren): Sie haben einen Schaltkreis von einem Bild auf ein anderes übertragen. Wenn sie den „Mars-Schaltkreis" in ein Bild von der Erde kopierten, begann der Roboter, Dinge über Mars zu sagen, obwohl es ein Erd-Bild war.

Warum ist das wichtig?

Bisher waren wir wie Passagiere in einem Flugzeug, das wir nicht verstehen. Wir hoffen einfach, dass es sicher landet. Mit dieser neuen Methode können wir nun:

Fehler finden: Warum hat der Roboter gelogen? Wir können den inneren Mechanismus nachvollziehen.
Vertrauen aufbauen: Wir wissen, dass der Roboter nicht zufällig antwortet, sondern auf nachvollziehbaren Wegen rechnet.
Roboter verbessern: Wir können gezielt „Schaltkreise" reparieren oder trainieren, damit sie weniger Fehler machen.

Zusammenfassend: Diese Forscher haben den ersten „Blaupausen"-Plan für das Denken von Bild-Sprach-Robotern erstellt. Sie haben gezeigt, dass diese Modelle nicht nur Magie sind, sondern aus nachvollziehbaren, steuerbaren Teilen bestehen, die wir nun verstehen und kontrollieren können.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Vision-Language Models (VLMs) wie CLIP, LLaVA oder GPT-4o haben zwar beeindruckende Fähigkeiten in der multimodalen Reasoning (z. B. Bildbeschreibung, visuelle Fragenbeantwortung) gezeigt, bleiben jedoch „Black Boxes".

Mangelnde Interpretierbarkeit: Es ist unklar, wie diese Modelle visuelle und sprachliche Informationen intern integrieren, verknüpfen und verarbeiten.
Fehlende Kausalität: Bisherige Interpretationsmethoden (z. B. Attention-Visualisierung, Probing) konzentrieren sich fast ausschließlich auf textbasierte Modelle oder liefern nur korrelative Einblicke, keine kausalen Mechanismen.
Herausforderung: VLMs müssen zwei Modalitäten mit unterschiedlichen Statistiken und Semantiken integrieren. Wie visuelle Features an Tokens gebunden werden und wie cross-modale Reasoning-Prozesse ablaufen, ist weitgehend unbekannt.

2. Methodik: Das Circuit-Tracing-Framework

Die Autoren stellen das erste Framework vor, das Circuit Tracing (Schaltkreis-Spuren) erfolgreich auf VLMs anwendet, um die internen Berechnungsmechanismen zu analysieren. Der Ansatz basiert auf drei Hauptkomponenten:

A. Transcoder (Feature-Decomposition)

Ziel: Zerlegung der polysemantischen (mehrdeutigen) neuronalen Darstellungen in interpretierbare, monosemantische (eindeutige) Features.
Implementierung: Für jede MLP-Schicht (Multi-Layer Perceptron) des VLMs (hier Gemma-3-4B-it) wird ein Transcoder trainiert. Dieser ersetzt die MLP durch einen Sparse Autoencoder (SAE).
Unterschied zu SAEs: Im Gegensatz zu herkömmlichen SAEs, die nur die Aktivierungen rekonstruieren, imitieren Transcoder das Ein-/Ausgangsverhalten der MLP-Schicht. Dies ermöglicht eine end-to-end Attribution.
Sparsity: Es wird eine Top-K-Aktivierung verwendet (Retaining der $k$ größten Aktivierungen), um Stabilität zu gewährleisten, anstatt auf $\ell_1$ -Strafen zu setzen.
Residuum: Da Transcoder Approximationen sind, wird das Rekonstruktionsresiduum als separater Fehlerknoten im Graphen verfolgt.

B. Attribution Graphs (Kausale Verfolgung)

Prinzip: Basierend auf der Arbeit von Lindsey et al. und Hanna et al. wird ein gerichteter Graph erstellt, der kausale Beziehungen zwischen Features über die Schichten hinweg aufzeigt.
Linearisierung: Da die Transcoder die MLPs ersetzen und Nichtlinearitäten (wie ReLU, Attention) auf den Werten eines festen Prompts eingefroren sind, wird das Modell lokal linear.
Berechnung: Die Attribution $A_{s \to t}$ zwischen einem Quell-Feature $s$ und einem Ziel-Feature $t$ wird als Produkt aus der Aktivierungsstärke von $s$ und einem „virtuellen Gewicht" (lokale Ableitung) berechnet.
Ergebnis: Ein sparsamer Graph, der zeigt, wie visuelle Eingaben durch das Reasoning-Prozess fließen und zu den finalen Logits führen.

C. Feature-Interpretation und Circuit-Discovery

Feature-Analyse: Durch Analyse der Aktivierungsmuster (Top-k-Beispiele) und der Aufmerksamkeitskarten (Attention-Rollout) des SigLIP-Vision-Encoders werden die semantischen Bedeutungen der Features bestimmt.
Human-in-the-Loop: Experten gruppieren ähnliche Features zu Knoten und annotieren den Graphen manuell, um die minimalen Subgraphen (Circuits) zu identifizieren, die für spezifische Fähigkeiten verantwortlich sind.

3. Schlüsselergebnisse und Erkenntnisse

Die Anwendung dieses Frameworks auf Gemma-3-4B-it lieferte folgende tiefgreifende Einsichten:

Hierarchische Integration: Visuelle und semantische Konzepte werden erst in höheren Schichten (ab ca. Layer 20) gemeinsam kodiert. Frühere Schichten bleiben weitgehend modalitätsspezifisch.
Visuelle Kreise für Mathematik: Bei visuellen Rechenaufgaben (z. B. „1 + 2") nutzt das Modell teilweise visuelle Räume. Es wurden visuelle Features identifiziert, die direkt den Ergebniszahlen (z. B. „3") entsprechen, was auf eine Berechnung im visuellen Raum hindeutet.
Halluzinationen (Sechs-Finger-Problem): Die Analyse zeigt, dass Halluzinationen (z. B. das Zählen von sechs Fingern) durch das Zusammenspiel von Wahrnehmungsverzerrungen im Encoder und internen Circuit-Dynamiken entstehen. Visuelle „Hand"-Features aktivieren stark den „Fünf"-Circuit, während die Zähl-Features unterdrückt werden.
Parallele Pfade und späte Konvergenz: Das Modell behält getrennte visuelle und semantische Ströme tief im Netzwerk bei. Visuell ähnliche Objekte (z. B. Seeotter, Robben) aktivieren konsistente Features, auch wenn die semantischen Kategorien divergieren. Diese Ströme vereinigen sich erst in den letzten Schichten.
Assoziationen: Das Modell zeigt interne visuelle Assoziationen (z. B. Mars-Bild löst „Space Shuttle"-Aktivierung aus), die unabhängig von expliziten semantischen Hinweisen sind.

4. Intervention und Validierung

Die Autoren validieren die gefundenen Kreise durch Interventionen, um deren Kausalität zu beweisen:

Steering (Lenkung): Durch gezielte Änderung der Aktivierung bestimmter Features wird das Ausgabeverhalten des Modells verändert.
Circuit Patching: Es werden ganze Subschaltkreise von einem Kontext auf einen anderen übertragen (z. B. visuelle Features von „Erde" in den Circuit für „Mars" einsetzen). Dies führt dazu, dass das Modell auf den Mars-Bildern erdbezogene Konzepte generiert, was die kausale Rolle der identifizierten Kreise bestätigt.

5. Bedeutung und Beitrag

Erster Schritt zur Transparenz: Dies ist das erste Framework, das Circuit Tracing erfolgreich auf multimodale Modelle anwendet und damit die „Black Box" von VLMs öffnet.
Kausales Verständnis: Es beweist, dass die identifizierten Kreise nicht nur Korrelationen, sondern kausale Mechanismen für multimodales Reasoning sind.
Praktische Anwendungen: Das Framework bietet Werkzeuge zum Debuggen von Fehlern (z. B. Halluzinationen), zur Minderung von Verzerrungen und zur gezielten Steuerung von Modellen.
Zukunft der KI-Sicherheit: Es legt den Grundstein für zuverlässigere, kontrollierbare und besser ausgerichtete KI-Systeme, indem es die interne Funktionsweise von multimodalen Denkprozessen verständlich macht.

Verfügbarkeit: Der Code und die Modelle sind unter https://github.com/UIUC-MONET/vlm-circuit-tracing verfügbar.