Circuit Tracing in Vision-Language Models: Understanding the Internal Mechanisms of Multimodal Thinking

Each language version is independently generated for its own context, not a direct translation.

De "Röntgenfoto" van de Zintuiglijke AI: Hoe een Computer Ziet en Denkt

Stel je voor dat je een zeer slimme robot hebt die niet alleen tekst kan lezen, maar ook foto's kan bekijken en erover kan praten. Dit zijn de zogenaamde Vision-Language Models (VLM's). Ze zijn geweldig: ze kunnen vragen beantwoorden over een foto van een zonsondergang of uitleggen waarom een wiskundeprobleem op een bordje klopt.

Maar er is een groot probleem: we weten niet precies hoe ze dat doen. Ze zijn als een zwarte doos. Je stopt een foto en een vraag erin, en er komt een antwoord uit, maar wat er binnenin gebeurt, blijft een mysterie. Het is alsof je een auto bestuurt zonder ooit onder de motorkap te kijken; je weet dat hij rijdt, maar niet welke boutjes en schakelaars het werk doen.

Dit nieuwe onderzoek van Jingcheng Yang en zijn team is als het ontwikkelen van de eerste röntgenfoto voor deze robots. Ze hebben een manier gevonden om de interne "geheime gangen" van de computer te zien en te begrijpen.

Hier is hoe ze dat deden, vertaald in alledaagse termen:

1. De "Vertalers" (Transcoders)

Stel je voor dat de interne taal van de computer een enorme, rommelige kluwen van garen is. Alles is door elkaar heen: kleuren, vormen, woorden en gevoelens. Het is onmogelijk om te zien wat wat is.

De onderzoekers hebben een slimme tool bedacht, een soort vertaler of ontrafelaar (die ze "transcoders" noemen). Deze tool pakt die rommelige kluwen en splitst hem op in losse, schone draden.

In plaats van één dradenbos dat zegt "rode auto met geluk", maakt deze tool losse draden: één voor "rood", één voor "auto" en één voor "geluk".
Hierdoor kunnen ze zien welke specifieke "draad" (of feature) de computer gebruikt als hij naar een foto van een auto kijkt.

2. De "Stroomdiagram" (Attribution Graphs)

Nu ze de losse draden hebben, willen ze weten hoe ze met elkaar verbonden zijn. Ze hebben een stroomdiagram getekend.

Stel je een stad voor met veel wegen. Als je een lichtje aanzet bij een huis (een foto van een appel), zie je dan welke wegen erop reageren?
Dit diagram laat zien: "Oh, als de computer naar de appel kijkt, gaat het signaal eerst naar de 'rode'-draad, dan naar de 'vrucht'-draad, en uiteindelijk naar de 'eten'-draad."
Ze hebben zelfs ontdekt dat de computer soms twee verschillende wegen heeft: één voor wat hij ziet (visueel) en één voor wat hij denkt (taal), en dat deze pas op het laatste moment samenkomen.

3. De "Chirurgische Ingrepen" (Interventie)

Dit is het meest spannende deel. Omdat ze nu precies weten welke schakelaar wat doet, kunnen ze experimenteren. Het is alsof ze de robot even kunnen vasthouden en een schakelaar kunnen omzetten om te zien wat er gebeurt.

Ze hebben twee leuke experimenten gedaan:

De "Zes Vingers" Illusie: Soms denken AI's dat mensen zes vingers hebben. De onderzoekers keken naar de schakelaars en zagen: "Ah! De robot ziet de vorm van een hand, maar de 'hand'-schakelaar is zo sterk dat hij de 'vijf vingers'-schakelaar overstemt." Ze konden dit zelfs corrigeren door de verkeerde schakelaar even uit te zetten.
De Mars-ruimteshuttle: Als je een foto van Mars laat zien, denkt de computer soms aan een ruimteshuttle. Ze zagen dat er een verborgen weg is in het brein van de computer die "Mars" direct koppelt aan "ruimtevaart", zelfs als er geen tekst over staat.

Waarom is dit belangrijk?

Vroeger waren we bang voor deze robots omdat we ze niet begrepen. Wat als ze een fout maken in een ziekenhuis of een verkeerde beslissing nemen bij het besturen van een auto?

Met deze nieuwe "röntgenfoto":

We kunnen fouten vinden: We zien precies waar de robot in de war raakt (bijvoorbeeld bij het tellen van vingers).
We kunnen ze repareren: We kunnen de interne schakelaars aanpassen om betere resultaten te krijgen.
We kunnen ze vertrouwen: Als we weten hoe het werkt, kunnen we ze veiliger maken.

Kortom:
De onderzoekers hebben de deuren van de zwarte doos opengebroken. Ze hebben laten zien dat deze slimme machines niet magisch denken, maar werken met een heel specifiek netwerk van schakelaars die beelden en woorden koppelen. Nu we dit kunnen zien, kunnen we deze technologie beter begrijpen, verbeteren en veilig maken voor de toekomst.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Vision-Language Models (VLMs), zoals CLIP, Flamingo en GPT-4o, hebben de manier waarop machines multimodale informatie verwerken, fundamenteel veranderd. Ondanks hun indrukwekkende prestaties in taken zoals visuele vraagbeantwoording en complexe redenering, blijven deze modellen "zwarte dozen". Hun interne besluitvormingsprocessen zijn ondoorzichtig, wat het moeilijk maakt om fouten te diagnosticeren, bias te mitigeren en de uitlijning met menselijke waarden te waarborgen.

Bestaande interpretabiliteitsmethoden (zoals attention-visualisatie en circuit discovery) zijn grotendeels beperkt tot tekst-only modellen. VLMs stellen unieke uitdagingen: ze moeten twee modaliteiten met verschillende statistieken en semantiek integreren en betekenisvolle visueel-taalcorrespondenties vinden. Er is nog geen systematische manier om te begrijpen hoe VLMs visuele kenmerken aan tokens binden, cross-modale redenering implementeren of visuele en linguïstische aandacht coördineren.

Methodologie

De auteurs introduceren het eerste framework voor transparante circuit tracing (kringlooptraceering) in VLMs. Het doel is om de interne computationele mechanismen van multimodale redenering bloot te leggen. De aanpak bestaat uit drie kerncomponenten:

Transcoders in VLMs:
- Om polysemanische (meerdere betekenissen dragende) neurale representaties te decomponeren, trainen de auteurs per-laag transcoders voor elke MLP-laag (Multi-Layer Perceptron) in het model.
- In plaats van een standaard Sparse Autoencoder (SAE) te trainen om activaties te reconstrueren, vervangt de transcoder de MLP-sublaag door een SAE die het input-output-gedrag van de MLP nabootst.
- Dit resulteert in een vervangend model dat volledig wordt uitgedrukt in monosemanische (één betekenis dragende), interpreteerbare latent features.
- Sparsiteit wordt geforceerd via TopK selectie in plaats van een $L_1$ -straf, wat leidt tot stabielere training.
Attributie-Graphs (Toewijzingsgrafieken):
- De auteurs construeren een attributie-grafiek die de causale relaties tussen features over de lagen heen traceert.
- Omdat de transcoders de MLP's vervangen en de niet-lineariteiten (zoals ReLU en attention) worden "gevroren" op hun waarden voor een specifieke prompt, wordt het model lokaal lineair.
- Dit maakt het mogelijk om de bijdrage van elke feature aan de uiteindelijke output-logits lineair te decomponeren. De grafiek bevat knooppunten voor token-embeddings, actieve transcoder-features en output-logits, verbonden door gewogen randen die de causale invloed weergeven.
Feature Interpretatie en Aandachtsanalyse:
- Om te begrijpen wat een feature doet, analyseren de auteurs activatiepatronen over een diverse dataset.
- Voor visuele tokens (die op zichzelf ondoorzichtig zijn) gebruiken ze attention-rollout maps van de SigLIP-visionencoder. Dit visualiseert welke regio's van de afbeelding de encoder het meest "aandacht" geeft, wat helpt bij het koppelen van features aan visuele concepten.
- Menselijke experts annoteren vervolgens de gevonden subgrafieken om de uiteindelijke circuits te definiëren.
Interventie en Sturing:
- Om de causaliteit te verifiëren, voeren de auteurs interventies uit: ze moduleren de activaties van specifieke features tijdens de forward pass (bijv. onderdrukken of versterken) of "patchen" circuits (het overnemen van een subcircuit van de ene taak naar de andere) om te zien of het gedrag overeenkomt.

Belangrijkste Bijdragen

Eerste Framework voor VLM Circuit Tracing: Het paper biedt de eerste systematische methode om circuits in multimodale modellen te traceren, van visuele input tot de uiteindelijke output.
Integratie van Transcoders en Attributie: Het combineert transcoders (voor interpreteerbare features) met attributie-methoden (voor causale mapping) in een multimodale setting.
Validatie door Interventie: Het bewijst dat de ontdekte circuits niet slechts correlaties zijn, maar causale mechanismen die het modelgedrag daadwerkelijk kunnen sturen en manipuleren.
Open Source: De code en modellen zijn beschikbaar gesteld voor de gemeenschap.

Resultaten en Empirische Bevindingen

De toepassing van dit framework op het Gemma-3-4B-it model leverde de volgende inzichten op:

Hiërarchische Integratie: Visuele en semantische concepten worden pas in de hogere lagen van het netwerk (rond laag 20) gezamenlijk gecodeerd. Eerdere lagen blijven grotendeels modaliteitsspecifiek (ofwel puur visueel, ofwel puur taalkundig).
Visuele Redenering in Wiskunde: Bij visuele rekenopgaven (bijv. "1 + 2" weergegeven als afbeelding) lijkt het model de berekening deels in de visuele ruimte uit te voeren. Er worden visuele features gevonden die corresponderen met het resultaat (bijv. het cijfer "3"), wat suggereert dat eenvoudige arithmetiek visuele circuits kan gebruiken in plaats van puur semantische berekening.
Hallucinaties (Het "Zes Vingers" Probleem): De analyse van hallucinaties (waarbij een model zes vingers ziet in plaats van vijf) toont aan dat dit het gevolg is van een interactie tussen perceptuele bias in de visionencoder en interne circuitdynamiek. De encoder benadrukt generieke "hand"-semantiek, wat de "vijf"-circuit activeert en de "zes"-circuit onderdrukt, zelfs als het visuele bewijs anders zou kunnen suggereren.
Parallelle Paden met Late Convergentie: Het model behoudt lange tijd gescheiden visuele en semantische stromen. Er worden associatieve visuele features gevonden die onafhankelijk van semantiek werken (bijv. een afbeelding van Mars activeert intern een "ruimteschip"-concept). Deze stromen convergeren pas in de laatste lagen tot een unified multimodale representatie.
Distinct Visuele Latente Ruimte: Het taalkundige component van de VLM behoudt een duidelijk visuele representatieruimte, waarbij visueel vergelijkbare features clusteren en samen activeren.

Betekenis en Impact

Dit werk legt de basis voor verantwoord en transparant AI. Door de interne mechanismen van VLMs te ontrafelen, biedt het:

Debugging-mogelijkheden: Het identificeert de exacte oorzaken van fouten (zoals hallucinaties) in plaats van ze alleen te observeren.
Controle: Het toont aan dat modellen kunnen worden "gestuurd" door specifieke circuits te manipuleren, wat leidt tot meer betrouwbare systemen.
Wetenschappelijk Inzicht: Het verduidelijkt hoe visie en taal in diepe neurale netwerken samensmelten, wat kan leiden tot het ontwerp van efficiëntere architecturen.

Hoewel er beperkingen zijn (zoals de hoge menselijke inspanning voor annotatie en de complexiteit van cross-layer superpositie), markeert dit paper een belangrijke stap in de mechanische interpretabiliteit van multimodale modellen.

Circuit Tracing in Vision-Language Models: Understanding the Internal Mechanisms of Multimodal Thinking

1. De "Vertalers" (Transcoders)

2. De "Stroomdiagram" (Attribution Graphs)

3. De "Chirurgische Ingrepen" (Interventie)

Waarom is dit belangrijk?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten en Empirische Bevindingen

Betekenis en Impact

Meer zoals dit

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems