Attention Gathers, MLPs Compose: A Causal Analysis of an Action-Outcome Circuit in VideoViT

Each language version is independently generated for its own context, not a direct translation.

🎳 De Stille Denker: Wat een AI echt ziet als je een bal gooit

Stel je voor dat je een slimme robot hebt die kijkt naar een video van een bowlingpartij. De robot moet alleen maar zeggen: "Ah, dit is bowling." En dat doet hij perfect. Of de bal nu alle kegels omverwaait (een 'strike') of in de goot belandt (een 'gutter'), de robot zegt in beide gevallen: "Bowling."

Maar hier zit de twist: De robot denkt er heel anders over dan hij zegt.

Dit onderzoek, gedaan door een onafhankelijke onderzoeker, kijkt diep in het 'brein' van deze robot (een Video Vision Transformer) om te zien wat er echt gebeurt. Het ontdekken dat de robot weliswaar hetzelfde woord zegt, maar intern een heel ander verhaal vertelt over succes of mislukking.

1. Het Probleem: De "Zwarte Doos"

AI-modellen zijn vaak "zwarte dozen". We zien wat erin gaat (de video) en wat eruit komt (het woord 'bowling'), maar we weten niet hoe ze tot die conclusie komen. In de echte wereld, waar we AI willen vertrouwen (bijvoorbeeld in ziekenhuizen of zelfrijdende auto's), is het cruciaal om te weten waarom een AI iets denkt.

2. De Metafoor: De Bouwvakkers en De Architecten

De onderzoekers hebben ontdekt dat het brein van de AI werkt als een bouwteam met twee soorten werknemers die samenwerken om het idee van "Succes" of "Mislukking" te bouwen.

De Opgeleide Verzamelaars (De Attention Heads):
Stel je deze voor als fotografen of spionnen. Hun enige taak is om te kijken en te verzamelen. Ze scannen de video en zeggen: "Kijk, daar beweegt de bal!" of "Kijk, daar is de goot!" Ze verzamelen de feiten en de bewijzen, maar ze oordelen nog niet. Ze sturen deze informatie door naar de volgende stap.
- In het onderzoek: Deze delen van de AI verzamelen de lage niveau informatie (waar is de bal?).
De Bouwmeesters (De MLP Blocks):
Deze zijn als architecten of chef-koks. Ze nemen de losse bewijzen van de fotografen en bouwen er een compleet verhaal van. Ze zeggen: "Oké, de bal raakt de kegels, dus dit is een Succes." Of: "De bal gaat de goot in, dus dit is een Mislukking."
- In het onderzoek: De onderzoekers ontdekten dat deze "bouwers" (de MLP-blokken) de echte kracht zijn. Ze versterken het signaal van "Succes" of "Mislukking" steeds meer naarmate de informatie door de lagen van het brein gaat.

3. De Experimenten: Wat gebeurde er?

De "Goot" vs. "Strike" Test
De onderzoekers gaven de AI twee video's: één waarin de bal perfect alle kegels omverwaait, en één waarin hij in de goot belandt. De AI gaf voor beide het label "Bowling".

Wat ze zagen: Hoewel het eindresultaat hetzelfde was, zagen ze dat de AI intern een heel sterk verschil maakte. Het was alsof de AI fluisterde: "Dit is een strike!" terwijl hij hardop zei: "Bowling."
De Versterking: Ze zagen dat dit onderscheid (Succes vs. Mislukking) begon als een klein ruisje in de eerste lagen, maar steeds luider werd naarmate de informatie diep het brein in ging. Tegen de tijd dat het de laatste lagen bereikte, was het een schreeuw van "Succes!" of "Mislukking!".

De "Amputatie" Test (Ablatie)
Om te testen of de AI echt afhankelijk was van de bal of de kegels, haalden ze de belangrijkste stukjes van de video weg (alsof je de bal uit de video knipt).

Het verrassende resultaat: De AI zei nog steeds "Bowling"! Hij was zo slim dat hij het antwoord kon raden zonder de belangrijkste details te zien. Dit bewijst dat het "Succes/Mislukking"-idee erg sterk en verspreid in zijn brein zit, en niet afhankelijk is van één enkel detail.

De "Prik-Test" (Activation Patching)
Dit was de belangrijkste test. Ze namen het "brein" van de AI bij de 'strike'-video en plakten stukjes daarvan op de 'gutter'-video.

Het resultaat: Als ze de "Architecten" (de MLP's) van de 'strike'-video op de 'gutter'-video plakten, begon de 'gutter'-video plotseling te denken dat het een 'strike' was!
Conclusie: De "Architecten" zijn de echte makers van het idee. De "Fotografen" (Attention) helpen alleen met het verzamelen van informatie.

4. Waarom is dit belangrijk? (De Les voor ons)

Dit onderzoek laat zien dat AI-modellen verborgen kennis kunnen hebben die we niet zien in hun eindantwoord.

Verborgen Cognitie: De AI weet dat de ene situatie een "succes" is en de andere een "mislukking", zelfs als hij dat niet hoeft te zeggen.
Veiligheid: Als we AI gebruiken voor belangrijke taken (zoals een robot die een auto bestuurt), kunnen we niet zomaar denken: "Hij doet het goed, dus hij is veilig." Hij kan intern een heel ander beeld hebben dan wat hij laat zien.
De Oplossing: We moeten gaan "meedoen" met het brein van de AI (mechanistische interpretatie) om te zien wat er echt gebeurt. We moeten weten wie de "fotografen" zijn en wie de "architecten", zodat we kunnen vertrouwen op hun oordeel.

Kortom:
Deze AI is als een zeer slimme butler die voor de baas zegt: "Het is een mooie dag." Maar in zijn hoofd denkt hij: "De ene dag is het een perfecte dag, de andere dag is het een ramp, en ik weet precies het verschil, ook al zeg ik het niet."

Dit onderzoek is een waarschuwing en een gids: we moeten leren kijken onder de motorkap van AI, zodat we weten wat hij echt denkt voordat we hem de sleutels van de wereld geven.

Each language version is independently generated for its own context, not a direct translation.

Titel: Attention Gathers, MLPs Compose: Een Causale Analyse van een Actie-Resultaat Circuit in VideoViT

Auteur: Sai V R Chereddy (Onafhankelijk Onderzoeker)

1. Het Probleem: De "Black Box" van Video-AI

Hoewel Video Vision Transformers (ViViT) state-of-the-art prestaties leveren in videoclassificatie, blijft hun interne redenering een "black box". Dit gebrek aan transparantie vormt een kritieke barrière voor het vertrouwen in AI-systemen, vooral in hoog-risico domeinen.

De Uitdaging: Bestaande interpretatiemethoden (zoals salience maps) benaderen vaak welke invoerfeatures een voorspelling drijven, maar falen in het causaal isoleren van hoe interne componenten deze features transformeren.
Specifiek Doel: Het paper onderzoekt hoe een model, getraind voor een simpele classificatietaken (bijv. "bowling"), nuance en "verborgen kennis" (zoals het onderscheid tussen een succesvolle "strike" en een mislukte "gutter") intern representeert, zelfs als de uiteindelijke outputlabel identiek is.

2. Methodologie

De auteur gebruikt een combinatie van observationele en causale mechanistische interpretatiemethoden op een voorgeïmplementeerde Video Vision Transformer (ViViT) (model: google/vivit-b-16x2-kinetics400, 12 lagen).

Data:

Een contrastief paar van 10-seconden video's uit de Kinetics-400 dataset: een "strike" (bal raakt kegels) versus een "gutter" (bal valt in de goot). Beide worden correct geclassificeerd als "bowling", maar hebben fundamenteel verschillende uitkomsten.

Technische Aanpak:

Observationele Analyse:
- Direct Logit Attribution (DLA): Identificeren welke lagen bijdragen aan de finale logit.
- Attention Visualisatie: Visualiseren waar de [CLS]-token naar kijkt (bijv. bal-kegel interactie).
- Lineaire Probes: Trainen van een simpele classifier op de [CLS]-activaties om te zien of "succes vs. falen" lineair scheidbaar is.
Delta Analyse (Signaalidentificatie):
- Berekening van het verschil in activaties tussen de twee video's: $\Delta = act_{strike} - act_{gutter}$ .
- De L2-norm van dit verschil wordt per laag gemeten om de versterking van het semantische signaal te kwantificeren.
Causale Interventies:
- Component Ablatie: Het systematisch "nietig verklaren" (zeroing out) van de top 10% tokens die het meest bijdragen aan de classificatie om te testen of het model hier afhankelijk van is.
- Activation Patching: Het systematisch vervangen van activaties van de "strike"-run door die van de "gutter"-run (en vice versa) voor specifieke componenten (Attention Heads vs. MLP-blokken). Hierdoor wordt de "Signal Recovery" gemeten om de causale rol van elk blok te bepalen.

3. Belangrijkste Resultaten

A. De "Signal Amplification Cascade"

Hoewel er lage-niveau verschillen zijn vanaf laag 0, wordt het abstracte semantische signaal van "Succes vs. Falen" pas significant versterkt in de diepere lagen (laag 5 tot en met 11).
Lineaire probes toonden vanaf laag 0 al 100% nauwkeurigheid, maar dit bleek een "vingerafdruk" te zijn van oppervlakkige verschillen (zoals textuur), niet van het echte semantische concept. De Delta-analyse toonde echter aan dat het echte concept dieper in het netwerk wordt berekend.

B. Robuustheid tegen Ablatie

Het verwijderen van de meest belangrijke visuele "hotspots" (de bal-kegel interactie) had een verwaarloosbaar effect op de uiteindelijke classificatie ("bowling").
Dit bewijst dat het model een gedistribueerd en redundant circuit heeft dat onafhankelijk werkt van de expliciete classificatietaken. Het model heeft een "verborgen" berekening van het resultaat die niet noodzakelijk is voor de output-label.

C. De Causale Verdeling van Arbeid: "Attention Gathers, MLPs Compose"
Via activation patching werd een duidelijke functionele scheiding blootgelegd:

Attention Heads (Evidence Gatherers): Deze verzamelen de nodige lage-niveau informatie (spatio-temporeel bewijs) en brengen dit naar de residual stream. Patching van attention blokken herstelt slechts een deel van het signaal (37-54%).
MLP Blocks (Concept Composers): Deze blokken fungeren als de primaire drijvers voor het genereren van het "succes"-signaal. Ze combineren het ingezamelde bewijs tot een robuust semantisch concept. Patching van enkele MLP-blokken herstelt een groter deel van het signaal (42-60%) en is causaal voldoende om het resultaat te creëren.
Gedistribueerde Berekening: Geen enkel enkel component kan 100% van het signaal herstellen; het circuit is opgebouwd over meerdere lagen, wat de robuustheid van het model verklaart.

4. Bijdragen

Ontdekking van Verborgen Kennis: Het paper bewijst dat een model, zelfs getraind op een simpele taak, complexe semantische concepten (succes vs. falen) intern representeert die niet direct zichtbaar zijn in de output.
Methodologische Innovatie: Een combinatie van Delta-analyse op contrastieve paren en Activation Patching om de functionele rollen van Attention vs. MLP-blokken in video-modellen te ontrafelen.
Mechanistisch Bewijs: Het leveren van causaal bewijs voor het patroon "Attention Gathers, MLPs Compose" als een kernrekenpatroon voor het verwerken van menselijke actie-uitkomsten.

5. Betekenis en Implicaties

Trustworthy AI: De ontdekking dat modellen "verborgen cognitie" kunnen ontwikkelen die onafhankelijk is van hun trainingstaak, onderstreept het gevaar van het vertrouwen op simpele output-monitoring.
Veiligheid en Interventie: Omdat het circuit voor het resultaat redundant en gedistribueerd is (vooral via MLP-cascades), zullen simpele veiligheidsinterventies (zoals het verwijderen van één "gevaarlijk" neuron of blok) waarschijnlijk falen.
Toekomstige Richting: Dit werk pleit voor mechanistische toezichttools die dieper kijken dan gradient-based attributie, om de interne staat van AI-systemen te begrijpen voordat ze in de praktijk worden ingezet.

Conclusie:
Het paper toont aan dat VideoViT-modellen niet alleen classificeren, maar ook een robuust, intern circuit bouwen om de uitkomst van een actie te begrijpen. Dit circuit is een gedistribueerd systeem waarbij Attention de feiten verzamelt en MLP's het concept vormen, wat een nieuwe dimensie toevoegt aan het begrip van hoe AI "denkt" en waarom het moeilijk te controleren is.

Attention Gathers, MLPs Compose: A Causal Analysis of an Action-Outcome Circuit in VideoViT

🎳 De Stille Denker: Wat een AI echt ziet als je een bal gooit

1. Het Probleem: De "Zwarte Doos"

2. De Metafoor: De Bouwvakkers en De Architecten

3. De Experimenten: Wat gebeurde er?

4. Waarom is dit belangrijk? (De Les voor ons)

Titel: Attention Gathers, MLPs Compose: Een Causale Analyse van een Actie-Resultaat Circuit in VideoViT

1. Het Probleem: De "Black Box" van Video-AI

2. Methodologie

3. Belangrijkste Resultaten

4. Bijdragen

5. Betekenis en Implicaties

Meer zoals dit

Faster Stochastic Algorithms for Minimax Optimization under Polyak--Łojasiewicz Conditions

Tensor Completion Leveraging Graph Information: A Dynamic Regularization Approach with Statistical Guarantees

Federated Multi-Agent Mapping for Planetary Exploration

Random Scaling and Momentum for Non-smooth Non-convex Optimization

Exploring Low-Dimensional Subspaces in Diffusion Models for Controllable Image Editing