Attention Gathers, MLPs Compose: A Causal Analysis of an Action-Outcome Circuit in VideoViT

Each language version is independently generated for its own context, not a direct translation.

🎳 Das Geheimnis hinter dem Bowling-Modell: Was das KI-Gehirn wirklich denkt

Stell dir vor, du hast einen sehr klugen, aber stummen Bowling-Trainer. Er sieht dir beim Spielen zu und sagt am Ende immer nur: „Bowling!" (egal ob du alle Kegel umwirfst oder die Kugel ins Rinnen-Loch rollst). Für uns Menschen ist das Ergebnis gleich: Es war ein Bowling-Spiel. Aber für den Trainer ist der Unterschied zwischen einem perfekten „Strike" und einem totalen „Gutter" (Rinne) riesig.

Die Forscher haben sich gefragt: Versteht dieser KI-Trainer den Unterschied wirklich im Inneren, oder ist er nur ein glücklicher Zufall?

Um das herauszufinden, haben sie nicht nur auf das Ergebnis geschaut, sondern wie ein Mechaniker den Motor des KI-Modells auseinandergenommen, um zu sehen, wie die Räder ineinandergreifen. Das nennt man „Mechanistische Interpretierbarkeit".

1. Der Trick mit den zwei Videos

Die Forscher gaben dem Modell zwei fast identische Videos:

Video A: Ein perfekter Wurf, alle Kegel fliegen.
Video B: Ein Wurf, bei dem die Kugel in die Rinne rollt und nichts passiert.

Das Modell sagt bei beiden: „Bowling". Aber im Inneren des Modells (in seinen neuronalen Schichten) passiert etwas Magisches: Es entwickelt ein geheimes Signal, das genau weiß: „Aha, das hier ist ein Erfolg" oder „Ups, das hier ist ein Misserfolg". Dieses Signal ist für das Endergebnis (die Wortwahl „Bowling") gar nicht nötig, aber es existiert trotzdem tief im Inneren.

2. Die Detektive im Inneren: Attention vs. MLP

Das Herzstück der Entdeckung ist die Aufteilung der Arbeit im Gehirn des Modells. Die Forscher haben herausgefunden, dass zwei verschiedene Teams im Modell unterschiedliche Aufgaben haben. Man kann sich das wie ein großes Bauunternehmen vorstellen:

Die „Beweissammler" (Attention Heads):
Stell dir diese Teile wie Augen oder Detektive vor. Sie schauen sich das Video an und sammeln Hinweise. Sie sagen: „Hey, ich sehe eine Kugel!" oder „Da sind Kegel!" oder „Oh, die Kugel ist in der Rinne!". Sie sammeln die rohen Fakten, aber sie bauen noch kein ganzes Bild daraus.
- Analogie: Sie sind wie ein Polizeibeamter, der alle Spuren am Tatort sammelt, aber noch keine Theorie über den Täter hat.
Die „Konzept-Baumeister" (MLP-Blöcke):
Diese Teile sind die Architekten oder Köche. Sie nehmen die gesammelten Beweise der Detektive und bauen daraus eine klare Idee. Sie sagen: „Okay, wir haben Kugel, Kegel und Treffpunkt – das ist ein Erfolg!" oder „Kugel in der Rinne – das ist ein Fehler!".
- Analogie: Sie sind wie der Chefkoch, der aus den gesammelten Zutaten (Zwiebeln, Tomaten, Gewürze) eine fertige Suppe (das Konzept „Erfolg") kocht.

3. Das Überraschungsergebnis: Ein geheimes Netzwerk

Das Spannendste ist, wie stark dieses System funktioniert:

Wenn man den „Beweissammlern" (Attention) einen Teil ihrer Arbeit wegnimmt, kann das Modell immer noch verstehen, was passiert.
Wenn man aber die „Baumeister" (MLP) manipuliert, ändert sich das Verständnis sofort.
Der Clou: Das Modell baut dieses Verständnis vom „Erfolg" oder „Fehler" nicht an einem einzigen Ort auf. Es ist wie ein Kettenreaktion. Von Schicht 5 bis Schicht 11 wird das Signal immer lauter und klarer. Es ist ein riesiges, redundantes Netzwerk.

Stell dir vor, du willst ein Haus bauen. Wenn du einen einzelnen Ziegel entfernst, stürzt das Haus nicht ein, weil es so viele andere Ziegel gibt, die das Gewicht tragen. Genau so ist es bei der KI: Sie ist so robust, dass man sie nicht leicht „verwirren" kann, indem man nur ein kleines Teilchen herausnimmt.

4. Warum ist das wichtig? (Die „Versteckte Weisheit")

Hier kommt der wichtige Punkt für die Sicherheit von KI:
Das Modell wurde nur darauf trainiert, das Wort „Bowling" zu sagen. Es wurde nicht darauf trainiert, zwischen „Erfolg" und „Fehler" zu unterscheiden. Aber es hat sich diese Unterscheidung trotzdem selbst beigebracht und sie tief in seinem Inneren versteckt.

Das ist wie bei einem Schüler, der nur lernt, die richtige Antwort auf einen Test zu geben. Aber im Kopf hat er eine ganze Geschichte darüber entwickelt, warum die Antwort richtig ist – eine Geschichte, die der Lehrer gar nicht sieht.

Das Problem: Wenn wir KI-Systeme in der echten Welt einsetzen (z. B. bei autonomen Autos oder medizinischen Diagnosen), denken wir oft, wir wissen, was sie tun, weil wir ihr Endergebnis sehen. Aber diese Forschung zeigt: Das Modell weiß oft viel mehr, als es sagt. Es hat „geheimes Wissen" über Erfolg oder Misserfolg, das wir nicht sehen, aber das trotzdem existiert.

Fazit

Die Forscher haben bewiesen, dass KI-Modelle wie VideoViT nicht nur einfache Muster erkennen. Sie bauen komplexe, robuste interne Modelle der Welt auf.

Attention sammelt die Fakten.
MLP baut daraus die Bedeutung.

Das bedeutet: Wir müssen KI nicht nur auf ihr Endergebnis prüfen, sondern müssen lernen, in ihr Inneres zu schauen, um sicherzustellen, dass sie nicht nur „richtig antwortet", sondern auch „richtig denkt". Sonst könnten wir von Systemen überrascht werden, die Dinge verstehen, von denen wir dachten, sie wären blind dafür.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung und Motivation

Das Paper adressiert das kritische Problem der mangelnden Erklärbarkeit („Black-Box-Problem") von Video-KI-Modellen, insbesondere im Hinblick auf vertrauenswürdige KI (Trustworthy AI). Obwohl Modelle wie der Video Vision Transformer (ViViT) hohe Genauigkeit bei Klassifizierungsaufgaben erreichen, ist ihr internes „Denken" und die Verarbeitung semantischer Nuancen oft undurchsichtig.

Ein spezifisches Szenario wird untersucht: Ein Modell, das auf dem Kinetics-400-Dataset trainiert wurde, klassifiziert zwei kontrastierende Videos (ein „Strike" – Kugeln werden getroffen, und ein „Gutter" – Kugel landet im Rinnenbereich) korrekt als dieselbe Klasse („Bowling"). Die Herausforderung besteht darin, zu verstehen, wie das Modell diese feinen Unterschiede im Ergebnis (Erfolg vs. Misserfolg) intern repräsentiert, auch wenn die finale Ausgabe identisch ist. Dies ist entscheidend, um zu erkennen, ob Modelle „verstecktes Wissen" (Hidden Knowledge) entwickeln, das über die explizite Trainingsaufgabe hinausgeht.

2. Methodik

Die Studie wendet Techniken der Mechanistischen Interpretierbarkeit (Mechanistic Interpretability) auf einen vortrainierten 12-schichtigen Video Vision Transformer (ViViT-B-16x2) an. Der Ansatz kombiniert beobachtende Analysen mit kausalen Interventionen:

Datensatz: Ein minimaler kontrastiver Datensatz aus 10-Sekunden-Videos (Strike vs. Gutter) aus der Klasse „Bowling".
Beobachtende Analyse:
- Direct Logit Attribution (DLA): Identifikation der Schichten, die am meisten zum finalen Logit beitragen.
- Token-Heatmaps & CLS-Attention-Visualisierung: Analyse, auf welche räumlich-zeitlichen Token das Modell fokussiert.
- Lineare Probes: Training einfacher Klassifikatoren auf den Aktivierungen der [CLS]-Tokens, um semantische Trennbarkeit zu testen.
Signal-Identifikation (Delta-Analyse): Berechnung der Differenz der Aktivierungen zwischen den beiden Videos ( $\Delta = act_{strike} - act_{gutter}$ ) und Messung der L2-Norm über alle Schichten hinweg, um die Verstärkung des „Erfolg vs. Misserfolg"-Signals zu quantifizieren.
Kausale Interventionen:
- Komponenten-Ablation: Systematisches Nullsetzen der Top-10% der Token mit dem höchsten Beitrag zur Klassifizierung, um die Robustheit des Modells zu testen.
- Activation Patching: Das „Ersatz"-Prinzip, bei dem Aktivierungen aus dem „Strike"-Video in das „Gutter"-Video kopiert werden (Schicht für Schicht, Komponente für Komponente), um zu messen, wie viel des ursprünglichen Signalunterschieds wiederhergestellt wird.

3. Schlüsselbeiträge

Das Paper liefert drei wesentliche Beiträge:

Nachweis innerer Differenzierung: Es wird gezeigt, dass das Modell trotz identischer finaler Klassifizierung eine distinkte, hochlevelige semantische Repräsentation für „Erfolg" vs. „Misserfolg" entwickelt, die sich von oberflächlichen Merkmalen unterscheidet.
Methodologische Kombination: Die Arbeit demonstriert eine effektive Methodik, die Delta-Analyse zur Lokalisierung von Signalen mit Activation Patching zur Aufklärung der funktionalen Rollen von Netzwerkkomponenten kombiniert.
Reverse Engineering des Rechenmechanismus: Es wird ein kausaler Beweis erbracht, dass mittlere MLP-Blöcke die Haupttreiber für die Generierung des „Erfolgs"-Signals sind, während Attention-Heads als Datensammler fungieren.

4. Ergebnisse

Die Analyse offenbarte eine klare Arbeitsteilung und einen kaskadierenden Verstärkungsprozess:

Signalverstärkungskaskade: Während die Delta-Analyse bereits ab Schicht 0 Unterschiede zeigt, beginnt die signifikante Verstärkung des semantischen „Erfolg vs. Misserfolg"-Signals erst ab Schicht 5 und erreicht ihren Höhepunkt in Schicht 11.
Robustheit gegen Ablation: Das Entfernen der wichtigsten visuellen „Hotspots" (die Kugel-Pin-Interaktion) hatte nur einen vernachlässigbaren Einfluss auf die finale Klassifizierung. Dies beweist, dass das Modell nicht auf einzelne Merkmale angewiesen ist, sondern dass das Ergebnis-Signal robust und verteilt berechnet wird.
Arbeitsteilung (Division of Labor):
- Attention Heads („Evidence Gatherers"): Sie sammeln relevante räumlich-zeitliche Beweise und übertragen diese auf den Residualstrom. Das Patchen von Attention-Blöcken führt zu einer partiellen Signalwiederherstellung (ca. 37–54 %).
- MLP-Blöcke („Concept Composers"): Sie fungieren als die primären Treiber, die das abstrakte Konzept „Erfolg" komponieren. Das Patchen einzelner MLP-Blöcke (insbesondere in den Schichten 4–9) führt zu einer höheren Signalwiederherstellung (42–60 %).
Verteilte Redundanz: Kein einzelner Block kann das Signal zu 100 % wiederherstellen. Das Signal wird kumulativ über mehrere Schichten hinweg aufgebaut. Diese Redundanz erklärt die Resilienz des Modells gegenüber einfachen Ablationen.

5. Bedeutung und Implikationen

Die Ergebnisse haben weitreichende Konsequenzen für die Sicherheit und Zuverlässigkeit von KI-Systemen:

Verstecktes Wissen: Selbst Modelle, die nur für einfache Klassifizierung trainiert wurden, entwickeln komplexe interne Repräsentationen für Nuancen (wie Erfolg/Misserfolg), die nicht im finalen Output sichtbar sind. Dies unterstreicht das Risiko von „Hidden Cognition".
Fehleranfälligkeit einfacher Sicherheitsmaßnahmen: Da das Signal durch eine redundante Kaskade von MLPs robust berechnet wird, sind einfache Eingriffe (wie das Entfernen eines einzelnen „schädlichen" Neurons oder Heads) wahrscheinlich wirkungslos.
Notwendigkeit mechanistischer Aufsicht: Für den sicheren Einsatz von KI in hochriskanten Bereichen sind mechanistische Interpretierbarkeits-Tools unerlässlich, um Diskrepanzen zwischen dem Verhalten des Modells und seinem internen Zustand aufzudecken.
Architekturelle Einsicht: Die Entdeckung des Musters „Attention Gathers, MLPs Compose" bietet ein neues Verständnis dafür, wie Transformer-Architekturen semantische Konzepte in Video-Daten verarbeiten und wie sich die Arbeitsteilung zwischen Attention-Mechanismen und Feed-Forward-Netzen gestaltet.

Zusammenfassend beweist das Paper, dass Video-Transformer-Modelle tiefgreifende, kausal nachweisbare interne Mechanismen zur Verarbeitung von Handlungsergebnissen besitzen, die über ihre explizite Trainingsaufgabe hinausgehen und eine neue Ebene der mechanistischen Überwachung erfordern.

Attention Gathers, MLPs Compose: A Causal Analysis of an Action-Outcome Circuit in VideoViT

🎳 Das Geheimnis hinter dem Bowling-Modell: Was das KI-Gehirn wirklich denkt

1. Der Trick mit den zwei Videos

2. Die Detektive im Inneren: Attention vs. MLP

3. Das Überraschungsergebnis: Ein geheimes Netzwerk

4. Warum ist das wichtig? (Die „Versteckte Weisheit")

Fazit

1. Problemstellung und Motivation

2. Methodik

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Implikationen

Mehr davon

Faster Stochastic Algorithms for Minimax Optimization under Polyak--Łojasiewicz Conditions

Tensor Completion Leveraging Graph Information: A Dynamic Regularization Approach with Statistical Guarantees

Federated Multi-Agent Mapping for Planetary Exploration

Random Scaling and Momentum for Non-smooth Non-convex Optimization

Exploring Low-Dimensional Subspaces in Diffusion Models for Controllable Image Editing