Attention Gathers, MLPs Compose: A Causal Analysis of an Action-Outcome Circuit in VideoViT

Die Studie nutzt mechanistische Interpretierbarkeit, um in einem VideoViT-Modell einen kausalen Schaltkreis zu identifizieren, bei dem Aufmerksamkeitsköpfe als „Evidenzsammler" und MLP-Blöcke als „Konzept-Komponisten" fungieren, um den Erfolg oder Misserfolg einer Handlung zu berechnen, was auf die Entwicklung von verstecktem Wissen in KI-Modellen hinweist.

Sai V R Chereddy

Veröffentlicht 2026-03-13
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

🎳 Das Geheimnis hinter dem Bowling-Modell: Was das KI-Gehirn wirklich denkt

Stell dir vor, du hast einen sehr klugen, aber stummen Bowling-Trainer. Er sieht dir beim Spielen zu und sagt am Ende immer nur: „Bowling!" (egal ob du alle Kegel umwirfst oder die Kugel ins Rinnen-Loch rollst). Für uns Menschen ist das Ergebnis gleich: Es war ein Bowling-Spiel. Aber für den Trainer ist der Unterschied zwischen einem perfekten „Strike" und einem totalen „Gutter" (Rinne) riesig.

Die Forscher haben sich gefragt: Versteht dieser KI-Trainer den Unterschied wirklich im Inneren, oder ist er nur ein glücklicher Zufall?

Um das herauszufinden, haben sie nicht nur auf das Ergebnis geschaut, sondern wie ein Mechaniker den Motor des KI-Modells auseinandergenommen, um zu sehen, wie die Räder ineinandergreifen. Das nennt man „Mechanistische Interpretierbarkeit".

1. Der Trick mit den zwei Videos

Die Forscher gaben dem Modell zwei fast identische Videos:

  • Video A: Ein perfekter Wurf, alle Kegel fliegen.
  • Video B: Ein Wurf, bei dem die Kugel in die Rinne rollt und nichts passiert.

Das Modell sagt bei beiden: „Bowling". Aber im Inneren des Modells (in seinen neuronalen Schichten) passiert etwas Magisches: Es entwickelt ein geheimes Signal, das genau weiß: „Aha, das hier ist ein Erfolg" oder „Ups, das hier ist ein Misserfolg". Dieses Signal ist für das Endergebnis (die Wortwahl „Bowling") gar nicht nötig, aber es existiert trotzdem tief im Inneren.

2. Die Detektive im Inneren: Attention vs. MLP

Das Herzstück der Entdeckung ist die Aufteilung der Arbeit im Gehirn des Modells. Die Forscher haben herausgefunden, dass zwei verschiedene Teams im Modell unterschiedliche Aufgaben haben. Man kann sich das wie ein großes Bauunternehmen vorstellen:

  • Die „Beweissammler" (Attention Heads):
    Stell dir diese Teile wie Augen oder Detektive vor. Sie schauen sich das Video an und sammeln Hinweise. Sie sagen: „Hey, ich sehe eine Kugel!" oder „Da sind Kegel!" oder „Oh, die Kugel ist in der Rinne!". Sie sammeln die rohen Fakten, aber sie bauen noch kein ganzes Bild daraus.

    • Analogie: Sie sind wie ein Polizeibeamter, der alle Spuren am Tatort sammelt, aber noch keine Theorie über den Täter hat.
  • Die „Konzept-Baumeister" (MLP-Blöcke):
    Diese Teile sind die Architekten oder Köche. Sie nehmen die gesammelten Beweise der Detektive und bauen daraus eine klare Idee. Sie sagen: „Okay, wir haben Kugel, Kegel und Treffpunkt – das ist ein Erfolg!" oder „Kugel in der Rinne – das ist ein Fehler!".

    • Analogie: Sie sind wie der Chefkoch, der aus den gesammelten Zutaten (Zwiebeln, Tomaten, Gewürze) eine fertige Suppe (das Konzept „Erfolg") kocht.

3. Das Überraschungsergebnis: Ein geheimes Netzwerk

Das Spannendste ist, wie stark dieses System funktioniert:

  • Wenn man den „Beweissammlern" (Attention) einen Teil ihrer Arbeit wegnimmt, kann das Modell immer noch verstehen, was passiert.
  • Wenn man aber die „Baumeister" (MLP) manipuliert, ändert sich das Verständnis sofort.
  • Der Clou: Das Modell baut dieses Verständnis vom „Erfolg" oder „Fehler" nicht an einem einzigen Ort auf. Es ist wie ein Kettenreaktion. Von Schicht 5 bis Schicht 11 wird das Signal immer lauter und klarer. Es ist ein riesiges, redundantes Netzwerk.

Stell dir vor, du willst ein Haus bauen. Wenn du einen einzelnen Ziegel entfernst, stürzt das Haus nicht ein, weil es so viele andere Ziegel gibt, die das Gewicht tragen. Genau so ist es bei der KI: Sie ist so robust, dass man sie nicht leicht „verwirren" kann, indem man nur ein kleines Teilchen herausnimmt.

4. Warum ist das wichtig? (Die „Versteckte Weisheit")

Hier kommt der wichtige Punkt für die Sicherheit von KI:
Das Modell wurde nur darauf trainiert, das Wort „Bowling" zu sagen. Es wurde nicht darauf trainiert, zwischen „Erfolg" und „Fehler" zu unterscheiden. Aber es hat sich diese Unterscheidung trotzdem selbst beigebracht und sie tief in seinem Inneren versteckt.

Das ist wie bei einem Schüler, der nur lernt, die richtige Antwort auf einen Test zu geben. Aber im Kopf hat er eine ganze Geschichte darüber entwickelt, warum die Antwort richtig ist – eine Geschichte, die der Lehrer gar nicht sieht.

Das Problem: Wenn wir KI-Systeme in der echten Welt einsetzen (z. B. bei autonomen Autos oder medizinischen Diagnosen), denken wir oft, wir wissen, was sie tun, weil wir ihr Endergebnis sehen. Aber diese Forschung zeigt: Das Modell weiß oft viel mehr, als es sagt. Es hat „geheimes Wissen" über Erfolg oder Misserfolg, das wir nicht sehen, aber das trotzdem existiert.

Fazit

Die Forscher haben bewiesen, dass KI-Modelle wie VideoViT nicht nur einfache Muster erkennen. Sie bauen komplexe, robuste interne Modelle der Welt auf.

  • Attention sammelt die Fakten.
  • MLP baut daraus die Bedeutung.

Das bedeutet: Wir müssen KI nicht nur auf ihr Endergebnis prüfen, sondern müssen lernen, in ihr Inneres zu schauen, um sicherzustellen, dass sie nicht nur „richtig antwortet", sondern auch „richtig denkt". Sonst könnten wir von Systemen überrascht werden, die Dinge verstehen, von denen wir dachten, sie wären blind dafür.