Map the Flow: Revealing Hidden Pathways of Information in VideoLLMs

Diese Studie nutzt mechanische Interpretierbarkeit, um die inneren Informationsflüsse von VideoLLMs zu entschlüsseln, und zeigt auf, wie diese Modelle durch gezielte Aktivierung spezifischer Schichten und das Unterdrücken irrelevanter Aufmerksamkeitsverbindungen eine effektive zeitliche Schlussfolgerung für Video-Frage-Antwort-Aufgaben erreichen.

Minji Kim, Taekyung Kim, Bohyung Han

Veröffentlicht 2026-03-04
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das große Rätsel: Wie „sehen" KI-Modelle Videos?

Stell dir vor, du hast einen sehr intelligenten Roboter (eine sogenannte VideoLLM), der dir Fragen zu Videos beantworten kann. Wenn du ihn fragst: „Was macht die Katze am Anfang des Videos?", antwortet er sofort. Aber wie genau funktioniert das in seinem Inneren?

Bisher wussten wir nur, dass der Roboter das Video sieht und die Antwort sagt. Wir wussten aber nicht, wie er die Informationen durch seinen Kopf schickt. Ist es wie ein Labyrinth, in dem alles durcheinanderwirbelt? Oder gibt es eine klare Straße?

Die Forscher von „MAP THE FLOW" haben genau das untersucht. Sie haben den Roboter „auseinandergenommen" (im übertragenen Sinne), um zu sehen, wie die Informationen fließen.

Die drei Stationen der Informations-Reise

Die Forscher haben herausgefunden, dass der Roboter die Antwort nicht sofort spuckt, sondern eine Reise durch drei Stationen macht. Stell dir das wie eine Postzustellung vor:

1. Die Werkstatt: Wo die Zeit zusammenkommt (Frühe bis mittlere Schichten)

Wenn das Video in den Roboter eingespeist wird, sind die einzelnen Bilder (Frames) wie lose Puzzleteile.

  • Das Problem: Ein einzelnes Bild zeigt nur einen Moment. Um zu verstehen, dass eine Katze läuft, muss der Roboter wissen, wo sie vor einer Sekunde war und wo sie jetzt ist.
  • Die Lösung: In den ersten Abschnitten des Gehirns des Roboters tauschen sich die Bilder untereinander aus. Es ist, als würden die Puzzleteile in einer Werkstatt zusammenrücken und sich gegenseitig die Hand reichen, um ein Zeit-Video zu bauen. Ohne diesen Austausch wäre es nur eine Folge von statischen Fotos.

2. Die Übersetzer: Wo Bilder und Worte sich treffen (Mittlere Schichten)

Jetzt hat der Roboter das Zeit-Verständnis. Aber er muss es mit deiner Frage verbinden.

  • Die Magie: Wenn du fragst: „Was passiert am Anfang?", sucht der Roboter nach dem Wort „Anfang". In der Mitte seines Gehirns passiert etwas Spannendes: Die visuellen Informationen (das Video) treffen genau auf die Wörter deiner Frage.
  • Die Analogie: Stell dir vor, das Video ist ein Fluss und deine Frage ist ein Kanal. In der Mitte des Gehirns gibt es eine Schleuse. Dort fließt das Wasser des Videos gezielt in den Kanal des Wortes „Anfang". Der Roboter lernt also: „Ah, das Wort 'Anfang' gehört zu diesen speziellen Bildern ganz am Start des Videos."

3. Die Druckerei: Wo die Antwort entsteht (Späte Schichten)

Sobald die Informationen in der Schleuse angekommen sind, ist das Puzzle gelöst.

  • Das Ergebnis: In den letzten Schichten des Gehirns wird die Antwort gedruckt. Der Roboter weiß jetzt genau, was er sagen muss. Interessanterweise passiert das sehr schnell nach der „Schleuse". Sobald die Verbindung zwischen Video und Frage geklärt ist, ist die Antwort eigentlich schon fertig.

Der geniale Trick: Der Roboter ist effizienter als gedacht

Das vielleicht Coolste an der Studie ist eine Entdeckung über die Effizienz.

Stell dir vor, das Gehirn des Roboters ist ein riesiges Straßennetz mit Millionen von Kreuzungen (Aufmerksamkeitsverbindungen). Man könnte denken, dass der Roboter alle Straßen nutzt, um die Antwort zu finden.

Die Forscher haben jedoch einen Experiment gemacht: Sie haben 58% aller Straßen einfach gesperrt (sie haben die Verbindungen, die nicht wichtig sind, blockiert).

  • Das Ergebnis: Der Roboter hat trotzdem fast genauso gut geantwortet!
  • Die Erkenntnis: Der Roboter nutzt nur einen winzigen, super-effizienten Pfad durch sein Gehirn. Er ignoriert den ganzen „Lärm" und konzentriert sich nur auf die wenigen Straßen, die wirklich zur Antwort führen. Es ist, als würde ein Navigator dir sagen: „Vergiss die 100 anderen Straßen, nimm nur diese eine, und du bist in 5 Minuten da."

Warum ist das wichtig?

  1. Verständnis: Wir verstehen jetzt endlich, wie diese KIs „denken". Sie bauen erst ein Zeit-Modell, verknüpfen es mit Worten und geben dann die Antwort.
  2. Bessere KIs: Wenn wir wissen, welche Straßen wichtig sind, können wir die KIs schneller und effizienter machen. Wir müssen nicht den ganzen riesigen Motor laufen lassen, sondern nur den wichtigen Teil.
  3. Fehleranalyse: Wenn der Roboter einen Fehler macht, liegt es oft daran, dass er in der ersten Werkstatt (Station 1) die Bilder falsch verknüpft hat, nicht weil er die Antwort nicht kannte.

Zusammenfassung in einem Satz

Die Forscher haben herausgefunden, dass Video-KIs wie ein gut geölter Fluss funktionieren: Sie bauen zuerst eine Zeit-Brücke zwischen den Bildern, leiten diese Informationen dann gezielt zu den wichtigen Wörtern deiner Frage und nutzen dafür nur einen schmalen, effizienten Pfad, statt das ganze Gehirn zu überlasten.