GraphThinker: Reinforcing Video Reasoning with Event Graph Thinking

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du schaust dir einen langen, spannenden Film an. Ein Freund fragt dich: „Was passiert eigentlich genau vor dem Moment, in dem der Held ins Wasser springt?"

Die meisten aktuellen KI-Modelle (die sogenannten Multimodalen Large Language Models oder MLLMs) sind wie Zuschauer, die den Film nur flüchtig ansehen und dann raten. Sie versuchen, die Handlung aus dem Gedächtnis zu rekonstruieren. Das Problem? Sie halluzinieren oft. Sie denken sich Dinge aus, verwechseln die Reihenfolge oder sehen Dinge, die gar nicht da sind. Es ist, als würde jemand einen Film beschreiben, den er nur im Traum gesehen hat.

Die Forscher von GraphThinker haben eine Lösung entwickelt, die diesem Problem auf den Grund geht. Hier ist eine einfache Erklärung, wie sie das machen, mit ein paar bildhaften Vergleichen:

1. Das Problem: Der „Traum-Film"

Stell dir vor, du musst einen Film beschreiben, hast aber keine Notizen. Du versuchst, die Szenen im Kopf zu behalten. Wenn der Film komplex ist (viele Szenen, viele Charaktere), wird dein Gehirn durcheinanderkommen. Du sagst vielleicht: „Zuerst fliegt er mit dem Hubschrauber, dann springt er ins Wasser", obwohl im Film genau das Gegenteil passiert ist. Die KI macht genau das: Sie vermischt die zeitliche Reihenfolge, weil ihr die klare Struktur fehlt.

2. Die Lösung: Der „Regie-Plan" (Der Event Graph)

GraphThinker gibt der KI einen Regieplan an die Hand, bevor sie die Frage beantwortet. Dieser Plan heißt Event-based Video Scene Graph (EVSG).

Wie funktioniert das? Statt den Film einfach nur anzusehen, zerlegt die KI ihn in kleine, überschaubare Szenen (wie einzelne Sätze in einem Buch).
Die Struktur: Für jede Szene erstellt die KI eine kleine Karte. Auf dieser Karte stehen nicht nur die Objekte (z. B. „Mann", „Boot", "Wasser"), sondern auch, was sie tun („springt", „hält", „fährt").
Die Verbindung: Diese kleinen Karten werden dann wie Perlen an einer Schnur aufgereiht. Die Perle „Szenen 1" ist mit „Szenen 2" verbunden, weil Zeit vergangen ist.

Das ist wie ein Reiseplan: Anstatt zu sagen „Wir waren irgendwo am Strand", sagt der Plan: „Um 14:00 Uhr waren wir am Strand (Perle 1), dann sind wir um 14:30 Uhr ins Wasser gesprungen (Perle 2)." Die KI kann nun die Kette der Ereignisse wirklich sehen, statt sie nur zu erraten.

3. Der „Spürhund" für Bilder (Visuelle Belohnung)

Aber ein Plan allein reicht nicht. Manchmal liest die KI nur den Plan und ignoriert das eigentliche Bildmaterial. Sie könnte den Plan lesen und denken: „Ah, hier steht 'springen', also springt er jetzt", ohne wirklich hinzusehen.

Deshalb hat GraphThinker eine zweite Komponente: eine visuelle Belohnung.

Stell dir vor, die KI ist ein Schüler bei einer Prüfung. Wenn sie nur den Lehrbuchtext auswendig lernt, bekommt sie eine gute Note. Aber wenn sie wirklich auf die Abbildungen im Buch schaut und diese mit dem Text verbindet, gibt es einen Bonus-Punkt.
Die KI wird also „bestraft", wenn sie nur auf den Text-Plan schaut, und „belohnt", wenn sie ihre Aufmerksamkeit aktiv auf die echten Bilder im Video richtet, um den Plan zu überprüfen. Sie lernt so, den Plan als Leitfaden zu nutzen, aber die Bilder als Beweis.

4. Das Ergebnis: Ein zuverlässiger Filmkritiker

Durch diese Kombination aus klarem Regieplan (Graph) und aktivem Hinsehen (Belohnung) wird die KI zum perfekten Filmkritiker:

Sie macht weniger Fehler (weniger Halluzinationen).
Sie weiß genau, wann was passiert (bessere zeitliche Genauigkeit).
Sie kann komplexe Fragen beantworten wie: „Was tat der Mann, bevor er das Auto gewaschen hat?", indem sie die Perlenkette in der richtigen Reihenfolge durchgeht.

Zusammengefasst:
GraphThinker verwandelt die KI von einem träumenden Zuschauer, der Dinge vermischt, in einen aufmerksamen Regisseur, der einen genauen Drehbuch-Plan hat und ständig prüft, ob das, was auf dem Bildschirm passiert, mit dem Plan übereinstimmt. Das Ergebnis ist eine KI, die Videos nicht nur „sieht", sondern sie wirklich versteht.

Each language version is independently generated for its own context, not a direct translation.

Problemstellung

Video-Reasoning erfordert das Verständnis kausaler Beziehungen zwischen Ereignissen in einem Video, um komplexe natürliche Sprachfragen zu beantworten. Aktuelle Multimodale Large Language Models (MLLMs) leiden jedoch unter zwei Hauptproblemen:

Fehlende explizite Kausalstruktur: Bestehende Modelle inferieren Ereignisbeziehungen oft implizit über dichte Untertitel oder Videozusammenfassungen. Dies führt zu einem Mangel an kausalem Verständnis.
Halluzinationen: Ohne explizite Modellierung der Struktur innerhalb und zwischen Ereignissen neigen MLLMs zu Halluzinationen (z. B. falsche zeitliche Abfolgen oder nicht existente Objekte), da sie sich zu sehr auf sprachliche Priors verlassen und nicht genügend auf visuelle Hinweise (Visual Grounding) zurückgreifen.

Methodik: GraphThinker

GraphThinker ist eine Methode zur Nachschulung (Post-Training) von MLLMs, die auf Reinforcement Fine-Tuning (RFT) basiert. Sie kombiniert die Konstruktion strukturierter Ereignis-Graphen mit einer visuellen Aufmerksamkeits-Belohnung, um Halluzinationen zu reduzieren.

Der Ansatz besteht aus zwei Hauptphasen:

1. Konstruktion von Event-based Video Scene Graphs (EVSG)

Anstatt manuell annotierte Daten zu verwenden, generiert das MLLM selbst einen strukturierten Graphen, der als „intermediärer Denkprozess" dient:

Multi-Granularität Dichte Untertitel: Das MLLM generiert zunächst dichte Untertitel auf drei Granularitätsebenen (grob, mittel, fein), um redundante Informationen zu minimieren und Inkonsistenzen zu erkennen.
Graph-Generierung und -Verfeinerung:
- Aus den mittelfeinen Untertiteln werden initiale Ereignis-Subgraphen extrahiert, die Objekte, Relationen und Zeitstempel enthalten.
- Diese werden durch grobe und feine Untertitel verifiziert und verfeinert.
- Das Ergebnis ist ein EVSG, der intra-event-Relationen (Objektinteraktionen innerhalb eines Ereignisses) und inter-event-Relationen (temporale Abhängigkeiten zwischen Ereignissen via Zeitstempel-Kanten) explizit modelliert.
Dieser Graph dient als strukturelle Vorlage, die das MLLM während des Reasoning-Prozesses nutzt, um seine Antworten zu constrainen.

2. Reinforcement Fine-Tuning (RFT) mit GRPO

Das Modell wird mittels Group Relative Policy Optimization (GRPO) weiter trainiert. Ein entscheidender Aspekt ist das Design der Belohnungsfunktion (Reward Function), die aus drei Komponenten besteht:

Genauigkeits-Belohnung ( $r_{acc}$ ): Bewertet die Übereinstimmung der zeitlichen Lokalisierung (IoU) und die semantische Ähnlichkeit der Antwort.
Format-Belohnung ( $r_{form}$ ): Stellt sicher, dass das Modell seine Denkprozesse in <thought>-Tags und die Antwort in <answer>-Tags strukturiert.
Visuelle Aufmerksamkeits-Belohnung ( $r_{attn}$ ): Dies ist ein innovativer Mechanismus. Er misst das Verhältnis der Aufmerksamkeit, die das Modell auf visuelle Token (Video) im Vergleich zu Graph-Token (Text) legt. Das Ziel ist es, das Modell zu zwingen, visuelle Beweise aktiv zu nutzen, anstatt sich nur auf den Graphen oder sprachliche Priors zu verlassen. Diese Belohnung wird nur aktiviert, wenn die semantische und zeitliche Genauigkeit einen Schwellenwert erreicht.

Wichtige Beiträge

Erkennung des Mangels an expliziter Modellierung: Die Autoren identifizieren, dass das Fehlen einer expliziten Modellierung von Ereignisbeziehungen die Hauptursache für Inkonsistenzen und Halluzinationen in aktuellen Video-MLLMs ist.
Entwicklung von GraphThinker: Eine neue RFT-Methode, die strukturierte Text-Graphen (EVSG) mit visuellen Belohnungen kombiniert, um visuelles Grounding und zeitliche Konsistenz zu erzwingen.
Selbstgenerierte EVSGs: Die Methode benötigt keine manuellen Annotationen für die Graphen; diese werden durch einen „Self-Generate and Self-Refine"-Prozess des MLLMs erstellt.
Visuelle Aufmerksamkeits-Belohnung: Ein neuer Reward-Mechanismus, der das „Visual Thinking Drift" (Abdrift vom visuellen Input) verhindert und das Modell dazu anregt, visuelle Hinweise für das Reasoning zu priorisieren.

Ergebnisse

GraphThinker wurde auf zwei Datensätzen evaluiert: RexTime (für kausales Ereignis-Reasoning und zeitliche Lokalisierung) und VidHalluc (speziell für die Bewertung von Video-Halluzinationen).

RexTime: GraphThinker übertrifft den State-of-the-Art (SOTA), einschließlich geschlossener Modelle wie GPT-4o und anderer Open-Source-Modelle.
- Verbesserung bei mIoU (Mean Intersection over Union) um +11,74 %.
- Verbesserung bei Accuracy@IoU≥0.5 um +8,86 % gegenüber der Basislinie.
- Das Modell zeigt eine überlegene zeitliche Konsistenz im Vergleich zu Methoden, die Videos in kurze Clips zerlegen.
VidHalluc: Das Modell reduziert Halluzinationen signifikant, insbesondere in den Kategorien Temporale Sequenz-Halluzination (TSH) und Szenenwechsel-Halluzination (STH).
- Die Integration des EVSG allein verbesserte die TSH-Accuracy um 7,83 %.
- Mit dem vollständigen RFT-Ansatz (EVSG + RL) erreicht GraphThinker die besten Ergebnisse unter den Open-Source-Modellen.

Bedeutung und Fazit

Die Arbeit zeigt, dass die explizite Modellierung von Ereignisstrukturen in Form von Graphen, kombiniert mit Reinforcement Learning, das Problem der Halluzinationen in der Video-Reasoning drastisch reduzieren kann. GraphThinker beweist, dass MLLMs durch strukturierte „Denkprozesse" (Graphen) und Belohnungen, die visuelles Grounding fördern, in der Lage sind, kausale und zeitliche Abhängigkeiten in Videos präziser zu verstehen als Modelle, die nur auf dichten Untertiteln oder rein sprachlichen Mustern basieren. Dies ist ein wichtiger Schritt hin zu zuverlässigen KI-Systemen für Anwendungen wie assistive Technologien, Embodied AI und das Verständnis von Anleitungs-Videos.

GraphThinker: Reinforcing Video Reasoning with Event Graph Thinking

1. Das Problem: Der „Traum-Film"

2. Die Lösung: Der „Regie-Plan" (Der Event Graph)

3. Der „Spürhund" für Bilder (Visuelle Belohnung)

4. Das Ergebnis: Ein zuverlässiger Filmkritiker

Problemstellung

Methodik: GraphThinker

1. Konstruktion von Event-based Video Scene Graphs (EVSG)

2. Reinforcement Fine-Tuning (RFT) mit GRPO

Wichtige Beiträge

Ergebnisse

Bedeutung und Fazit

Mehr davon

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation