Think with Grounding: Curriculum Reinforced Reasoning with Video Grounding for Long Video Understanding

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du versuchst, einen 2-stündigen Film zu verstehen, indem du dir nur 10 zufällige Bilder daraus ansiehst und dann versuchst, eine Frage zu beantworten. Das ist für die meisten aktuellen KI-Modelle bei langen Videos das Problem: Sie schauen sich das Video oft nur oberflächlich an, übersehen wichtige Details und erfinden dann Antworten, die plausibel klingen, aber falsch sind. Das nennt man „Halluzinationen".

Die Forscher von der Tsinghua-Universität haben eine Lösung namens Video-TwG entwickelt. Hier ist eine einfache Erklärung, wie das funktioniert, mit ein paar kreativen Vergleichen:

1. Das Problem: Der „Blinde Fleck"

Stell dir vor, du musst einen langen Roman lesen, aber du darfst nur die ersten und die letzten drei Seiten sehen. Wenn man dich dann fragt: „Welche Farbe hatte der Hut des Mörders in der Mitte des Buches?", würdest du raten. Viele KI-Modelle machen genau das: Sie schauen sich das Video an, versuchen, mit reinem Text zu „raten" (zu reasoning), und landen oft bei falschen Antworten, weil sie die entscheidenden Momente im Video übersehen haben.

2. Die Lösung: „Denken mit Vergrößerungsglas" (Think-with-Grounding)

Video-TwG ist wie ein detektivischer Assistent, der nicht nur liest, sondern aktiv nachschaut.

Der alte Weg: Der Assistent schaut sich das ganze Video an (oder zumindest einen Ausschnitt), denkt laut nach und gibt eine Antwort. Wenn er einen wichtigen Moment verpasst hat, ist die Antwort falsch.
Der neue Weg (Video-TwG): Der Assistent schaut sich erst grob das Video an. Wenn er merkt: „Moment, hier fehlt mir ein Detail, um die Frage zu beantworten", sagt er: „Stopp! Ich brauche eine Vergrößerung!"
- Er wählt dann nur den winzigen Teil des Videos aus, der relevant ist (z. B. die 5 Sekunden, in denen jemand eine blaue Pistole hält).
- Er zoomt in diesen Bereich hinein (wie mit einer Lupe), schaut sich die Details genau an und gibt dann die Antwort.

Das ist wie bei einer Suchmaschine: Statt den ganzen Text zu lesen, sucht man nach dem relevanten Satz und liest nur den.

3. Wie lernt die KI das? (Der „Lehrplan")

Man kann eine KI nicht einfach sofort alles beibringen. Die Forscher nutzen eine zweistufige Lernstrategie, ähnlich wie ein Schüler:

Schritt 1 (Die Grundschule): Die KI lernt zuerst an kurzen Videos (wie 1-minütigen Clips), bei denen die Antworten klar sind und genau markiert wurde, wo die Lösung liegt. Hier lernt sie: „Wenn ich unsicher bin, soll ich nachschauen!"
Schritt 2 (Die Universität): Erst wenn sie das Prinzip verstanden hat, bekommt sie riesige Mengen an langen, komplexen Videos (wie ganze Filme oder Dokumentationen). Hier gibt es keine Markierungen mehr. Die KI muss selbst entscheiden: „Brauche ich hier eine Lupe oder nicht?" Sie lernt also, ihre „Suche" intelligent einzusetzen, ohne jedes Mal alles neu durchsuchen zu müssen.

4. Der Belohnungssystem-Trick (Der „Lehrer")

Damit die KI nicht einfach willkürlich herumzoomt (was Zeit kostet), gibt es ein cleveres Belohnungssystem:

Die richtige Antwort: Wenn die KI die Frage richtig beantwortet, gibt es Punkte.
Die gute Suche: Wenn die KI nur dann zoomt, wenn es wirklich nötig ist, gibt es Bonuspunkte.
Die Strafe: Wenn die KI zoomt, aber die Antwort trotzdem falsch ist, oder wenn sie gar nicht zoomt, obwohl sie es hätte müssen, gibt es Minuspunkte.

Besonders clever ist der „Selbst-Check": Bei Videos, bei denen niemand weiß, wo die Lösung liegt, fragt die KI sich selbst: „Wenn ich mir nur den Teil des Videos anschaue, den ich gerade herangezogen habe, könnte ich dann die Frage beantworten?" Wenn ja, war die Suche gut. Wenn nein, war sie unnötig.

Warum ist das so toll?

Keine Halluzinationen: Die KI erfindet keine Fakten mehr, weil sie nachschaut, wenn sie unsicher ist.
Effizienz: Sie schaut nicht das ganze Video in High-Definition an (was extrem viel Rechenleistung braucht), sondern nur die winzigen, wichtigen Teile.
Bessere Ergebnisse: In Tests hat Video-TwG deutlich besser abgeschnitten als alle anderen Modelle, besonders bei sehr langen Videos.

Zusammenfassend: Video-TwG ist wie ein intelligenter Detektiv, der weiß, wann er sein normales Sehen nutzen kann und wann er sein Vergrößerungsglas zücken muss, um das Detail zu finden, das den Unterschied zwischen „falsch" und „richtig" ausmacht.

Think with Grounding: Curriculum Reinforced Reasoning with Video Grounding for Long Video Understanding

1. Das Problem: Der „Blinde Fleck"

2. Die Lösung: „Denken mit Vergrößerungsglas" (Think-with-Grounding)

3. Wie lernt die KI das? (Der „Lehrplan")

4. Der Belohnungssystem-Trick (Der „Lehrer")

Warum ist das so toll?

1. Problemstellung

2. Methodik: Video-TwG Framework

Kernkonzept: Think-with-Grounding

Zwei-Stufen-Verstärktes Curriculum (Two-stage Reinforced Curriculum Strategy)

TwG-GRPO Algorithmus

Datensatz: TwG-51K

Multi-Grained Video Representation

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Think with Grounding: Curriculum Reinforced Reasoning with Video Grounding for Long Video Understanding

1. Das Problem: Der „Blinde Fleck"

2. Die Lösung: „Denken mit Vergrößerungsglas" (Think-with-Grounding)

3. Wie lernt die KI das? (Der „Lehrplan")

4. Der Belohnungssystem-Trick (Der „Lehrer")

Warum ist das so toll?

1. Problemstellung

2. Methodik: Video-TwG Framework

Kernkonzept: Think-with-Grounding

Zwei-Stufen-Verstärktes Curriculum (Two-stage Reinforced Curriculum Strategy)

TwG-GRPO Algorithmus

Datensatz: TwG-51K

Multi-Grained Video Representation

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems