VideoTIR: Accurate Understanding for Long Videos with Efficient Tool-Integrated Reasoning

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen riesigen, mehrstündigen Dokumentarfilm über das Leben in einer wilden Stadt. Jemand fragt dich: „Was hat der Mann genau in der Minute gemacht, als er die Brille aufsetzte?"

Wenn du einen normalen KI-Assistenten (ein sogenanntes Multimodales Large Language Model) fragst, passiert oft Folgendes: Der Assistent versucht, den ganzen Film auf einmal zu „schlucken". Da er aber nicht unendlich viel Platz im Kopf hat, muss er den Film stark komprimieren – wie ein sehr unscharfes Thumbnail. Er sieht nur grobe Umrisse und rät dann wild herum. Das nennt man Halluzinationen: Der Assistent erfindet Dinge, die gar nicht passiert sind, nur um eine Antwort zu geben.

Die Forscher von VideoTIR haben eine clevere Lösung dafür gefunden. Sie haben dem KI-Assistenten nicht nur ein Gehirn, sondern auch einen intelligenten Werkzeugkasten und eine Strategie gegeben.

Hier ist die Erklärung, wie das funktioniert, mit ein paar einfachen Vergleichen:

1. Das Problem: Der „Fressende" Assistent

Stell dir vor, du musst ein 3-stündiges Video verstehen. Ein normaler KI-Modell versucht, alle 3 Stunden auf einmal zu sehen. Das ist wie wenn du versuchst, einen ganzen Ozean in einem einzigen Schluck zu trinken. Du erstickst an den Details oder siehst gar nichts mehr.

2. Die Lösung: VideoTIR (Der Detektiv mit Werkzeugen)

VideoTIR ist wie ein erfahrener Detektiv, der nicht alles auf einmal sieht, sondern schrittweise vorgeht. Er hat zwei Hauptwerkzeuge:

Der Text-Router (Der Kompass): Bevor der Detektiv ins Video schaut, liest er die Frage genau. Er fragt sich: „Brauche ich einen Überblick über den ganzen Film, oder muss ich eine winzige Stelle ganz genau untersuchen?"
Der Werkzeugkasten:
- Der „Browsing"-Werkzeug (Der Weitwinkel): Wenn die Frage allgemein ist („Worum geht es in diesem Film?"), zoomt der Assistent heraus. Er schaut sich den Film in niedriger Auflösung und schnellerer Geschwindigkeit an, um den groben Ablauf zu verstehen.
- Die „Retriever"-Werkzeuge (Das Mikroskop): Wenn die Frage spezifisch ist („Was trug die Frau in der roten Jacke?"), greift der Assistent zu seinen Spezialwerkzeugen. Er sucht genau die Szene, zoomt dort hinein, schaut sich einzelne Bilder an und vergrößert sogar Details.

3. Der Lernprozess: Wie der Assistent lernt, nicht zu viel zu tun

Das Schwierige ist: Wie lernt der Assistent, wann er welches Werkzeug benutzt? Frühere Methoden haben ihn oft dazu gebracht, alle Werkzeuge gleichzeitig zu benutzen, auch wenn er nur eines brauchte (das nennt man „Übernutzung"). Oder er hat Werkzeuge benutzt, die ihm gar nicht geholfen haben („Missbrauch").

Die Forscher haben dafür eine neue Lernmethode namens TAGPO entwickelt.

Die Analogie: Stell dir vor, du lernst Kochen. Wenn du eine Suppe kochst und sie schmeckt, bekommst du einen Punkt.
- Alte Methode: Du bekommst den Punkt, egal ob du 10 Gewürze benutzt hast oder nur 1.
- TAGPO (Die neue Methode): Du bekommst Punkte nur für die notwendigen Schritte. Wenn du ein Gewürz hinzufügst, das die Suppe nicht besser macht, verlierst du Punkte. Wenn du ein Gewürz weglässt, das nötig war, verlierst du Punkte.
- Das Ergebnis: Der Assistent lernt schnell, dass er nicht alles auf einmal machen muss, sondern nur das Richtige zum richtigen Zeitpunkt. Er wird effizienter und macht weniger Fehler.

4. Der Trainings-Simulator (Die Sandkiste)

Bevor der Assistent echte Videos sieht, braucht er Übung. Da es aber kaum Videos gibt, bei denen genau steht, welche Werkzeuge man wann benutzt, haben die Forscher eine Sandkiste (Sandbox) gebaut.

Sie lassen eine andere, sehr starke KI Fragen zu Videos beantworten und dabei „vorhersagen", welche Werkzeuge sie benutzen würde.
Diese simulierten Übungen werden dann genutzt, um den Assistenten vorzubilden, damit er weiß, wie er seine Werkzeuge korrekt anwendet, bevor er mit dem echten Training beginnt.

Zusammenfassung

VideoTIR ist wie ein smarter Detektiv für lange Videos. Anstatt den ganzen Film auf einmal zu verschlucken und dabei den Überblick zu verlieren, nutzt er einen Kompass, um zu entscheiden, ob er einen Weitwinkel- oder einen Zoom-Blick braucht. Durch eine spezielle Lernmethode (TAGPO) lernt er, seine Werkzeuge sparsam und genau einzusetzen. Das Ergebnis: Er versteht lange Videos viel besser, macht weniger Fehler und braucht weniger Rechenleistung als die alten Methoden.

Kurz gesagt: Weniger Gerede, mehr gezieltes Nachschauen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Multimodale Large Language Models (MLLMs) stoßen bei der Verständnisanalyse langer Videos (Long Video Understanding, LVU) häufig an ihre Grenzen. Die Hauptprobleme sind:

Halluzinationen: Es besteht ein Ungleichgewicht zwischen textuellen und visuellen Tokens, was zu falschen Schlussfolgerungen führt.
Ineffiziente Tool-Nutzung: Bestehende Ansätze, die auf Tool-Integrated Reasoning (TIR) basieren, leiden oft unter zwei Fehlern:
- Missbrauch (Misuse): Das Modell ruft mehrere Tools auf, liefert aber dennoch falsche Antworten (Reward Hacking).
- Übernutzung (Overuse): Das Modell ruft zu feingranulare Tools auf (z. B. einzelne Frames), obwohl grobere Informationen (z. B. ganze Segmente) für die Antwort ausreichen würden.
Mangel an Trainingsdaten: Hochwertige, feinabgestimmte Daten für Tool-Aufrufe in langen Videos sind schwer zu beschaffen, was das Fine-Tuning (SFT) und das Reinforcement Learning (RL) erschwert.
Starre Architekturen: Viele bestehende Methoden nutzen externe, starre Pipelines oder einfache Zeitstempel-Ausgaben, die keine adaptive, schrittweise Verfeinerung der visuellen Informationen erlauben.

2. Methodik: VideoTIR

Das Paper stellt VideoTIR vor, ein Framework, das Tool-Integrated Reinforcement Learning nutzt, um MLLMs zu befähigen, lange Videos effizient und genau zu verstehen.

A. Multi-Turn Interaktionsloop

Anstatt das Video in einem einzigen Durchgang zu analysieren, nutzt VideoTIR einen mehrrundigen Ansatz (Multi-Turn):

Das Modell erhält das Video (zunächst in niedriger Auflösung/Framerate) und die Frage.
Ein Textueller Router entscheidet, ob die aktuellen visuellen Informationen ausreichen.
Falls nicht, ruft das Modell spezifische Tools auf, um fehlende visuelle Hinweise zu holen.
Die neuen Informationen werden in den Kontext integriert, und der Prozess wiederholt sich, bis eine Antwort generiert wird oder ein Limit erreicht ist.

B. Hierarchische Toolkits

Das Framework verfügt über ein internes, hierarchisches Toolkit, das auf den eigenen Encodern des MLLM basiert:

Globaler Browser (Browsing Tool): Erhöht schrittweise die räumliche Auflösung und die Framerate, um einen groben Überblick zu gewinnen (Coarse-to-Fine).
Lokale Retrieval-Kette (Temporal-Spatial Grounding): Für spezifische Fragen wird eine Kette aus drei Tools verwendet:
1. Segment-Retriever: Findet relevante Videosegmente basierend auf semantischer Ähnlichkeit.
2. Frame-Retriever: Extrahiert die wichtigsten Frames innerhalb eines Segments.
3. Zoom-in-Retriever: Schärft den Fokus auf spezifische Bildbereiche.

C. Toolkit Action Grouped Policy Optimization (TAGPO)

Dies ist der zentrale algorithmische Beitrag zur Optimierung des RL-Prozesses. Herkömmliche GRPO (Grouped Policy Optimization) bewertet nur die finale Antwort. TAGPO führt eine schrittweise Belohnungszuweisung (stepwise reward assignment) ein:

Gruppierung: Aufrufe desselben Sub-Tools werden gruppiert.
Diskontierung: Tools, die näher am finalen Erfolg stehen, erhalten eine höhere Gewichtung.
Bestrafung von Redundanz: Wenn ein Tool in einer erfolgreichen Episode unnötig oft aufgerufen wird (z. B. A, A, B statt A, B), erhält der redundante Aufruf eine geringere Belohnung aufgrund eines Diskontfaktors ( $\gamma$ ).
Förderung von Exploration: Bei gescheiterten Episoden erhalten explorative Aufrue eine neutrale Bewertung, um das Modell zu ermutigen, neue Tool-Kombinationen zu testen, statt in lokalen Optima stecken zu bleiben.
Dies reduziert sowohl Missbrauch als auch Übernutzung und beschleunigt die Konvergenz.

D. Sandbox-basierte Trajektorien-Synthese

Um das Problem fehlender Trainingsdaten zu lösen, wurde ein Framework zur Synthese von hochwertigen Trajektorien entwickelt:

Ein externes MLLM (z. B. GLM-4.5V) generiert Frage-Antwort-Paare und plant mögliche Tool-Aufrufe basierend auf Video-Text-Daten.
Eine Sandbox-Simulation erzeugt synthetische Trainingsdaten, einschließlich Zwischenschritten, Tool-Befehlen und Umgebungsfeedback.
Ein „Judge"-Modell bewertet die Plausibilität der Trajektorien.
Diese synthetischen Daten dienen als Cold-Start für SFT (Supervised Fine-Tuning), bevor das RL-Training beginnt.

3. Wichtige Beiträge

Multi-Turn Multi-Tool Agent: Ein neues Framework für LVU, das interne Tools flexibel und kontextsensitiv einsetzt, anstatt starre Pipelines zu nutzen.
TAGPO (Reinforcement Learning): Ein neuartiger RL-Algorithmus, der die Effizienz von Tool-Aufrufen durch granulare Vorteilsschätzung (Advantage Estimation) pro Tool-Aktion verbessert und Redundanzen bestraft.
Trajektorien-Synthese: Ein Open-Source-Framework zur Generierung von Trainingsdaten für Tool-Nutzung, das das SFT-Cold-Start-Problem bei komplexen Multi-Tool-Aufgaben löst.

4. Ergebnisse

Die Methode wurde auf drei Benchmarks evaluiert: MVBench, Video-MME und LongVideoBench.

Leistung: VideoTIR (basierend auf Qwen2.5-VL-7B) übertrifft das Basis-Modell und andere State-of-the-Art-Methoden (wie Video-MTR, Video-R1), insbesondere bei langen Videos.
Effizienz: Das Modell erreicht höhere Genauigkeit mit weniger Frames (niedrigere Auflösung) als konkurrierende Methoden, die hohe Auflösungen benötigen.
TAGPO vs. GRPO: TAGPO beschleunigt das Lernen signifikant. Die „Valid Tool Reward" steigt etwa doppelt so schnell wie bei reinem GRPO, und die Genauigkeit nach 30 Trainingsschritten ist höher (24,6% vs. 21,1% im Ablationstest).
SFT-Effekt: Die synthetischen Daten ermöglichen es auch kleineren Modellen (3B), komplexe Tool-Aufrufe korrekt zu formatieren, was für das RL-Training essenziell ist.

5. Bedeutung und Fazit

VideoTIR adressiert kritische Schwachstellen aktueller MLLMs bei der Verarbeitung langer Videos. Durch die Kombination aus einem adaptiven, mehrstufigen Tool-System und einer feingranularen RL-Optimierung (TAGPO) gelingt es, Halluzinationen zu reduzieren und die Recheneffizienz zu steigern.

Die Arbeit zeigt, dass die Fähigkeit, selbstständig zu entscheiden, wann und welche Werkzeuge (z. B. grober Browser vs. feiner Zoom) eingesetzt werden müssen, entscheidend für das Verständnis langer Videos ist. Der vorgeschlagene Ansatz der Trajektorien-Synthese bietet zudem einen wichtigen Weg, um hochwertige Trainingsdaten für Agenten-RL zu generieren, wo reale annotierte Daten fehlen. Dies ebnet den Weg für robustere und skalierbare KI-Systeme im Bereich des Video-Verständnisses.