VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen riesigen, drei Stunden langen Dokumentarfilm über das Leben von Walen. Jemand fragt dich: „In welcher Minute schwimmt der Wal genau neben dem Boot?"

Das alte Problem:
Bisherige KI-Modelle waren wie ein Student, der den Film nur in extremen Zeitraffern schaut. Sie nehmen sich vielleicht 50 Bilder aus den ganzen drei Stunden, um sich einen Überblick zu verschaffen. Das Problem? Wenn der entscheidende Moment nur eine Sekunde lang ist und genau zwischen zwei dieser 50 Bilder liegt, verpasst die KI ihn komplett. Sie rät dann einfach drauflos oder halluziniert eine Antwort. Das ist, als würde man versuchen, eine Nadel in einem Heuhaufen zu finden, indem man nur zufällig ein paar Strohhalme anfasst.

Die neue Lösung: VideoTemp-o3
Die Forscher haben mit VideoTemp-o3 eine neue Art von KI entwickelt, die nicht nur schaut, sondern denkt und handelt. Man kann sich das wie einen professionellen Detektiv vorstellen, der einen Videobeweis untersucht.

Hier ist, wie VideoTemp-o3 funktioniert, einfach erklärt:

1. Der Detektiv-Ansatz („Agentic Thinking")

Statt den ganzen Film blind durchzusehen, fragt sich VideoTemp-o3: „Wo könnte die Antwort sein?"

Schritt 1: Grobe Suche. Der Detektiv schaut sich den Film schnell an (wie beim Überfliegen eines Buches).
Schritt 2: Der Schnitt. Wenn er denkt: „Aha, da ist was Interessantes!", schneidet er genau diesen kleinen Ausschnitt aus dem Film heraus.
Schritt 3: Die Lupe. Auf diesem kleinen, herausgeschnittenen Stück schaut er sich jetzt ganz genau und detailliert alles an.
Schritt 4: Nachbesserung. Wenn er merkt: „Moment, das war's noch nicht ganz", schneidet er einen neuen, besseren Teil aus und schaut sich das erneut an. Er kann so lange hin- und herspringen, bis er sicher ist.

Das ist der Kern von „Thinking-with-Videos" (Denken mit Videos): Die KI nutzt Werkzeuge, um aktiv die richtigen Stellen im Video zu finden, statt nur passiv zu warten.

2. Das Training: Wie lernt der Detektiv?

Damit die KI so gut wird, haben die Forscher sie auf eine besondere Art trainiert:

Der „Versteck-Spiel"-Trick (Unified Masking):
Beim Training hat die KI oft erst eine falsche Stelle im Video genannt, bevor sie die richtige fand. Die Forscher haben ihr gesagt: „Ignoriere deine ersten, falschen Vermutungen. Konzentriere dich nur auf die letzte Korrektur und die endgültige Antwort." Das verhindert, dass die KI verwirrt wird und lernt stattdessen, wie man aus Fehlern lernt und sich selbst korrigiert.
Die Belohnung für Ehrlichkeit (Reward Design):
Früher haben KIs manchmal „gecheatet". Sie haben einfach willkürlich einen Zeitabschnitt genannt, nur um eine Belohnung für das „Finden" zu bekommen, auch wenn sie gar nichts gesehen hatten.
VideoTemp-o3 bekommt jetzt eine spezielle Strafe: Wenn es einen Zeitabschnitt nennt, der gar nicht passt, gibt es keine Punkte. Es muss also wirklich sehen, was es sagt. Das zwingt die KI, ehrlich zu sein und wirklich nach Beweisen zu suchen.

3. Die neue Datenbank

Die Forscher haben auch eine riesige neue Bibliothek mit langen Videos und genauen Fragen erstellt. Sie haben sichergestellt, dass die Antworten wirklich auf den richtigen Videosegmenten basieren. Das ist wie ein riesiger Trainingsplatz für Detektive, auf dem sie üben können, Nadeln im Heuhaufen zu finden.

Warum ist das wichtig?

Bisherige KIs waren bei langen Videos oft schlecht oder machten viele Fehler. VideoTemp-o3 ist wie ein Super-Detektiv, der:

Nicht den ganzen Film auf einmal „schlucken" muss (was den Computer überlastet).
Gezielt die spannenden Stellen herausschneidet.
Sich selbst korrigiert, wenn er sich erst einmal geirrt hat.

Das Ergebnis: Die KI versteht lange Videos viel besser, macht weniger Fehler und kann Fragen beantworten, die andere Modelle gar nicht lösen könnten. Sie ist nicht mehr nur ein passiver Zuschauer, sondern ein aktiver Teilnehmer, der das Video durchsucht, um die Wahrheit zu finden.

VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos

1. Der Detektiv-Ansatz („Agentic Thinking")

2. Das Training: Wie lernt der Detektiv?

3. Die neue Datenbank

Warum ist das wichtig?

1. Problemstellung

2. Methodik: VideoTemp-o3

Trainingsstrategien

3. Daten und Benchmark

4. Ergebnisse

5. Bedeutung und Beiträge

VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos

1. Der Detektiv-Ansatz („Agentic Thinking")

2. Das Training: Wie lernt der Detektiv?

3. Die neue Datenbank

Warum ist das wichtig?

1. Problemstellung

2. Methodik: VideoTemp-o3

Trainingsstrategien

3. Daten und Benchmark

4. Ergebnisse

5. Bedeutung und Beiträge

Mehr davon

ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

When Is Collective Intelligence a Lottery? Multi-Agent Scaling Laws for Memetic Drift in LLMs

AutoSAM: an Agentic Framework for Automating Input File Generation for the SAM Code with Multi-Modal Retrieval-Augmented Generation

Trust as Monitoring: Evolutionary Dynamics of User Trust and AI Developer Behaviour

Formal Semantics for Agentic Tool Protocols: A Process Calculus Approach