Think with Grounding: Curriculum Reinforced Reasoning with Video Grounding for Long Video Understanding

Dit paper introduceert Video-TwG, een curriculum-gebaseerd framework dat video-LLMs in staat stelt om tijdens redenering over lange video's dynamisch en selectief visuele gronding toe te passen, waardoor hallucinaties worden verminderd en de prestaties op diverse benchmarks aanzienlijk worden verbeterd.

Houlun Chen, Xin Wang, Guangyao Li, Yuwei Zhou, Yihan Chen, Jia Jia, Wenwu Zhu

Gepubliceerd 2026-02-24
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

De Kern: Een Slimme Detective in plaats van een Snelle Gokker

Stel je voor dat je een duizend pagina's tellend detectiveverhaal moet lezen om één specifieke vraag te beantwoorden: "Welke kleur had de moordwapen?"

Hoe de oude methoden werken (De "Snelle Gokker"):
Huidige slimme computers (AI-modellen) proberen vaak het hele verhaal in één keer te lezen, maar omdat het boek zo dik is, moeten ze het versmallen tot een samenvatting van slechts één pagina. Ze proberen dan op basis van die kleine samenvatting een antwoord te geven.

  • Het probleem: Ze missen vaak de kleine details. Ze raden misschien "rood" omdat dat een logische kleur is voor een moordwapen, maar in werkelijkheid was het blauw. Ze "hallucineren" een antwoord omdat ze de feiten niet goed hebben gezien.

Hoe Video-TwG werkt (De "Slimme Detective"):
De nieuwe methode, Video-TwG, werkt anders. Het is alsof de detective een zoeklamp heeft.

  1. Eerst kijken: De detective kijkt eerst naar de samenvatting van het verhaal.
  2. Twijfelen: Als hij denkt: "Ik zie de kleur van het wapen niet goed in dit overzicht," stopt hij niet met gokken.
  3. Zoeklamp gebruiken (Grounding): Hij zegt: "Wacht even, ik moet nu specifiek naar de bladzijde kijken waar het wapen wordt getoond." Hij zoomt dan in op dat specifieke stukje video (de "grondslag" of grounding).
  4. Antwoorden: Pas als hij die specifieke scène scherp heeft gezien, geeft hij het juiste antwoord.

De Drie Magische Ingrediënten

Om deze detective te trainen, hebben de onderzoekers drie slimme trucjes bedacht:

1. Het Twee-Stappen Opleidingsplan (Het Curriculum)

Stel je voor dat je een kind wilt leren zwemmen. Je gooit het niet direct in de diepe oceaan.

  • Stap 1 (Het Kinderbadje): Eerst trainen ze de computer op korte filmpjes (zoals een kinderbadje). Hier is het makkelijk om de juiste plek te vinden. De computer leert hier het patroon: "Kijk eerst, twijfel, zoom in, en geef dan antwoord."
  • Stap 2 (De Oceaan): Pas daarna laten ze de computer oefenen met lange, complexe video's (zoals een uur durende film). Omdat het al weet hoe het moet "zoomen", kan het nu ook in de grote oceaan de juiste plekken vinden, zelfs als er geen antwoorden bij staan.

2. De "Zelf-Bevestigende" Beloning (De Pseudo-Beloning)

In de oceaan (Stap 2) hebben ze vaak geen antwoordboekje om te zien of de computer goed zat. Hoe weet je dan of hij de juiste plek in het filmpje heeft gevonden?

  • De truc: De computer krijgt de opdracht: "Oké, je hebt nu naar dat specifieke stukje video gekeken. Kun jij het antwoord nu geven zonder naar de rest van de film te kijken?"
  • De beloning: Als hij het antwoord correct geeft op basis van alleen dat stukje video, krijgt hij een sterretje. Dit leert de computer dat het belangrijk is om de juiste stukjes video te kiezen, niet zomaar willekeurige stukjes.

3. De "Niet-Gokken"-Regel (De Accuratesse-poort)

Soms kan een computer een stukje video goed vinden, maar toch het verkeerde antwoord geven, of andersom.

  • De regel: De computer krijgt alleen een beloning voor het vinden van het juiste stukje video als het eindantwoord ook correct is. Dit zorgt ervoor dat hij niet gaat "gokken" of onnodig veel gaat zoeken als het antwoord al duidelijk is. Hij leert dus: "Zoek alleen als het echt nodig is."

Waarom is dit zo belangrijk?

Lange video's (zoals films of nieuwsuitzendingen) zitten vol met "ruis" en herhaling.

  • Oude modellen proberen alles tegelijk te onthouden, raken in de war en verzinnen feiten.
  • Video-TwG is efficiënt. Het kijkt niet naar alles, maar weet precies wanneer het moet inzoomen. Het is alsof je een boek leest en alleen de relevante pagina's eruit haalt om een vraag te beantwoorden, in plaats van het hele boek uit je hoofd te moeten leren.

Conclusie

Kortom: Video-TwG is een slimme manier om computers te leren om niet blindelings te gokken op basis van een vaag overzicht, maar om actief te beslissen: "Ik heb meer details nodig," en dan precies die details op te halen. Hierdoor worden de antwoorden veel waarheidsgetrouwer, zelfs bij video's van een uur lang.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →