Stateful Token Reduction for Long-Video Hybrid VLMs

Dit paper introduceert een stateful token-reductiemethode voor hybride video-VLM's die een progressieve vermindering en een taalbewuste scoring combineert om de voorverwerkingssnelheid aanzienlijk te verhogen zonder de nauwkeurigheid te verliezen.

Jindong Jiang, Amala Sanjay Deshmukh, Kateryna Chumachenko, Karan Sapra, Zhiding Yu, Guilin Liu, Andrew Tao, Pavlo Molchanov, Jan Kautz, Wonmin Byeon

Gepubliceerd 2026-03-03
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een Vision-Language Model (VLM) hebt. Dit is een slimme AI die video's kan kijken en er vragen over kan beantwoorden. Maar er is een groot probleem: als je een lange video (bijvoorbeeld een hele film of een documentatie van 2 uur) aan deze AI geeft, moet hij duizenden kleine stukjes beeld (token's) verwerken. Het is alsof je iemand vraagt om een heel boek woord voor woord te lezen, letter voor letter, terwijl je eigenlijk alleen maar de samenvatting wilt. Dit kost enorm veel tijd en rekenkracht.

De onderzoekers van NVIDIA hebben een nieuwe oplossing bedacht, specifiek voor een nieuw type AI-architectuur die ze "Hybrid VLM" noemen. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Overvolle Bus"

Stel je de AI voor als een bus die een lange reis maakt (de video).

  • De oude manier: De bus stopt bij elke enkele passagier (elk beeldje) om te kijken of die belangrijk is. Als de bus vol zit, moet hij heel langzaam rijden.
  • De huidige oplossing: Veel bestaande methoden proberen passagiers er vroeg in de rit uit te gooien als ze er "niet belangrijk" uitzien. Het probleem is dat je op dat moment nog niet weet wie er later belangrijk wordt. Het is alsof je iemand uit de bus gooit omdat hij nu slaapt, terwijl hij straks de enige is die de weg kent.

2. De Nieuwe Architectuur: De "Slimme Bus" (Hybrid VLM)

Deze nieuwe AI (Nemotron-Nano-V2) is anders opgebouwd. Hij heeft twee soorten "motoren":

  1. De Attentie-motor: Kijkt heel goed naar details (zoals een mens die naar een foto kijkt).
  2. De Mamba-motor: Dit is een nieuwere, slimme motor die informatie onthoudt terwijl hij rijdt. Hij bouwt een soort "geheugen" op van wat hij al heeft gezien, zelfs als hij niet naar elk detail blijft staren.

3. De Oplossing: "Staat-gebaseerde Token Reductie"

De onderzoekers hebben ontdekt dat je in deze nieuwe "Slimme Bus" passagiers (beeldjes) kunt verwijderen, maar dan op een slimme manier.

De twee belangrijkste ontdekkingen:

  • De "Wie is belangrijk?"-verandering: Wat belangrijk is in de eerste minuut van de video, is niet per se belangrijk in de laatste minuut. Als je te vroeg te veel weggooit, mis je cruciale informatie.
  • Het "Geheugen"-effect: Omdat de Mamba-motor een geheugen heeft, hoeft hij niet elk detail vast te houden. Als hij een passagier laat uitstappen, onthoudt hij nog steeds de essentie van die passagier in zijn geheugen. Het is alsof je een foto maakt van iemand voordat hij weggaat; je hoeft hem niet fysiek bij je te houden om te weten wie het was.

4. De Strategie: "Van Langzaam naar Snel" (Progressieve Reductie)

In plaats van direct aan het begin van de rit de helft van de passagiers eruit te gooien, doen ze het zo:

  • Aan het begin: De bus is nog vol. Ze houden bijna iedereen binnen. Waarom? Omdat de AI nog niet weet wat er belangrijk wordt en het geheugen van de Mamba-motor moet eerst vollopen met informatie.
  • Halverwege: Naarmate de bus verder rijdt en het geheugen gevuld is, beginnen ze langzaam passagiers te laten uitstappen.
  • Aan het einde: Ze zijn nu heel agressief. Ze houden alleen de allerbelangrijkste passagiers over.

De Analogie:
Stel je voor dat je een lange film bekijkt.

  • Fout: Je kijkt alleen naar de eerste 5 minuten en gooit de rest van de film weg omdat je denkt dat je het verhaal al snapt.
  • Goed (Deze methode): Je kijkt eerst rustig naar de hele film (of een groot deel ervan) om de sfeer te snappen. Daarna maak je een samenvatting. Omdat je de sfeer al hebt opgeslagen in je hoofd (het geheugen), kun je de details van de eerste minuten weglaten zonder het verhaal te verliezen.

5. Het Resultaat: Sneller, maar net zo slim

Door deze methode te gebruiken, kunnen ze de AI 3,8 tot 4,2 keer sneller laten werken.

  • Ze houden maar 25% van de beeldjes over (75% wordt verwijderd).
  • Toch blijft de AI bijna net zo goed in het beantwoorden van vragen als zonder verwijdering.
  • Als ze de AI nog een klein beetje extra trainen met deze snelle methode, wordt hij zelfs nog beter dan de oorspronkelijke, trage versie!

Samenvattend

De onderzoekers hebben een manier gevonden om een AI die lange video's bekijkt, veel sneller te maken zonder dat hij dom wordt. Ze gebruiken een slimme strategie waarbij ze de AI eerst laten "luisteren" en "onthouden", en pas later beginnen met het weglaten van details. Het is alsof je een lange lezing samenvat: je luistert eerst goed, en schrijft daarna pas de samenvatting op, in plaats van halverwege te stoppen met luisteren.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →