Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een video bekijkt, zoals een lange film of een reeks beelden van een dag. Een Video Large Language Model (VLLM) is als een superintelligente, maar erg hongerige en trage robot die elke seconde van die video moet analyseren om vragen te beantwoorden.

Het probleem? Deze robot moet elke pixel van elke frame bekijken. Voor een video van slechts een paar minuten kan dit leiden tot tienduizenden "tokens" (kleine stukjes informatie). Het is alsof de robot elke zandkorrel op een strand moet tellen om te begrijpen wat er op het strand gebeurt. Dit kost enorm veel tijd, energie en rekenkracht.

Bestaande methoden om dit op te lossen, zijn vaak als een onhandige bezem: ze gooien gewoon veel beelden weg of plakken heel gelijke beelden samen. Het risico? Ze gooien soms net het belangrijke detail weg (zoals de kleur van de broek van een persoon) of ze vergeten hoe de actie zich in de tijd ontwikkelt.

De oplossing in dit paper: AOT (Anchors via Optimal Transport)

De auteurs van dit paper hebben een slimme, nieuwe manier bedacht om de robot te helpen zonder informatie te verliezen. Ze noemen hun methode AOT. Hier is hoe het werkt, vertaald naar alledaagse termen:

1. De "Ankers" (De Hulpverleners)

In plaats van willekeurig beelden weg te gooien, kiest de robot eerst een paar speciale "ankers" (of helpers) per beeld.

Lokaal: Ze kijken naar kleine stukjes van het beeld (zoals een raam) om te zorgen dat er details overal zijn.
Globaal: Ze kijken naar het hele beeld om te zien wat er echt belangrijk is (zoals een persoon die loopt).
Deze ankers zijn de "hoofdpersonages" die blijven staan. Alle andere beelden zijn nu "bijzitters".

2. De "Vervoersplannen" (Optimal Transport)

Dit is het magische deel. Stel je voor dat de "bijzitters" (de beelden die we eigenlijk niet nodig hebben als losse stukjes) informatie hebben die nuttig is voor de "ankers".

De analogie: Stel je voor dat de ankers lege emmers zijn en de andere beelden flessen met water (informatie) zijn.
Het probleem: Hoe giet je het water van honderden flessen in de emmers zonder dat er iets overloopt of verloren gaat?
De oplossing: De robot gebruikt een wiskundig "vervoersplan" (Optimal Transport). Het berekent precies welke fles bij welke emmer hoort en hoeveel water er precies moet worden overgegoten.
Het resultaat: De ankers worden niet alleen "gelaten", maar ze worden verrijkt. Ze krijgen de beste informatie van de andere beelden erbij, alsof ze een superkrachtige samenvatting krijgen van alles wat er om hen heen gebeurde.

3. De "Tijdsreis" (Inter-Frame)

Video's veranderen in de tijd. Als iemand loopt, verandert zijn positie elke seconde.

De robot kijkt naar een reeks beelden (een clip).
Het eerste beeld wordt de "hoofdanker" voor die clip.
Voor de volgende beelden in die clip, kijkt de robot: "Is dit beeld heel anders dan het vorige?"
- Ja (groot verschil): Dan houden we het beeld apart, want er is iets belangrijks gebeurd (bijvoorbeeld: de persoon valt).
- Nee (klein verschil): Dan gieten we de informatie van dit nieuwe beeld weer in de "anker-emmer" van het eerste beeld, via het slimme vervoersplan.
Zo houden we de dynamiek van de video (de beweging) vast, maar zonder duizenden beelden te hoeven opslaan.

Waarom is dit geweldig?

Snelheid: De robot hoeft nog maar een fractie (soms maar 10%) van de originele informatie te verwerken. Het is alsof je van een hele berg zandkorrels alleen de belangrijkste exemplaren bekijkt, maar wel precies weet hoe het strand eruitzag.
Geen training nodig: De robot hoeft niet opnieuw te leren (geen dure training). Het werkt direct op bestaande modellen.
Kwaliteit: Omdat ze de informatie slim "overgieten" in plaats van weg te gooien, blijft de kwaliteit van het antwoord bijna hetzelfde als bij het origineel.

Kortom:
In plaats van een video te "verminderen" door er beelden uit te trekken (wat als het verwijderen van zandkorrels is), pakt deze methode de essentie van de video. Het pakt de belangrijkste momenten, laat ze verrijken met de details van de rest, en houdt de tijdlijn in stand. Het is als het maken van een perfecte samenvatting van een boek, waarbij je niet alleen de hoofdstukken opsomt, maar ook de subtiele gevoelens van de personages behoudt, maar dan in een fractie van de tijd.

Each language version is independently generated for its own context, not a direct translation.

1. Het Probleem

Video Large Language Models (VLLMs) tonen indrukwekkende prestaties in het begrijpen van video-inhoud, maar kampen met ernstige inefficiëntie. Dit komt voornamelijk door de enorme hoeveelheid visuele tokens die gegenereerd worden bij het verwerken van video's (vaak tienduizenden tokens voor lange video's).

Bestaande methoden voor token-pruning (het verwijderen van tokens) hebben de volgende beperkingen:

Focus op ruimtelijke redundantie: Veel methoden verwijderen tokens puur op basis van binnen één frame (intra-frame) of binnen de LLM-laag, zonder rekening te houden met tijdsafhankelijkheden tussen frames.
Verlies van context: Bestaande technieken verwijderen vaak "minder belangrijke" tokens of fuseren zeer vergelijkbare tokens zonder de subtiele maar informatieve context die in die verwijderde tokens zit te verliezen.
Trainingskosten: Veel compressiemethoden vereisen uitgebreide fine-tuning, wat kostbaar is in termen van tijd en rekenkracht.
Suboptimale tijdsreductie: Er is een gebrek aan methoden die zowel ruimtelijke als temporale redundantie effectief benutten zonder de visuele en temporale integriteit van de video te schaden.

2. Methodologie: AOT (Anchors via Optimal Transport)

De auteurs stellen AOT (Anchors via Optimal Transport) voor, een training-vrije methode die tokens reduceert door informatie te aggregeren in plaats van deze simpelweg te verwijderen. De aanpak bestaat uit drie hoofdfasen:

A. Opzetten van Token Ankers (Local-Global Anchors)

Voordat pruning plaatsvindt, worden voor elke frame "token ankers" gedefinieerd die dienen als receptoren voor informatie. Deze ankers worden geselecteerd via een combinatie van:

Globale Ankers: Tokens die de meeste aandacht ontvangen van het [CLS]-token (of via self-attention bij modellen zonder [CLS]) in de diepere lagen van de visuele encoder. Dit zorgt voor semantisch belangrijke informatie.
Lokale Ankers: Tokens die binnen niet-overlappende roosters (grids) van het beeld worden geselecteerd op basis van aandacht in een ondiepere laag. Dit behoudt lokale details en ruimtelijke diversiteit.
De vereniging van deze twee sets vormt de basis voor de ankers per frame.

B. Intra-Frame Pruning met Optimal Transport (OT)

Voor elk individueel frame worden de niet-geselecteerde tokens (de "aanbieders" van context) geaggregeerd naar de geselecteerde ankers (de "vragers").

Optimal Transport (OT): Er wordt een transportplan $T$ berekend dat de afstand minimaliseert tussen de verdeling van de niet-geselecteerde tokens en de ankers.
Kostenmatrix: De kosten worden bepaald door de inverse cosinus-afstand tussen token-features.
Aggregatie: In plaats van tokens te verwijderen, wordt de informatie van de verwijderde tokens gewogen en opgeteld bij de ankers volgens het optimale transportplan. Dit gebeurt via de Sinkhorn-Knopp Iteratie, een snelle numerieke methode om het transportplan te vinden.
Resultaat: Een compacte set tokens per frame die de volledige context van het originele frame bevat.

C. Inter-Frame Pruning met Optimal Transport

Om temporale redundantie te verminderen, worden opeenvolgende frames gegroepeerd in clips.

Keyframe Ankers: De eerste frame van een clip fungeert als tijdelijke anker.
Temporale Aggregatie: Voor elke volgende frame in de clip wordt OT toegepast om vergelijkbare tokens te aggregeren naar de bestaande ankers.
Behoud van Dynamiek: Tokens die een grote tijdelijke verandering vertonen (bepaald door een drempelwaarde $\tau$ op de toewijzingsscores) worden niet geaggregeerd, maar behouden als aparte tokens om de beweging en dynamiek van de video vast te houden.

3. Belangrijkste Bijdragen

Nieuwe Perspectief op Token Reductie: De auteurs zijn de eersten die systematisch onderzoeken hoe subtiele maar informatieve semantiek en context uit verwijderde tokens kunnen worden geaggregeerd naar de resterende tokens via Optimal Transport, in plaats van ze simpelweg te verwijderen.
Local-Global Anker Strategie: Een methode om zowel semantisch belangrijke (globale) als ruimtelijk diverse (lokale) token-kandidaten te selecteren als basis voor aggregatie.
Training-vrije Pipeline: De hele methode is training-vrij en maakt gebruik van OT om spatiotemporale context te behouden, wat leidt tot een efficiënte reductie zonder fine-tuning van het model.
Uitgebreide Evaluatie: De methode is getest op toonaangevende VLLMs (LLaVA-OneVision en LLaVA-Video) en diverse benchmarks.

4. Resultaten

De experimenten tonen aan dat AOT aanzienlijke rekenkosten bespaart terwijl de prestaties behouden blijven:

Efficiëntie: De methode reduceert de computationele kosten (FLOPs) tot slechts 8,3% van het origineel en verwijdert 90% van de visuele tokens.
Prestaties: Ondanks deze agressieve compressie behoudt het model 97,6% van de originele prestaties over alle geteste benchmarks (MVBench, LongVideoBench, EgoSchema, VideoMME).
Vergelijking: AOT presteert consistent beter dan bestaande training-vrije methoden zoals FastV, VisionZip, DyCoke en PruneVid, vooral bij lage token-begrotingen (bijv. 10% retention).
Schaalbaarheid: De methode werkt goed bij zowel korte als zeer lange video's (tot 128 frames), waarbij het de contextlengte binnen de limieten houdt terwijl het originele model zou falen door contextlimieten.

5. Betekenis en Impact

Deze paper biedt een significante doorbraak voor de praktische toepasbaarheid van Video LLMs:

Haalbaarheid: Het maakt het mogelijk om lange video's te verwerken op bestaande hardware zonder dat er enorme rekenkracht of dure fine-tuning nodig is.
Kwaliteitbehoud: Door informatie te aggregeren in plaats van te verwijderen, wordt voorkomen dat cruciale context verloren gaat, wat vaak het geval is bij traditionele pruning.
Toekomstperspectief: Het bewijst dat Optimal Transport een krachtig hulpmiddel is voor multimodale compressie. De auteurs suggereren dat de methode in de toekomst volledig differentieerbaar kan worden gemaakt voor end-to-end training, wat nog verdere optimalisaties mogelijk maakt.

Kortom, AOT lost het fundamentele probleem van inefficiëntie in Video LLMs op door slimme, wiskundig onderbouwde aggregatie van informatie, waardoor snelle en nauwkeurige video-analyse mogelijk wordt.

Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models

1. De "Ankers" (De Hulpverleners)

2. De "Vervoersplannen" (Optimal Transport)

3. De "Tijdsreis" (Inter-Frame)

Waarom is dit geweldig?

1. Het Probleem

2. Methodologie: AOT (Anchors via Optimal Transport)

A. Opzetten van Token Ankers (Local-Global Anchors)

B. Intra-Frame Pruning met Optimal Transport (OT)

C. Inter-Frame Pruning met Optimal Transport

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Impact

Meer zoals dit

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation