Variation-aware Vision Token Dropping for Faster Large Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

De Slimme "Verkeersagent" voor AI: Hoe V2Drop Foto's en Video's Sneller Laat Begrijpen

Stel je voor dat een Large Vision-Language Model (een slimme AI die foto's en video's kan "lezen") als een zeer geduldige, maar trage detective is. Als je deze detective een foto geeft, kijkt hij niet alleen naar het onderwerp, maar naar elk klein stukje van de foto.

Bij hoge resolutie of lange video's is dat echter een enorm probleem. Het is alsof je de detective een berg van 500 pagina's geeft om te lezen, terwijl het antwoord misschien in één zin op pagina 10 staat. De detective leest alles, word moe, en het duurt eeuwen voordat hij antwoordt.

Deze paper introduceert V2Drop, een nieuwe methode om deze detective te versnellen zonder zijn intelligentie te verliepen. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Positie-voorkeur" van de Slechte Detective

Bestaande methoden om de detective te versnellen, werken vaak op een slimme, maar gebrekkige manier. Ze kijken naar waar de detective zijn aandacht op richt (de "aandachtsgewichten").

De fout: Deze methoden hebben een rare voorkeur voor de laatste pagina's van het boek. Ze denken: "Ah, de laatste stukjes tekst zijn het belangrijkst!" en gooien de eerste stukjes weg, zelfs als daar het antwoord op de vraag staat.
Het gevolg: De detective raakt in de war, hallucineert (verzonnen dingen) en wordt inefficiënt omdat hij toch nog steeds te veel moet verwerken. Het is alsof je een boek samenvat door alleen de laatste bladzijde te lezen; je mist vaak de plot.

2. De Oplossing: Kijk naar de "Beweging" in plaats van de "Positie"

V2Drop doet iets heel anders. In plaats van te kijken waar de detective kijkt, kijkt hij naar hoezeer de informatie verandert terwijl hij door het boek bladert.

Gebruik deze analogie:

Stel je hebt een film van een feestje.
Er is een hoekje waar niemand beweegt, er is alleen een stilstaande muur. Dat is een "luie token". De informatie daar verandert niet; het is saai en niet belangrijk.
Er is een ander hoekje waar iemand een danspoging doet of een glas omgooit. Dat is een "actieve token". De informatie daar verandert enorm.

V2Drop zegt: "Wees niet geobsedeerd door de positie in de film. Kijk gewoon naar wat er beweegt!"

Als een stukje van de foto of video niet verandert terwijl de AI erover nadenkt, is het waarschijnlijk saai en kunnen we het weggooien.
Als een stukje veel verandert (hoge variatie), betekent het dat de AI er actief mee bezig is en dat het belangrijk is voor het antwoord.

3. Hoe werkt het in de praktijk?

V2Drop is als een slimme editor die de film in drie fasen bekijkt:

De eerste check: De editor kijkt naar de film en ziet dat de muur in de hoek stilstaat. Hij knipt dat stukje weg.
De tweede check: Later in de film ziet hij dat de danser nog steeds beweegt. Hij houdt dat stukje vast.
De laatste check: Uiteindelijk blijft er een strakke, korte film over die alleen de belangrijkste actie bevat.

Het mooie is: omdat V2Drop niet kijkt naar waar iets staat (positie), maar naar wat er gebeurt (verandering), maakt hij geen fouten. Hij gooit geen belangrijke informatie weg alleen omdat die "te vroeg" in de video kwam.

4. Waarom is dit zo geweldig?

Snelheid: Omdat de detective veel minder "bladzijden" hoeft te lezen, is hij 1,3 tot 1,9 keer sneller. Voor lange video's is dat een enorme winst.
Geen geheugenproblemen: Andere methoden hebben vaak extra rekenkracht nodig om te beslissen wat ze moeten weggooien. V2Drop is zo simpel (het meet alleen de "beweging") dat het bijna geen extra energie kost. Het werkt zelfs perfect samen met de snelste moderne computerchips.
Precisie: De AI blijft net zo slim. In tests behield V2Drop 94% tot 98% van de oorspronkelijke slimheid, maar deed het werk veel sneller.

Samenvattend

Voorheen probeerden we AI's sneller te maken door te raden welke stukjes van een foto of video belangrijk waren, vaak op basis van waar ze zaten. Dat werkte niet goed.

V2Drop is als een slimme regisseur die zegt: "Gooi de saaie, stilstaande beelden weg. Houd alleen de actie vast die verandert." Zo krijgen we een snellere, slimmere AI die lange video's en hoge-resolutie foto's in een flits kan begrijpen, zonder dat we de kwaliteit hoeven op te offeren.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Grote Vision-Language Modellen (LVLMs) hebben uitstekende prestaties geleverd in multimodale taken, maar de toenemende vraag naar het verwerken van hoge-resolutie afbeeldingen en lange video's leidt tot een explosie in het aantal visuele tokens. Dit veroorzaakt aanzienlijke inefficiëntie in de inferentie.

Bestaande methoden voor tokencompressie binnen de LLM (Large Language Model) zelf, zoals FastV en SparseVLM, vertrouwen vaak op attentie-weights om belangrijke tokens te selecteren. Het paper identificeert twee kritieke beperkingen van deze bestaande benaderingen:

Positieve Bias (Positional Bias): Deze methoden vertonen een systematische bias om tokens aan het einde van de visuele sequentie te behouden, ongeacht de inhoud. Dit leidt tot het verwijderen van semantisch belangrijke informatie in de vroege delen van de afbeelding en versterkt hallucinaties.
Incompatibiliteit met Efficient Operators: Het berekenen van attentie-weights conflicteert met efficiënte hardware-acceleratoren zoals FlashAttention. Dit resulteert in een piekgeheugengebruik dat zelfs hoger kan zijn dan bij niet-gecomprimeerde modellen, wat de praktische toepasbaarheid beperkt.

Methodologie: V2Drop

De auteurs stellen V2Drop (Variation-aware Vision Token Dropping) voor, een nieuwe, trainingsvrije aanpak die de focus verschuift van externe signaalafhankelijkheid (attentie) naar intrinsieke token-eigenschappen.

Kerninzicht:
Tokens die actief deelnemen aan het redeneringsproces van de LLM vertonen significante representatieve veranderingen (variatie) tussen opeenvolgende lagen. Tokens met minimale variatie ("lazy tokens") dragen weinig bij aan de uiteindelijke voorspelling en kunnen veilig worden verwijderd.

Technische Implementatie:

Variatiemeting: In plaats van attentie-weights te berekenen, meet V2Drop de verandering in de token-embeddings tussen opeenvolgende transformer-lagen. De auteurs gebruiken de L2-norm (Euclidische afstand) als standaardmetriek:
$Var(f_i^{(l)}, f_i^{(l-1)}) = \|f_i^{(l)} - f_i^{(l-1)}\|_2$
Waarbij $f_i^{(l)}$ de $i$ -de visuele token is in laag $l$ .
Progressieve Verwijdering: Het model voert pruning uit op drie strategisch gekozen lagen (ondiep, midden, diep). In elke laag worden tokens gesorteerd op basis van hun variatiescore. De tokens met de laagste variatie worden verwijderd, terwijl de tokens met de hoogste variatie (semantisch belangrijk) behouden blijven.
Compatibiliteit: Omdat er geen expliciete berekening van attentie-weights nodig is, is V2Drop volledig compatibel met FlashAttention en andere efficiënte operators, wat het geheugengebruik verlaagt.

Belangrijkste Bijdragen

Systematische Analyse van Token-Variatie: Het paper biedt het eerste uitgebreide inzicht in de evolutie van visuele tokens binnen LVLMs. Het bewijst dat variatiemagnitudes correleren met taakrelevantie en een robuuste maatstaf vormen voor tokenbelang, onafhankelijk van de positie in de sequentie.
V2Drop Algoritme: Een nieuwe compressiemethode die positieve bias elimineert en compatibel is met moderne inferentie-optimaties, zonder extra training te vereisen.
Theoretische Onderbouwing: De auteurs leveren een theoretisch bewijs (via Taylor-expansie) dat een grotere variatie in een token leidt tot een grotere impact op de modeloutput, waardoor variatie een efficiënte proxy is voor tokenbelang.

Resultaten

Uitgebreide experimenten op diverse modellen (zoals LLaVA-1.5, Qwen2-VL, LLaVA-OneVision) en benchmarks (MME, MMBench, VideoMME, etc.) tonen aan:

Prestaties:
- Afbeeldingsbegrip: V2Drop behoudt 94,0% van de originele prestatie bij een tokenreductie van 77,8% (van 576 naar 128 tokens).
- Video-begrip: V2Drop behoudt 98,6% van de originele prestatie bij een retentie van slechts 25% van de tokens.
- Het presteert consistent beter dan state-of-the-art methoden zoals FastV, SparseVLM en PDrop, vooral bij lange video's waar positieve bias bij andere methoden tot grote prestatieverlies leidt.
Efficiëntie:
- Latentie: V2Drop verlaagt de generatielatentie van de LLM met 31,5% voor afbeeldingen en 74,2% voor video's.
- Snelheid: Er wordt een versnelling van 1,30x (afbeeldingen) en 1,87x (video's) bereikt.
- Geheugen: In tegenstelling tot methoden die attentie-weights berekenen (zoals SparseVLM, wat het geheugen met 54,8% verhoogt), behoudt V2Drop een laag piekgeheugengebruik, vergelijkbaar met willekeurige verwijdering, maar met veel betere kwaliteit.

Betekenis

V2Drop biedt een fundamentele doorbraak in het versnellen van LVLMs. Door de afhankelijkheid van attentie-weights los te laten en in te zetten op de intrinsieke dynamiek van tokens, lost het de problemen van positieve bias en geheugenoverhead op. Dit maakt het mogelijk om hoge-resolutie afbeeldingen en lange video's efficiënter te verwerken zonder de modelarchitectuur aan te passen of extra training te vereisen. De methode is direct toepasbaar ("plug-and-play") en biedt een nieuwe richting voor toekomstige onderzoek naar efficiënte multimodale inferentie.

Variation-aware Vision Token Dropping for Faster Large Vision-Language Models

1. Het Probleem: De "Positie-voorkeur" van de Slechte Detective

2. De Oplossing: Kijk naar de "Beweging" in plaats van de "Positie"

3. Hoe werkt het in de praktijk?

4. Waarom is dit zo geweldig?

Samenvattend

Probleemstelling

Methodologie: V2Drop

Belangrijkste Bijdragen

Resultaten

Betekenis

Meer zoals dit

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation