Variation-aware Vision Token Dropping for Faster Large Vision-Language Models

Dit artikel introduceert V²Drop, een methode die de inferentie-efficiëntie van grote visueel-taalmodellen aanzienlijk verbetert door visuele tokens met minimale variatie dynamisch te verwijderen, waardoor de latentie met tot 74,2% wordt verlaagd terwijl de prestaties voor beeld- en videobegrip grotendeels behouden blijven.

Junjie Chen, Xuyang Liu, Zichen Wen, Yiyu Wang, Siteng Huang, Honggang Chen

Gepubliceerd 2026-02-26
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

De Slimme "Verkeersagent" voor AI: Hoe V2Drop Foto's en Video's Sneller Laat Begrijpen

Stel je voor dat een Large Vision-Language Model (een slimme AI die foto's en video's kan "lezen") als een zeer geduldige, maar trage detective is. Als je deze detective een foto geeft, kijkt hij niet alleen naar het onderwerp, maar naar elk klein stukje van de foto.

Bij hoge resolutie of lange video's is dat echter een enorm probleem. Het is alsof je de detective een berg van 500 pagina's geeft om te lezen, terwijl het antwoord misschien in één zin op pagina 10 staat. De detective leest alles, word moe, en het duurt eeuwen voordat hij antwoordt.

Deze paper introduceert V2Drop, een nieuwe methode om deze detective te versnellen zonder zijn intelligentie te verliepen. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Positie-voorkeur" van de Slechte Detective

Bestaande methoden om de detective te versnellen, werken vaak op een slimme, maar gebrekkige manier. Ze kijken naar waar de detective zijn aandacht op richt (de "aandachtsgewichten").

  • De fout: Deze methoden hebben een rare voorkeur voor de laatste pagina's van het boek. Ze denken: "Ah, de laatste stukjes tekst zijn het belangrijkst!" en gooien de eerste stukjes weg, zelfs als daar het antwoord op de vraag staat.
  • Het gevolg: De detective raakt in de war, hallucineert (verzonnen dingen) en wordt inefficiënt omdat hij toch nog steeds te veel moet verwerken. Het is alsof je een boek samenvat door alleen de laatste bladzijde te lezen; je mist vaak de plot.

2. De Oplossing: Kijk naar de "Beweging" in plaats van de "Positie"

V2Drop doet iets heel anders. In plaats van te kijken waar de detective kijkt, kijkt hij naar hoezeer de informatie verandert terwijl hij door het boek bladert.

Gebruik deze analogie:

  • Stel je hebt een film van een feestje.
  • Er is een hoekje waar niemand beweegt, er is alleen een stilstaande muur. Dat is een "luie token". De informatie daar verandert niet; het is saai en niet belangrijk.
  • Er is een ander hoekje waar iemand een danspoging doet of een glas omgooit. Dat is een "actieve token". De informatie daar verandert enorm.

V2Drop zegt: "Wees niet geobsedeerd door de positie in de film. Kijk gewoon naar wat er beweegt!"

  • Als een stukje van de foto of video niet verandert terwijl de AI erover nadenkt, is het waarschijnlijk saai en kunnen we het weggooien.
  • Als een stukje veel verandert (hoge variatie), betekent het dat de AI er actief mee bezig is en dat het belangrijk is voor het antwoord.

3. Hoe werkt het in de praktijk?

V2Drop is als een slimme editor die de film in drie fasen bekijkt:

  1. De eerste check: De editor kijkt naar de film en ziet dat de muur in de hoek stilstaat. Hij knipt dat stukje weg.
  2. De tweede check: Later in de film ziet hij dat de danser nog steeds beweegt. Hij houdt dat stukje vast.
  3. De laatste check: Uiteindelijk blijft er een strakke, korte film over die alleen de belangrijkste actie bevat.

Het mooie is: omdat V2Drop niet kijkt naar waar iets staat (positie), maar naar wat er gebeurt (verandering), maakt hij geen fouten. Hij gooit geen belangrijke informatie weg alleen omdat die "te vroeg" in de video kwam.

4. Waarom is dit zo geweldig?

  • Snelheid: Omdat de detective veel minder "bladzijden" hoeft te lezen, is hij 1,3 tot 1,9 keer sneller. Voor lange video's is dat een enorme winst.
  • Geen geheugenproblemen: Andere methoden hebben vaak extra rekenkracht nodig om te beslissen wat ze moeten weggooien. V2Drop is zo simpel (het meet alleen de "beweging") dat het bijna geen extra energie kost. Het werkt zelfs perfect samen met de snelste moderne computerchips.
  • Precisie: De AI blijft net zo slim. In tests behield V2Drop 94% tot 98% van de oorspronkelijke slimheid, maar deed het werk veel sneller.

Samenvattend

Voorheen probeerden we AI's sneller te maken door te raden welke stukjes van een foto of video belangrijk waren, vaak op basis van waar ze zaten. Dat werkte niet goed.

V2Drop is als een slimme regisseur die zegt: "Gooi de saaie, stilstaande beelden weg. Houd alleen de actie vast die verandert." Zo krijgen we een snellere, slimmere AI die lange video's en hoge-resolutie foto's in een flits kan begrijpen, zonder dat we de kwaliteit hoeven op te offeren.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →