VLM-Pruner: Buffering for Spatial Sparsity in an Efficient VLM Centrifugal Token Pruning Paradigm

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een Vision-Language Model (een slimme AI die zowel plaatjes als tekst begrijpt) als een grote, enthousiaste kok is. Deze kok moet een recept (een vraag) beantwoorden op basis van een foto.

Het probleem is dat de kok de foto niet als één geheel ziet, maar als een enorm bord vol met duizenden kleine hapjes (token's). Elke hapje is een klein stukje van de foto: een stukje blauwe lucht, een randje van een tafel, een vlekje op een shirt.

Om een antwoord te geven, moet de kok al die duizenden hapjes proeven, verwerken en combineren. Dat kost enorm veel tijd en energie, vooral op een mobiele telefoon.

De oude manier (de huidige problemen):
Andere methoden om de kok te versnellen doen het op twee manieren, maar beide hebben een nadeel:

De "Belangrijkheids"-methode: De kok kijkt alleen naar de hapjes die er het meest "opvallend" uitzien (bijvoorbeeld een felrode auto). Het probleem? Hij pakt dan vaak 50 hapjes van dezelfde rode auto, maar vergeet de wielen of de koplampen. Hij is verward door te veel van hetzelfde.
De "Verscheidenheids"-methode: De kok probeert zo veel mogelijk verschillende hapjes te kiezen. Het probleem? Hij pakt dan misschien een hapje van de auto, maar dan ook een hapje van de lucht, een hapje van de grond en een hapje van een boom in de verte. Het resultaat is een verspreide, rommelige selectie. Hij mist de fijne details van het hoofdonderwerp omdat hij te veel rondjes loopt.

De Oplossing: VLM-Pruner (De "Centrifugale" Kok)

De auteurs van dit papier hebben VLM-Pruner bedacht. Dit is een slimme manier om de kok te helpen kiezen welke hapjes hij echt moet proeven, zonder dat hij de foto hoeft te herscholen (geen extra training nodig).

Ze gebruiken een drie-stappenplan dat ze de "Centrifugale" methode noemen (van binnen naar buiten draaiend):

Stap 1: De Ankers (Pivot Tokens)

In plaats van willekeurig te beginnen, kiest de kok eerst een paar verre van elkaar verwijderde ankers.

Analogie: Stel je voor dat je een grote tuin moet inspecteren. Je plaatst eerst 4 vlaggetjes op de hoeken van de tuin. Dit zorgt ervoor dat je de hele tuin in de gaten houdt, zonder te veel op één plek te staren.

Stap 2: De "Buffer" voor Ruimte (BSS) - Het belangrijkste idee!

Nu begint de echte magie. De kok moet nu meer hapjes kiezen.

Het probleem: Als je gewoon de volgende "belangrijkste" hapjes kiest, spring je misschien van de auto naar de lucht en weer terug.
De oplossing (BSS): De kok krijgt een regel: "Kies eerst hapjes die dichtbij de hapjes zitten die je al hebt gekozen."
Analogie: Het is alsof je een bubbel om je ankers bouwt. Je vult eerst de ruimte direct rondom de ankers. Pas als die ruimte vol zit, mag de bubbel groeien naar de volgende laag.
Dit zorgt ervoor dat je eerst alle details van de auto (de wielen, de koplampen, de carrosserie) verzamelt voordat je naar de achtergrond springt. Het voorkomt die "verspreide" selectie van de oude methoden.

Stap 3: De Reddingsboot (SWA)

Soms moet je toch hapjes weggooien om snel te zijn. Maar wat als die weggegooide hapjes nog wel een heel belangrijk stukje informatie bevatten?

Analogie: Stel je voor dat je een visser bent die een net vol vis heeft. Je gooit de kleine visjes weg om het net lichter te maken. Maar voordat je ze weggooit, knijp je het vocht uit die kleine visjes en voeg je dat toe aan de grote visjes die je wel hebt gehouden.
In technische termen: De informatie van de weggegooide stukjes wordt "samengeperst" en toegevoegd aan de stukjes die je wel behoudt. Zo verlies je niets van de smaak (de informatie), maar wordt het net wel lichter.

Waarom is dit zo goed?

Het is een "Plug-and-Play" oplossing: Je hoeft de kok niet opnieuw te leren koken. Je past alleen de regels toe voor het kiezen van hapjes.
Het houdt de details: Omdat de methode eerst de directe omgeving van een object vult (de "centrifugale" uitbreiding), blijven fijne details zoals tekst op een bord of de textuur van een auto behouden.
Het is razendsnel: Door duizenden hapjes te verwijderen en alleen de beste te houden, wordt de AI veel sneller, zonder dat hij dommer wordt.

Kort samengevat:
VLM-Pruner is als een slimme assistent die een foto bekijkt en zegt: "Laten we eerst de hele auto van A tot Z bekijken, van links naar rechts, voordat we naar de achtergrond kijken. En als we iets weggooien, halen we eerst de beste info eruit en plakken die op de rest."

Dit zorgt ervoor dat de AI op je telefoon of laptop razendsnel en accuraat antwoorden kan geven, zelfs op complexe vragen over foto's.

Each language version is independently generated for its own context, not a direct translation.

1. Het Probleem

Visuele-taalmodellen (VLM's) zoals LLaVA en Qwen2-VL presteren uitstekend in taken zoals beeldbeschrijving en visuele vraag-antwoord (VQA). Echter, deze modellen genereren een enorm aantal visuele tokens (vaak honderden of duizenden), wat leidt tot hoge rekenkosten en een kwadratische complexiteit in de attentie-mechanismen van de Large Language Model (LLM) decoder. Dit maakt deploy op mobiele apparaten of real-time toepassingen moeilijk.

Bestaande pruning-technieken (tokenverwijdering) hebben twee belangrijke tekortkomingen:

Importance-driven methoden: Deze houden tokens vast op basis van hun "belang" (bijv. attentiescores). Dit leidt vaak tot het behouden van meerdere, sterk overlappende tokens rondom hetzelfde object, waardoor redundantie blijft bestaan.
Redundancy-reduction methoden: Deze proberen tokens te verwijderen die te veel op elkaar lijken. Dit resulteert vaak in een te verspreide selectie van tokens die de randen van objecten of achtergronden kiezen in plaats van de kern van het object, waardoor fijne details verloren gaan.

Er is dus een behoefte aan een methode die redundantie vermindert terwijl ruimtelijke samenhang en fijne details behouden blijven.

2. Methodologie: VLM-Pruner

De auteurs stellen VLM-Pruner voor, een trainingsvrije (training-free) token-pruning algoritme dat een "centrifugaal" paradigma toepast. Het proces verloopt in drie fasen en is ontworpen om tokens van "dichtbij naar veraf" te selecteren.

A. Centrifugaal Token Pruning Paradigma

In plaats van willekeurig of puur op basis van similariteit te kiezen, volgt VLM-Pruner een orde:

Pivot Initialisatie: Er wordt een kleine set van diverse "pivot tokens" geselecteerd die verschillende semantische gebieden in het beeld vertegenwoordigen. Dit gebeurt via een max-min strategie op de token keys (identiteiten van de features) om maximale spreiding te garanderen.
Gedetailleerde Expansie (BSS): Vanuit deze pivots wordt de selectie uitbreid naar ruimtelijke buren.
Herstel: Informatie van verworpen tokens wordt geaggregeerd en teruggevoerd naar de behouden tokens.

B. Buffering for Spatial Sparsity (BSS) Criterium

Dit is de kerninnovatie. Het BSS-criterium modificeert de similariteitsberekening tussen een kandidaat-token en de reeds geselecteerde set.

Mechanisme: De similariteit wordt bestraft (verlaagd) als de kandidaat-token ruimtelijk te ver weg is van de reeds geselecteerde tokens.
Formule: De gewogen similariteit $f_{M_{ij}}$ wordt berekend als $M_{ij} / (1 + \lambda \cdot \bar{\delta}_i(S))$ , waarbij $\bar{\delta}_i(S)$ de genormaliseerde ruimtelijke afstand is tot de dichtstbijzijnde geselecteerde token.
Effect: Tokens die ruimtelijk dicht bij de huidige selectie liggen, krijgen een voorkeur. Dit zorgt voor een "dichtbij-naar-ver" expansie, waardoor lokale details (zoals de textuur van een object) eerst worden opgepakt voordat de selectie naar de achtergrond uitbreidt. Dit voorkomt de verspreide selectie die bij andere methoden voorkomt.

C. Parallelle Greedy Selectie & SWA

Parallelle Selectie: Tokens worden in batches geselecteerd om de snelheid te verhogen. Een dynamische drempelwaarde ( $\tau$ ) zorgt ervoor dat alleen tokens die sterk genoeg overeenkomen én ruimtelijk dichtbij zijn, worden toegevoegd.
Similarity-Weighted Aggregation (SWA): Om informatieverlies te minimaliseren, worden de verworpen tokens (die vaak nog nuttige complementaire informatie bevatten) gegroepeerd bij hun meest vergelijkbare behouden token. Hun verborgen staten worden gewogen gemiddeld en toegevoegd aan de behouden token, waardoor de "uiterste" informatie wordt gered.

3. Belangrijkste Bijdragen

VLM-Pruner: Een trainingsvrije, centrifugale pruning-paradigma dat redundantie en ruimtelijke sparsiteit expliciet in balans brengt.
BSS Criterium: Een nieuw criterium dat de ruimtelijke afstand gebruikt om de selectie te bufferen, wat zorgt voor een geordende, niet-verspreide tokenverdeling en betere behoud van lokale details.
Uitgebreide Validatie: De methode is getest op 5 verschillende VLM-architecturen (o.a. LLaVA-1.5, LLaVA-Next, Qwen2-VL, LLaVA-Video) en 13 benchmarks (inclusief OCR, grounding en video-analyse).

4. Resultaten

De experimenten tonen aan dat VLM-Pruner consistent beter presteert dan state-of-the-art baselines (zoals FastV, DART, DivPrune) bij extreme pruning-ratio's.

Prestaties: Bij een pruning-ratio van 88,9% (alleen 11,1% van de tokens behouden) behaalt VLM-Pruner de hoogste gemiddelde scores op de meeste benchmarks.
- Op LLaVA-1.5-7B behoudt het 95,61% van de originele prestatie (tegenover ~93% voor de beste concurrenten).
- Op OCRBench (tekstherkenning, een taak die fijne details vereist) laat VLM-Pruner een aanzienlijke verbetering zien (+12,56% absolute winst ten opzichte van DART), wat aantoont dat het de fijne details beter behoudt.
Efficiëntie: De methode levert een aanzienlijke versnelling op in de inferentie (tot 1,60x sneller op Qwen2-VL) en verlaagt de FLOPs aanzienlijk, zonder dat er extra training nodig is.
Video: De methode werkt ook effectief op video-taken (LLaVA-Video) door 3D-ruimtelijke coördinaten (hoogte, breedte, tijd) te gebruiken voor de BSS-berekening.

5. Betekenis en Conclusie

VLM-Pruner lost een fundamenteel probleem op in de efficiëntie van multimodale modellen: het dilemma tussen het verwijderen van redundantie en het behoud van ruimtelijke samenhang.

Praktische Toepassing: Omdat het trainingsvrij is ("plug-and-play"), kan het direct worden toegepast op bestaande VLM's zonder kostbare hertraining.
Toekomst: De methode maakt de deploy van krachtige VLM's op apparaten met beperkte rekenkracht (zoals mobiele telefoons) haalbaar, terwijl de nauwkeurigheid voor complexe taken zoals OCR en object-grounding behouden blijft.

Kortom, door te focussen op ruimtelijke sparsiteit in plaats van alleen op similariteit of attentie, slaagt VLM-Pruner erin om de "beste van beide werelden" te bieden: hoge efficiëntie en hoge kwaliteit.