Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een Vision-Language Model (VLM) hebt, zoals een slimme robot die foto's kan zien en erover kan praten. Om een foto te begrijpen, kijkt deze robot niet naar het plaatje als één geheel, maar splitst hij de foto op in duizenden kleine stukjes, die we "tokens" noemen. Het probleem is dat de robot vaak te veel stukjes gebruikt. Hij kijkt naar 576 of zelfs 2880 stukjes per foto, terwijl hij er eigenlijk maar een paar nodig heeft om het verhaal te begrijpen. Dit maakt hem traag en duur.

Bestaande methoden om deze stukjes te verminderen, werken vaak niet goed genoeg. Ze kiezen soms alleen de "meest interessante" stukjes (zoals een gezicht), maar vergeten de achtergrond. Of ze verwijderen te veel dubbele stukjes, waardoor ze per ongeluk ook belangrijke details kwijtraken.

De auteurs van dit paper hebben een nieuwe oplossing bedacht: PRUNESID. Laten we dit uitleggen met een paar creatieve vergelijkingen.

1. Het Probleem: De Overvolle Boodschappenmand

Stel je voor dat je een enorme boodschappenmand hebt met 1000 appels. Je wilt er maar 100 uit houden om een taart te maken.

De oude methode (Aandacht-gestuurd): Je pakt alleen de appels die het roodst zijn (de meest opvallende). Maar je pakt er misschien 50 van exact dezelfde boom, en vergeet de groene appels die nodig zijn voor de smaak. Je taart wordt eentonig.
De andere oude methode (Dubbelheid-gestuurd): Je gooit alle appels weg die op elkaar lijken. Maar je gooit per ongeluk de enige appel weg die op een speciale plek groeide en de taart net zoet maakt. Je taart wordt saai en mist diepgang.

2. De Oplossing: PRUNESID (De Slimme Sorteerder)

PRUNESID werkt in twee stappen, alsof je een super-georganiseerde kok bent die een recept volgt.

Stap 1: De Groepen Maken (PSCA)
In plaats van willekeurig te kiezen, kijkt de robot eerst naar de "essentie" van de foto. Hij groepeert de appels (tokens) op basis van wat ze gemeen hebben.

Vergelijking: Hij maakt groepen zoals "alle rode appels van boom A", "alle groene appels van boom B", en "alle bladeren".
Waarom? Zo zorgt hij ervoor dat hij niet alleen naar één type appel kijkt, maar dat hij de hele verscheidenheid van de foto (de "essentie") behoudt. Dit noemen ze Principal Semantic Components Analysis.

Stap 2: De Dubbele Verwijderen (NMS)
Nu heeft hij zijn groepen, maar in de groep "Rode Appels" zitten misschien 50 appels die er bijna hetzelfde uitzien. Hij hoeft ze niet allemaal te houden.

Vergelijking: Hij pakt uit elke groep de allerbeste, meest representatieve appel. De andere 49 die er precies hetzelfde uitzien, gooit hij weg. Dit is Non-Maximum Suppression.
Het resultaat: Je houdt een kleine mand over met 100 appels, maar ze komen allemaal uit verschillende hoeken van de boomgaard. Je hebt de diversiteit behouden, maar de rommel verwijderd.

3. De Slimme Truc: Dynamische Portie

Een ander probleem is dat sommige foto's heel druk zijn (een drukke markt) en andere heel simpel (een blauwe lucht).

De oude methode: Gebruikt altijd hetzelfde aantal stukjes, of het nu een drukke markt of een lege lucht is. Dat is zonde.
PRUNESID: Kijkt eerst naar de foto. Is het druk? Dan geeft hij de robot meer stukjes om te kijken. Is het saai? Dan geeft hij minder.
Vergelijking: Het is alsof je een portie eten aanpast aan hoe hongerig je bent. Bij een drukke foto krijg je een groot bord, bij een simpele foto een klein bordje. Zo wordt er nooit informatie verloren waar het nodig is.

Wat levert dit op?

De resultaten zijn indrukwekkend:

Snelheid: De robot is tot 7,8 keer sneller in het "lezen" van de foto (de prefilling-tijd), omdat hij veel minder stukjes hoeft te verwerken.
Kwaliteit: Zelfs als je maar 5,6% van de stukjes houdt (bijna alles weggegooid), begrijpt de robot de foto nog steeds bijna perfect (92,8% van zijn oorspronkelijke vermogen).
Veelzijdigheid: Het werkt niet alleen voor foto's, maar ook voor video's en verschillende soorten slimme robots.

Kortom: PRUNESID is als een slimme editor die een lang, saai verhaal herschrijft tot een kort, krachtig verhaal. Hij gooit de herhalingen weg, maar zorgt ervoor dat de belangrijkste personages en de plot (de betekenis) intact blijven. Hierdoor wordt de robot sneller, goedkoper, maar nog steeds net zo slim.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "PRUNE REDUNDANCY, PRESERVE ESSENCE: VISION TOKEN COMPRESSION IN VLMS VIA SYNERGISTIC IMPORTANCE-DIVERSITY" in het Nederlands.

Probleemstelling

Vision-Language Models (VLMs), zoals LLaVA en LLaVA-NeXT, genereren een overvloed aan visuele tokens (bijvoorbeeld 576 tot 2880 tokens per afbeelding) om beelden te coderen. Hoewel empirisch onderzoek aantoont dat ongeveer 70% van deze tokens redundant is en kan worden verwijderd zonder significante nauwkeurigheidsverlies, worstelen bestaande compressiemethoden met een fundamenteel compromis:

Aandacht-gestuurde methoden: Behouden tokens met hoge aandachtsscores (salientie), maar negeren vaak contextuele achtergrondinformatie en behouden meerdere duplicaten van hetzelfde object, wat leidt tot inefficiëntie.
Duplicitie-bewuste methoden: Verwijderen tokens op basis van gelijkenis om diversiteit te vergroten, maar riskeren hierbij het verwijderen van semantisch cruciale tokens met hoge aandachtsscores.

Het huidige gebrek aan methoden die zowel belangrijkheid (importance) als informatiediversiteit optimaal balanceren, beperkt de praktische toepasbaarheid van VLMs, vooral bij extreme compressie en hoge resoluties.

Methodologie: PRUNESID

De auteurs stellen PRUNESID voor, een trainingsvrij (training-free) framework dat visuele tokens comprimeert via een synergetische benadering van belangrijkheid en diversiteit. De methode bestaat uit twee hoofdcomponenten en een dynamisch mechanisme:

1. Principal Semantic Components Analysis (PSCA)

In plaats van tokens willekeurig of puur op basis van aandacht te groeperen, gebruikt PRUNESID PSCA om tokens te clusteren in semantisch coherente groepen.

Werking: Het model voert een lage-rang PCA-decompositie uit op de token-embeddings (transponeren van de token-dimensie). Dit identificeert globale semantische richtingen die overeenkomen met visuele concepten (zoals objecten, achtergronden of texturen) in plaats van alleen statistische variantie.
Resultaat: Tokens worden toegewezen aan een van de $K$ groepen op basis van hun bijdrage aan de belangrijkste semantische componenten. Dit zorgt ervoor dat elke groep een samenhangend visueel concept vertegenwoordigt.

2. Intra-group Non-Maximum Suppression (NMS)

Binnen elke semantische groep worden redundante tokens verwijderd.

Werking: Een adaptieve NMS-strategie (geïnspireerd op objectdetectie) wordt toegepast. Tokens worden gesorteerd op hun bijdrage aan de semantische richting. Een token wordt behouden alleen als de gelijkenis met reeds geselecteerde tokens in die groep onder een dynamische drempelwaarde ( $\tau$ ) blijft.
Drempelwaarde: De drempel $\tau$ wordt dynamisch bepaald op basis van een globale redundantiescore ( $\rho$ ) van de afbeelding ( $\tau = \lambda \cdot \rho$ ). Dit zorgt voor sterkere onderdrukking bij zeer redundante afbeeldingen.

3. Informatie-bewuste Dynamische Compressie Ratio

Traditionele methoden gebruiken een vaste compressie ratio voor alle afbeeldingen. PRUNESID introduceert een dynamisch mechanisme:

Werking: De methode berekent een "informatiescore" ( $\phi = 1 - \rho$ ) voor elke afbeelding op basis van de globale redundantie.
Toewijzing: Afbeeldingen met een hoge informatiescore (complex, rijk aan details) krijgen meer tokens toegewezen, terwijl eenvoudige afbeeldingen (lage redundantie) sterker worden gecomprimeerd. Dit optimaliseert het gemiddelde behoud van informatie over diverse scènes heen.

Belangrijkste Bijdragen

Nieuw Framework: Een trainingsvrij framework dat het compromis tussen belangrijkheid en diversiteit oplost door een tweestaps-pijplijn (PSCA voor clustering + NMS voor pruning).
Dynamische Compressie: Een innovatief mechanisme dat het token-budget per afbeelding aanpast aan de complexiteit van de inhoud, wat leidt tot betere prestaties op datasets met grote variatie.
Theoretische Onderbouwing: De auteurs tonen aan dat hun methode theoretisch de effectieve informatie maximaliseert door de som van semantische bijdragen te maximaliseren en de redundantie te minimaliseren (via de Inclusion-Exclusion Principle).

Resultaten

PRUNESID heeft state-of-the-art (SOTA) resultaten behaald op meerdere benchmarks en modellen:

LLaVA-1.5: Bereikt 96,3% nauwkeurigheid met slechts 11,1% token-retentie (64 tokens), wat een verbetering is van 1,9% ten opzichte van de vorige SOTA (VisionZip).
Extreme Compressie (LLaVA-NeXT): Bij een extreem lage retentie van 5,6% (160 tokens) behoudt het model 92,8% van de volledige prestatie, een verbetering van 2,5% ten opzichte van eerdere methoden.
Video-LLaVA: Toont sterke generalisatie naar video-taken met slechts 6,6% token-retentie, behoudt 95,5% van de prestatie.
Efficiëntie: De methode versnelt de "prefilling"-tijd (de tijd nodig om de visuele tokens te verwerken voordat de tekstgeneratie begint) met 7,8x (van 218ms naar 27,8ms) vergeleken met het originele model, zonder de inferentie-snelheid te vertragen.
Generalisatie: De methode werkt effectief op verschillende architecturen (LLaVA-1.5, LLaVA-NeXT, Mini-Gemini, Qwen-VL) en zowel voor afbeeldingen als video's.

Significantie

Deze paper biedt een cruciale oplossing voor de schaalbaarheid van Vision-Language Models. Door de computatiekosten drastisch te verlagen (door minder tokens te verwerken) terwijl de semantische integriteit en diversiteit van de visuele informatie behouden blijven, maakt PRUNESID het mogelijk om VLMs toe te passen in omgevingen met beperkte rekenkracht of real-time vereisten. De synergie tussen semantische clustering en redundantie-reductie stelt een nieuwe standaard voor trainingsvrije compressietechnieken, waarbij de methode niet alleen sneller is, maar ook nauwkeuriger dan bestaande oplossingen, zelfs bij extreme compressie.

Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

1. Het Probleem: De Overvolle Boodschappenmand

2. De Oplossing: PRUNESID (De Slimme Sorteerder)

3. De Slimme Truc: Dynamische Portie

Wat levert dit op?

Probleemstelling

Methodologie: PRUNESID

1. Principal Semantic Components Analysis (PSCA)

2. Intra-group Non-Maximum Suppression (NMS)

3. Informatie-bewuste Dynamische Compressie Ratio

Belangrijkste Bijdragen

Resultaten

Significantie

Meer zoals dit

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities