Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

Dit paper introduceert PruneSID, een trainingsvrije methode die redundantie in visuele tokens van Vision-Language Models efficiënt elimineert door belang en diversiteit synergetisch te benutten, waardoor de prestaties worden behouden en de verwerkingssnelheid aanzienlijk wordt verhoogd.

Zhengyao Fang, Pengyuan Lyu, Chengquan Zhang, Guangming Lu, Jun Yu, Wenjie Pei

Gepubliceerd Wed, 11 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een Vision-Language Model (VLM) hebt, zoals een slimme robot die foto's kan zien en erover kan praten. Om een foto te begrijpen, kijkt deze robot niet naar het plaatje als één geheel, maar splitst hij de foto op in duizenden kleine stukjes, die we "tokens" noemen. Het probleem is dat de robot vaak te veel stukjes gebruikt. Hij kijkt naar 576 of zelfs 2880 stukjes per foto, terwijl hij er eigenlijk maar een paar nodig heeft om het verhaal te begrijpen. Dit maakt hem traag en duur.

Bestaande methoden om deze stukjes te verminderen, werken vaak niet goed genoeg. Ze kiezen soms alleen de "meest interessante" stukjes (zoals een gezicht), maar vergeten de achtergrond. Of ze verwijderen te veel dubbele stukjes, waardoor ze per ongeluk ook belangrijke details kwijtraken.

De auteurs van dit paper hebben een nieuwe oplossing bedacht: PRUNESID. Laten we dit uitleggen met een paar creatieve vergelijkingen.

1. Het Probleem: De Overvolle Boodschappenmand

Stel je voor dat je een enorme boodschappenmand hebt met 1000 appels. Je wilt er maar 100 uit houden om een taart te maken.

  • De oude methode (Aandacht-gestuurd): Je pakt alleen de appels die het roodst zijn (de meest opvallende). Maar je pakt er misschien 50 van exact dezelfde boom, en vergeet de groene appels die nodig zijn voor de smaak. Je taart wordt eentonig.
  • De andere oude methode (Dubbelheid-gestuurd): Je gooit alle appels weg die op elkaar lijken. Maar je gooit per ongeluk de enige appel weg die op een speciale plek groeide en de taart net zoet maakt. Je taart wordt saai en mist diepgang.

2. De Oplossing: PRUNESID (De Slimme Sorteerder)

PRUNESID werkt in twee stappen, alsof je een super-georganiseerde kok bent die een recept volgt.

Stap 1: De Groepen Maken (PSCA)
In plaats van willekeurig te kiezen, kijkt de robot eerst naar de "essentie" van de foto. Hij groepeert de appels (tokens) op basis van wat ze gemeen hebben.

  • Vergelijking: Hij maakt groepen zoals "alle rode appels van boom A", "alle groene appels van boom B", en "alle bladeren".
  • Waarom? Zo zorgt hij ervoor dat hij niet alleen naar één type appel kijkt, maar dat hij de hele verscheidenheid van de foto (de "essentie") behoudt. Dit noemen ze Principal Semantic Components Analysis.

Stap 2: De Dubbele Verwijderen (NMS)
Nu heeft hij zijn groepen, maar in de groep "Rode Appels" zitten misschien 50 appels die er bijna hetzelfde uitzien. Hij hoeft ze niet allemaal te houden.

  • Vergelijking: Hij pakt uit elke groep de allerbeste, meest representatieve appel. De andere 49 die er precies hetzelfde uitzien, gooit hij weg. Dit is Non-Maximum Suppression.
  • Het resultaat: Je houdt een kleine mand over met 100 appels, maar ze komen allemaal uit verschillende hoeken van de boomgaard. Je hebt de diversiteit behouden, maar de rommel verwijderd.

3. De Slimme Truc: Dynamische Portie

Een ander probleem is dat sommige foto's heel druk zijn (een drukke markt) en andere heel simpel (een blauwe lucht).

  • De oude methode: Gebruikt altijd hetzelfde aantal stukjes, of het nu een drukke markt of een lege lucht is. Dat is zonde.
  • PRUNESID: Kijkt eerst naar de foto. Is het druk? Dan geeft hij de robot meer stukjes om te kijken. Is het saai? Dan geeft hij minder.
  • Vergelijking: Het is alsof je een portie eten aanpast aan hoe hongerig je bent. Bij een drukke foto krijg je een groot bord, bij een simpele foto een klein bordje. Zo wordt er nooit informatie verloren waar het nodig is.

Wat levert dit op?

De resultaten zijn indrukwekkend:

  • Snelheid: De robot is tot 7,8 keer sneller in het "lezen" van de foto (de prefilling-tijd), omdat hij veel minder stukjes hoeft te verwerken.
  • Kwaliteit: Zelfs als je maar 5,6% van de stukjes houdt (bijna alles weggegooid), begrijpt de robot de foto nog steeds bijna perfect (92,8% van zijn oorspronkelijke vermogen).
  • Veelzijdigheid: Het werkt niet alleen voor foto's, maar ook voor video's en verschillende soorten slimme robots.

Kortom: PRUNESID is als een slimme editor die een lang, saai verhaal herschrijft tot een kort, krachtig verhaal. Hij gooit de herhalingen weg, maar zorgt ervoor dat de belangrijkste personages en de plot (de betekenis) intact blijven. Hierdoor wordt de robot sneller, goedkoper, maar nog steeds net zo slim.