What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models

Each language version is independently generated for its own context, not a direct translation.

De Geheime Levens van Visuele Tokens: Waarom je foto's "dood" en "levend" hebben

Stel je voor dat je een Multimodaal Groot Taalmodel (MLLM) een foto laat zien. Je denkt misschien: "Oké, de computer kijkt naar elke kleine stukje van die foto (een 'token') en probeert het allemaal tegelijk te begrijpen."

Deze paper, getiteld "Wat coderen visuele tokens eigenlijk?", onthult dat dit beeld helemaal niet klopt. Het is alsof je een orkest ziet spelen, maar je merkt dat de helft van de muzikanten eigenlijk alleen maar stilzit, een ander deel speelt dezelfde noot als een andere groep, en slechts een klein groepje echt de melodie draagt.

Hier is wat de onderzoekers ontdekten, vertaald naar alledaagse taal:

1. De Drie Soorten "Visuele Brieven"

Wanneer een foto in het model wordt geladen, worden de stukjes van de foto omgezet in digitale "brieven" (tokens). De onderzoekers ontdekten dat deze brieven in drie duidelijke groepen vallen:

De "Zinkgaten" (Sink Tokens): Dit zijn de stilzitters. Ze lijken op een anker dat het schip (het model) stabiel houdt, maar ze vertellen je niets over de foto zelf. Het maakt niet uit of je een kat of een auto toont; deze brieven zijn altijd hetzelfde. Ze zijn puur voor de structuur.
De "Dode" Tokens: Dit zijn de saaiste brieven van allemaal. Ze hebben geen betekenis, ze worden genegeerd door de rest van het model en ze dragen niets bij aan het antwoord. Ze zijn als ruis op de radio.
De "Levende" Tokens: Dit zijn de helden. Slechts ongeveer 60% van alle tokens valt in deze categorie. Deze dragen de echte informatie: de vorm van een object, de kleur, tekst op een bordje.

De grote verrassing: Je kunt de "zinkgaten" en de "dode" tokens gewoon weggooien. Het model wordt er niet slimmer door, maar soms zelfs slimmer, omdat het niet meer wordt afgeleid door die ruis.

2. De "Levende" Tokens zijn al klaar om te praten

Je zou denken dat de computer eerst de foto moet "lezen" en dan pas kan praten. Maar de onderzoekers ontdekten iets fascinerends:

De "levende" tokens zijn al zo goed omgezet naar taal dat ze niet meer veel nadenken nodig hebben voordat ze de taalcomputer (de LLM) binnenkomen.

Analogie: Stel je voor dat je een pakketje post krijgt. Je denkt: "Oh, ik moet dit eerst openmaken, sorteren en lezen voordat ik het kan begrijpen." Maar in dit geval is het pakketje al geopend, de inhoud is al in een leesbare taal geschreven en klaar om direct ingelezen te worden. De "levende" tokens bevatten al de informatie over "wat is dit?" en "wat is de kleur?" voordat ze het brein van de AI bereiken.

3. Waarom het brein (de LLM) soms te veel doet

Omdat de tokens al zo goed voorbereid zijn, doet de AI vaak onnodig veel werk.

Het probleem: Het model probeert de foto's opnieuw te analyseren in de eerste lagen van zijn "brein". Dit is als proberen een recept te lezen terwijl je al weet wat er in de pan zit. Het enige dat dit doet, is soms verwarring creëren (bijvoorbeeld: het model denkt dat een auto geel is omdat de achtergrond geel is, niet omdat de auto zelf geel is).
De oplossing: De onderzoekers ontdekten dat je de "levende" tokens rechtstreeks in het midden van het brein kunt injecteren. Je hoeft ze niet door de eerste, trage lagen te sturen. Het is alsof je een expert direct naar de vergaderzaal in het midden van het gebouw stuurt, in plaats van hem eerst door de hal en de lift te laten lopen.

4. Wat betekent dit voor de toekomst?

Dit onderzoek is een game-changer voor efficiëntie:

Snoeien: We kunnen de "dode" en "zink" tokens weggooien. Dit maakt het model sneller en goedkoper, zonder dat het minder slim wordt.
Kortere route: We hoeven de foto's niet door de hele computer te jagen. We kunnen ze direct in het midden van het proces stoppen.
Minder hallucinaties: Omdat we de onnodige lagen overslaan, maakt het model minder fouten (zoals het verwarren van kleuren).

Kortom:
Deze paper zegt: "Stop met het behandelen van elke foto als een mysterie dat volledig opnieuw moet worden ontcijferd. De meeste stukjes van de foto zijn ruis of ankers, en de belangrijke stukjes zijn al klaar om te praten. Laten we die ruis weggooien en de belangrijke stukjes direct naar het hart van het systeem sturen."

Dit maakt AI-systemen niet alleen sneller en goedkoper, maar ook begrijpelijker voor ons mensen.

What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models

1. De Drie Soorten "Visuele Brieven"

2. De "Levende" Tokens zijn al klaar om te praten

3. Waarom het brein (de LLM) soms te veel doet

4. Wat betekent dit voor de toekomst?

1. Het Probleem

2. Methodologie

3. Belangrijkste Bijdragen en Resultaten

A. De Drie Categorieën van Visuele Tokens

B. Rijke "Pre-linguïstische" Informatie

C. Redundantie in Interne Verwerking

D. Optimalisatie van Injectie diepte

4. Significantie en Implicaties

What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models

1. De Drie Soorten "Visuele Brieven"

2. De "Levende" Tokens zijn al klaar om te praten

3. Waarom het brein (de LLM) soms te veel doet

4. Wat betekent dit voor de toekomst?

1. Het Probleem

2. Methodologie

3. Belangrijkste Bijdragen en Resultaten

A. De Drie Categorieën van Visuele Tokens

B. Rijke "Pre-linguïstische" Informatie

C. Redundantie in Interne Verwerking

D. Optimalisatie van Injectie diepte

4. Significantie en Implicaties

Meer zoals dit

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks