What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models

Deze studie introduceert het analytische framework EmbedLens om aan te tonen dat multimodale grote taalmodellen een aanzienlijke mate van visuele redundantie bevatten, waarbij slechts ongeveer 60% van de visuele tokens daadwerkelijk beeldspecifieke betekenis draagt en dat een directe injectie van deze 'levende' tokens in de middelste lagen van het taalmodel voldoende is voor de meeste taken, wat leidt tot efficiëntere en interpreteerbaarder architecturen.

Yingqi Fan, Junlong Tong, Anhao Zhao, Xiaoyu Shen

Gepubliceerd 2026-03-03
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

De Geheime Levens van Visuele Tokens: Waarom je foto's "dood" en "levend" hebben

Stel je voor dat je een Multimodaal Groot Taalmodel (MLLM) een foto laat zien. Je denkt misschien: "Oké, de computer kijkt naar elke kleine stukje van die foto (een 'token') en probeert het allemaal tegelijk te begrijpen."

Deze paper, getiteld "Wat coderen visuele tokens eigenlijk?", onthult dat dit beeld helemaal niet klopt. Het is alsof je een orkest ziet spelen, maar je merkt dat de helft van de muzikanten eigenlijk alleen maar stilzit, een ander deel speelt dezelfde noot als een andere groep, en slechts een klein groepje echt de melodie draagt.

Hier is wat de onderzoekers ontdekten, vertaald naar alledaagse taal:

1. De Drie Soorten "Visuele Brieven"

Wanneer een foto in het model wordt geladen, worden de stukjes van de foto omgezet in digitale "brieven" (tokens). De onderzoekers ontdekten dat deze brieven in drie duidelijke groepen vallen:

  • De "Zinkgaten" (Sink Tokens): Dit zijn de stilzitters. Ze lijken op een anker dat het schip (het model) stabiel houdt, maar ze vertellen je niets over de foto zelf. Het maakt niet uit of je een kat of een auto toont; deze brieven zijn altijd hetzelfde. Ze zijn puur voor de structuur.
  • De "Dode" Tokens: Dit zijn de saaiste brieven van allemaal. Ze hebben geen betekenis, ze worden genegeerd door de rest van het model en ze dragen niets bij aan het antwoord. Ze zijn als ruis op de radio.
  • De "Levende" Tokens: Dit zijn de helden. Slechts ongeveer 60% van alle tokens valt in deze categorie. Deze dragen de echte informatie: de vorm van een object, de kleur, tekst op een bordje.

De grote verrassing: Je kunt de "zinkgaten" en de "dode" tokens gewoon weggooien. Het model wordt er niet slimmer door, maar soms zelfs slimmer, omdat het niet meer wordt afgeleid door die ruis.

2. De "Levende" Tokens zijn al klaar om te praten

Je zou denken dat de computer eerst de foto moet "lezen" en dan pas kan praten. Maar de onderzoekers ontdekten iets fascinerends:

De "levende" tokens zijn al zo goed omgezet naar taal dat ze niet meer veel nadenken nodig hebben voordat ze de taalcomputer (de LLM) binnenkomen.

  • Analogie: Stel je voor dat je een pakketje post krijgt. Je denkt: "Oh, ik moet dit eerst openmaken, sorteren en lezen voordat ik het kan begrijpen." Maar in dit geval is het pakketje al geopend, de inhoud is al in een leesbare taal geschreven en klaar om direct ingelezen te worden. De "levende" tokens bevatten al de informatie over "wat is dit?" en "wat is de kleur?" voordat ze het brein van de AI bereiken.

3. Waarom het brein (de LLM) soms te veel doet

Omdat de tokens al zo goed voorbereid zijn, doet de AI vaak onnodig veel werk.

  • Het probleem: Het model probeert de foto's opnieuw te analyseren in de eerste lagen van zijn "brein". Dit is als proberen een recept te lezen terwijl je al weet wat er in de pan zit. Het enige dat dit doet, is soms verwarring creëren (bijvoorbeeld: het model denkt dat een auto geel is omdat de achtergrond geel is, niet omdat de auto zelf geel is).
  • De oplossing: De onderzoekers ontdekten dat je de "levende" tokens rechtstreeks in het midden van het brein kunt injecteren. Je hoeft ze niet door de eerste, trage lagen te sturen. Het is alsof je een expert direct naar de vergaderzaal in het midden van het gebouw stuurt, in plaats van hem eerst door de hal en de lift te laten lopen.

4. Wat betekent dit voor de toekomst?

Dit onderzoek is een game-changer voor efficiëntie:

  1. Snoeien: We kunnen de "dode" en "zink" tokens weggooien. Dit maakt het model sneller en goedkoper, zonder dat het minder slim wordt.
  2. Kortere route: We hoeven de foto's niet door de hele computer te jagen. We kunnen ze direct in het midden van het proces stoppen.
  3. Minder hallucinaties: Omdat we de onnodige lagen overslaan, maakt het model minder fouten (zoals het verwarren van kleuren).

Kortom:
Deze paper zegt: "Stop met het behandelen van elke foto als een mysterie dat volledig opnieuw moet worden ontcijferd. De meeste stukjes van de foto zijn ruis of ankers, en de belangrijke stukjes zijn al klaar om te praten. Laten we die ruis weggooien en de belangrijke stukjes direct naar het hart van het systeem sturen."

Dit maakt AI-systemen niet alleen sneller en goedkoper, maar ook begrijpelijker voor ons mensen.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →