LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme, super-intelligente robot hebt die alleen maar tekst leest en schrijft. Hij kent alle boeken ter wereld, maar hij heeft nog nooit een foto gezien. Hij weet niet wat een "rode auto" is, omdat hij alleen de woorden "rode" en "auto" kent, maar niet het beeld erachter.

Om deze tekst-robot slim te maken voor beelden, bouwen we een brug tussen een camera en de robot. We nemen een foto, snijden hem in stukjes (die we visuele tokens noemen) en proberen die stukjes om te zetten in de taal van de robot.

De grote vraag was: Begrijpt de robot eigenlijk wel wat hij ziet? Of zijn die beeld-stukjes voor hem gewoon onbegrijpelijke ruis?

Tot nu toe dachten onderzoekers dat het antwoord "nee" was. Ze gebruikten oude methoden om te kijken wat de robot dacht, en die methoden zeiden: "Dit beeldje lijkt op het woord 'de' of 'en'... dat is niet erg nuttig."

Maar in dit nieuwe onderzoek, genaamd LATENTLENS, hebben de auteurs een bril opgezet die alles verandert.

De Magische Brillen: LATENTLENS

Stel je voor dat je probeert te raden wat een vreemd symbool betekent.

De Oude Methode (LogitLens): Dit is alsof je het symbool vergelijkt met een woordenlijst van losse letters. Je vraagt: "Lijkt dit op de letter 'A' of 'B'?" Het resultaat is vaak wazig. De robot denkt misschien: "Oh, dit lijkt op een komma." Dat helpt je niet echt om te begrijpen dat je naar een kerk kijkt.
De Nieuwe Methode (LATENTLENS): Dit is alsof je het symbool vergelijkt met hele zinnen uit een groot boek. Je vraagt: "In welke zin in dit boek past dit symbool het beste?"
- In plaats van alleen te kijken naar losse woorden, kijkt LATENTLENS naar de context.
- Het resultaat? Plotseling zegt de robot: "Oh! Dit beeldje past perfect in de zin: 'Een groot gebouw met veel ramen en een klok.'"

De kernboodschap: Visuele beelden zijn voor de robot veel makkelijker te begrijpen dan we dachten, zolang we maar kijken naar de juiste "context" en niet naar losse letters.

De Verrassende Ontdekkingen

De onderzoekers hebben dit getest op 10 verschillende robots (modellen) en vonden drie coole dingen:

1. De "Midden-Layer Sprong" (De Mid-Layer Leap)
Dit is misschien wel het gekste deel.

Hoe het zou moeten werken: Je zou denken dat een beeldje dat net de robot binnenkomt, eerst lijkt op een simpel woord (zoals "steen"), en pas later, na veel nadenken, een complexere betekenis krijgt.
Wat er echt gebeurt: Het beeldje dat de robot direct binnenkrijgt, lijkt al op een volledige, uitgebalanceerde zin die ergens diep in het nadenkproces van de robot zit.
De Analogie: Stel je voor dat je een briefje krijgt met een tekening van een hond. In plaats dat de robot eerst denkt "oh, een lijntje" en dan "oh, een poot", denkt hij direct: "Ah, dit is de zin 'een bruine hond rent in het gras'." De robot heeft het beeld al "gebruikt" voordat hij het zelfs maar goed heeft verwerkt. Het beeld is al "klaar" voor de taal.

2. De Robot is een "Universele Machine"
Het onderzoek bevestigt dat grote taalmodellen eigenlijk heel goed zijn in het begrijpen van de wereld, zelfs zonder dat ze ooit een foto hebben gezien. Ze hebben door het lezen van miljarden teksten al een soort "inbeeld" van hoe de wereld eruitziet. Als we ze een foto geven, past het beeld zich naadloos aan in hun bestaande wereldbeeld.

3. Waarom de oude methoden faalden
De oude methoden keken naar de robot alsof hij een woordenboek was. Maar een robot is geen woordenboek; hij is een verhaler. Hij denkt in zinnen en verbanden. Als je een beeldje vergelijkt met een los woord, mis je de magie. Als je het vergelijkt met een hele zin (zoals LATENTLENS doet), zie je dat de robot het perfect begrijpt.

Waarom is dit belangrijk?

Minder hallucinaties: Als we weten hoe de robot beelden begrijpt, kunnen we hem beter leren om niet te verzinnen wat er niet is (bijvoorbeeld: hij zegt niet dat er een olifant is als er alleen een stoel staat).
Betere AI: We kunnen AI-systemen bouwen die niet alleen tekst kunnen, maar ook echt "zien" en begrijpen, net als wij.
Transparantie: We kunnen nu beter zien wat er in het hoofd van de AI gebeurt. We kunnen zeggen: "Kijk, hier denkt de AI aan een 'zonsopgang', en hier aan 'een blauwe hemel'."

Samenvattend

De onderzoekers hebben ontdekt dat we de "bril" waarmee we naar de AI kijken, moesten verwisselen. In plaats van te kijken naar losse letters (wat de AI als ruis zag), kijken we nu naar hele zinnen. En toen zagen we dat de AI de beelden al lang begreep; we hadden gewoon de verkeerde manier om te luisteren.

Het is alsof je dacht dat iemand die een vreemde taal spreekt, alleen maar onzin mompelde. Maar toen je eindelijk luisterde naar de gehele zinnen in plaats van losse geluiden, bleek hij een prachtig gedicht te reciteren.

Each language version is independently generated for its own context, not a direct translation.

1. Het Probleem

Het transformeren van een Large Language Model (LLM) naar een Vision-Language Model (VLM) gebeurt vaak door visuele tokens van een visuele encoder (zoals CLIP of DINOv2) via een eenvoudige projectie (bijv. een MLP) af te beelden op de embedding-ruimte van een bevroren LLM. Hoewel deze VLM's goed presteren, is het onduidelijk hoe en waarom LLM's visuele informatie zo makkelijk kunnen verwerken.

De kernvraag is: Zijn de visuele tokens die door de LLM worden verwerkt interpreteerbaar als semantisch betekenisvolle taal?
Bestaande methoden voor interpretatie, zoals LogitLens en EmbeddingLens, die kijken naar de dichtstbijzijnde woorden in het vocabulaire van het model, suggereren dat visuele tokens vaak niet interpreteerbaar zijn of dat hun betekenis pas in de latere lagen van het model duidelijk wordt. De auteurs vermoeden echter dat deze methoden de interpretatie onderdrukken omdat ze kijken naar statische embeddings in plaats van contextuele representaties.

2. Methodologie: LATENTLENS

De auteurs introduceren LATENTLENS, een trainingsvrije methode om latente representaties van visuele tokens te vertalen naar natuurlijke taalbeschrijvingen.

Het kerninzicht:
De meest natuurlijke vergelijking voor een visuele token is niet een statisch woord uit het vocabulaire (zoals bij LogitLens), maar een gecontextualiseerde token-representatie uit een grote tekstcorpus. Visuele tokens lijken meer op woorden die in een specifieke zin voorkomen dan op losse woorden.

Het proces:

Corpus Encoding: Een groot corpus van zinnen (in dit geval 2,99 miljoen beschrijvingen uit Visual Genome) wordt verwerkt door de LLM. Voor elke token in elke zin worden de contextuele representaties opgeslagen voor meerdere lagen van het model.
Zoekopdracht: Wanneer een visuele token op een bepaalde laag van de LLM wordt geanalyseerd, wordt deze vergeleken met de opgeslagen contextuele representaties van het corpus.
Nearest Neighbors: De top- $k$ dichtstbijzijnde contextuele representaties (op basis van cosinus-ähnelijkheid) worden opgehaald. De bijbehorende zinnen of zinsdelen fungeren als de "beschrijving" van de visuele token.
Evaluatie: Een LLM-judge (GPT-5) evalueert of de gegenereerde beschrijvingen semantisch overeenkomen met het beeldgedeelte dat door de visuele token wordt vertegenwoordigd.

3. Belangrijkste Bijdragen

Nieuwe Methode (LATENTLENS): Een trainingsvrije techniek die contextuele embeddings gebruikt in plaats van statische embedding/unembedding matrices, wat leidt tot veel rijkere en nauwkeurigere interpretaties.
Uitdaging van Bestaande Aannames: Het paper toont aan dat eerdere methoden (LogitLens, EmbeddingLens) de interpretatie van visuele tokens aanzienlijk onderschatten.
De "Mid-Layer Leap": Een opvallende ontdekking dat visuele tokens op de inputlaag (laag 0) het sterkst aligneren met contextuele tekstrepresentaties uit de middelste lagen (bijv. lagen 8–16) van de LLM, en niet met de input-embeddings. Dit suggereert dat visuele tokens al "voor-gecontextualiseerd" zijn door de visuele encoder en de connector, en direct aansluiten bij de semantische representaties van de taal.
Uitgebreide Evaluatie: Analyse van 10 verschillende VLM-configuraties (combinaties van OLMo, LLaMA3, Qwen2 met CLIP, SigLIP en DINOv2).

4. Resultaten

De experimentele resultaten tonen een duidelijk verschil tussen LATENTLENS en bestaande methoden:

Interpreteerbaarheid:
- LATENTLENS: Gemiddeld 72% van de visuele tokens is interpreteerbaar over alle lagen en modellen heen.
- EmbeddingLens: Slechts 30% interpreteerbaar.
- LogitLens: Slechts 23% interpreteerbaar.
- Bij LATENTLENS zijn de tokens al in de vroege lagen (input) hoogst interpreteerbaar, terwijl LogitLens vaak pas in de late lagen goede resultaten geeft.
Kwaliteit van Beschrijvingen:
- LATENTLENS levert volledige zinnen of zinsdelen op (bijv. "een grote rode bakstenen toren"), terwijl LogitLens vaak subwoorden, leestekens of onzin-tokens teruggeeft.
- Zelfs voor modellen met visuele encoders zonder taalsupervisie (zoals DINOv2) zijn de tokens hoogst interpreteerbaar.
Stabiliteit:
- Visuele tokens ondergaan weinig verandering ("drift") door de lagen van de LLM heen in vergelijking met teksttokens. Ze behouden hun hoge gelijkenis met de input-representatie, wat de "Mid-Layer Leap" verklaring ondersteunt.

5. Betekenis en Impact

Fundamenteel Begrip: Het paper biedt bewijs dat visuele en taalrepresentaties een hoge structurele overeenkomst hebben (ondersteuning van de "Platonic Representation Hypothesis"). Het toont aan dat bevroren LLM's visuele data kunnen verwerken omdat de projectie direct aansluit bij de semantische (middelste) lagen van het taalmodel.
Toekomstige Richtingen: De methode opent nieuwe wegen voor het analyseren van latente representaties in multimodale modellen, het verminderen van hallucinaties (door te begrijpen wat een token echt vertegenwoordigt), en het analyseren van andere niet-taal tokens (zoals spraak of soft prompts).
Praktische Toepassing: De auteurs maken de code en de database van contextuele embeddings openbaar, wat onderzoekers in staat stelt om LATENTLENS toe te passen op hun eigen modellen zonder extra training.

Conclusie:
LATENTLENS bewijst dat visuele tokens in VLM's veel meer lijken op betekenisvolle taal dan eerder werd gedacht. Het succes van deze interpretatie hangt echter af van het gebruik van de juiste "lens": contextuele embeddings in plaats van statische vocabulaire-matrices. Dit verandert ons inzicht in hoe multimodale modellen werken en waarom ze zo effectief kunnen worden opgezet met minimale aanpassingen.

LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs

De Magische Brillen: LATENTLENS

De Verrassende Ontdekkingen

Waarom is dit belangrijk?

Samenvattend

1. Het Probleem

2. Methodologie: LATENTLENS

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Impact

Meer zoals dit

DualDynamics: Synergizing Implicit and Explicit Methods for Robust Irregular Time Series Analysis

Robot Collapse: Supply Chain Backdoor Attacks Against VLM-based Robotic Manipulation

ExGes: Expressive Human Motion Retrieval and Modulation for Audio-Driven Gesture Synthesis

SafePLUG: Empowering Multimodal LLMs with Pixel-Level Insight and Temporal Grounding for Traffic Accident Understanding

Advanced Assistance for Traffic Crash Analysis: An AI-Driven Multi-Agent Approach to Pre-Crash Reconstruction