LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs

Each language version is independently generated for its own context, not a direct translation.

LATENTLENS: Wie wir die „Gedanken" von KI-Modellen übersetzen

Stell dir vor, du hast einen riesigen, extrem klugen Bibliothekar (das ist das Large Language Model oder LLM). Dieser Bibliothekar kann nur mit Büchern (Text) umgehen. Er kennt jedes Wort, jede Geschichte und jede Nuance der Sprache.

Jetzt willst du ihm ein Foto zeigen. Aber der Bibliothekar kann keine Bilder sehen. Um ihm das Bild zu zeigen, musst du es erst in eine Sprache übersetzen, die er versteht. Das machst du, indem du das Bild in kleine Puzzleteile zerlegst und jedem Teil ein „Wort" zuweist. Diese Wörter sind die visuellen Tokens.

Das Problem bisher war: Niemand wusste wirklich, was diese „Wörter" bedeuten. Wenn der Bibliothekar ein Bild von einer roten Katze sieht, denkt er dann an das Wort „Katze"? Oder an „rot"? Oder an etwas völlig Verrücktes wie „Zahnpasta"? Bisherige Methoden, um herauszufinden, was in diesen „Wörtern" steckt, waren wie das Erraten einer Bedeutung durch bloßes Raten – und sie scheiterten oft.

Die neue Brille: LATENTLENS

Die Forscher in diesem Papier haben eine neue Methode namens LATENTLENS erfunden. Stell dir das wie eine magische Brille vor, die man dem Bibliothekar aufsetzt.

Wie funktioniert diese Brille?

Der alte Weg (LogitLens): Früher hat man versucht, die Bedeutung eines Bild-Teils zu erraten, indem man geschaut hat: „Welches Wort aus dem Wörterbuch passt am besten?" Das war wie ein Multiple-Choice-Test mit nur 50.000 Optionen. Oft passte kein Wort richtig, oder es war nur ein halbes Wort (wie „Kat" statt „Katze").
Der neue Weg (LATENTLENS): LATENTLENS macht etwas viel Clevereres. Es vergleicht das Bild-Teil nicht mit einem Wörterbuch, sondern mit echten Sätzen.
- Stell dir vor, der Bibliothekar hat eine riesige Bibliothek voller Sätze, die er schon gelesen hat.
- Wenn er ein Bild-Teil sieht (z. B. einen Turm), schaut er nicht in ein Wörterbuch, sondern fragt: „In welchem Satz aus meiner Bibliothek taucht ein Wort auf, das sich genau so anfühlt wie dieses Bild-Teil?"
- Das Ergebnis ist nicht nur ein Wort, sondern ein ganzer Satz wie: „Ein großer grauer Turm mit goldenen Uhren."

Was haben sie herausgefunden?

Mit dieser neuen Brille haben sie 10 verschiedene KI-Modelle untersucht und drei erstaunliche Dinge entdeckt:

1. Die Bilder sind viel verständlicher als gedacht!
Bisher dachten alle, dass KI-Modelle Bilder nur als kryptischen „Rauschen" verarbeiten, das nicht in Worte zu fassen ist. LATENTLENS zeigt aber: Nein! Die meisten Bild-Teile sind sofort als klare, sinnvolle Sätze zu verstehen. Die KI „denkt" in Bildern, die sich fast wie beschreibende Sätze anfühlen.

2. Der „Sprung in die Mitte" (Mid-Layer Leap)
Das ist das coolste Detail. Stell dir vor, die KI liest einen Satz Wort für Wort. Am Anfang (Layer 0) ist ein Wort noch sehr roh. Erst nach ein paar Sätzen wird es klarer.

Die Überraschung: Wenn die KI ein Bild sieht, ist das Bild-Teil sofort so klar wie ein Wort, das die KI schon in der Mitte eines Satzes gelesen hat.
Die Analogie: Es ist, als würdest du einem Freund ein Foto zeigen und er würde sofort sagen: „Ah, das ist der Turm!" Er muss das Foto nicht erst langsam analysieren. Das Bild kommt in der KI schon so an, als wäre es ein fertiger Gedanke, der sich mitten in einem Gespräch befindet. Die KI muss das Bild nicht erst „übersetzen", sie versteht es sofort auf einer semantischen Ebene.

3. Warum ist das wichtig?

Keine Halluzinationen: Wenn wir verstehen, was die KI im Bild sieht, können wir besser verhindern, dass sie Dinge erfindet (z. B. eine Katze auf einem Bild, wo keine ist).
Bessere KI: Wir wissen jetzt, dass wir keine riesigen, komplizierten Übersetzer brauchen, um Bilder und Text zu verbinden. Ein einfacher „Brückenbauer" reicht, weil die KI-Bibliothekare die Bilder schon fast verstehen.

Zusammenfassung in einem Satz

LATENTLENS ist wie eine Übersetzer-Brille, die zeigt, dass KI-Modelle Bilder nicht als fremde, unverständliche Daten sehen, sondern als klare, beschreibende Sätze – und zwar viel früher und besser, als wir je gedacht hätten.

Die Forscher sagen im Grunde: „Wir dachten, die KI würde Bilder nur als Rauschen sehen. Aber mit der richtigen Brille sehen wir, dass sie die Bilder genau so versteht wie wir: als Geschichten."

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Transformation von Large Language Models (LLMs) in Vision-Language Models (VLMs) erfolgt oft durch eine einfache Projektion (z. B. einen flachen MLP) der visuellen Token eines Vision-Encoders in den Embedding-Raum eines eingefrorenen (frozen) LLMs. Ein zentrales, noch ungelöstes Verständnisproblem ist die Interpretierbarkeit dieser visuellen Token während der Verarbeitung im LLM.

Bisherige Interpretierbarkeitsmethoden wie LogitLens (Projektion über die Unembedding-Matrix) oder EmbeddingLens (Vergleich mit der Eingabe-Embedding-Matrix) zeigen bei visuellen Token oft inkonsistente oder schlechte Ergebnisse. Sie deuten darauf hin, dass visuelle Token kaum semantisch bedeutungsvolle Sprache repräsentieren. Die Autoren hinterfragen jedoch, ob diese Methoden das richtige "Mikroskop" verwenden, um die latenten Repräsentationen zu analysieren, und vermuten, dass sie die tatsächliche Interpretierbarkeit stark unterschätzen.

2. Methodik: LATENTLENS

Die Autoren stellen LATENTLENS vor, eine trainingsfreie Methode zur Abbildung latenter Repräsentationen auf natürliche Sprachbeschreibungen. Der Kernansatz unterscheidet sich fundamental von bisherigen "Linsen":

Kontextualisierte Referenzen statt statischer Wörterbücher:
Statt visuelle Token mit einzelnen Vokabel-Embeddings (Eingabe- oder Ausgabe-Matrix) zu vergleichen, vergleicht LATENTLENS sie mit kontextualisierten Token-Repräsentationen aus einem großen Textkorpus.
Aufbau des Referenzpools:
Ein großes Textkorpus (hier: 2,99 Millionen Beschreibungen aus Visual Genome) wird durch das LLM kodiert. Für jedes Token in jedem Satz werden die kontextualisierten Repräsentationen $r^{(\ell)}_{j,t}$ über alle Schichten $\ell$ des Modells gespeichert.
Suche nach Nearest Neighbors (NN):
Um einen visuellen Token $h^{(\ell')}_{i}$ (an Position $i$ , Schicht $\ell'$ ) zu interpretieren, wird die kosinussimilarität zu allen gespeicherten kontextualisierten Text-Repräsentationen berechnet. Die Top- $k$ ähnlichsten Text-Token (und deren umgebender Kontext/Satz) dienen als Beschreibung.
Evaluation:
Die Interpretierbarkeit wird durch einen LLM-Judge (GPT-5) automatisiert bewertet. Der Judge erhält das Bild (mit markiertem Bereich) und die Top-5 Beschreibungen und klassifiziert, ob die Beschreibung konkret (sichtbar), abstrakt (konzeptionell) oder global (anderswo im Bild) ist. Ein Token gilt als interpretierbar, wenn mindestens eine der Top-5 Beschreibungen zutrifft.

3. Wichtige Beiträge und Erkenntnisse

A. Überlegene Interpretierbarkeit

Die Studie analysiert 10 verschiedene VLM-Konfigurationen (Kombinationen aus OLMo, LLaMA3, Qwen2 und CLIP, DINOv2, SigLIP).

Ergebnis: LATENTLENS zeigt, dass 72 % der visuellen Token über alle Schichten hinweg interpretierbar sind.
Vergleich: Im Gegensatz dazu bewerten LogitLens nur 23 % und EmbeddingLens nur 30 % der Token als interpretierbar.
Fazit: Bisherige Methoden unterschätzen die Interpretierbarkeit massiv, da sie den falschen Referenzraum (statische Embeddings) nutzen.

B. Das "Mid-Layer Leap" Phänomen

Eine der überraschendsten Entdeckungen ist die Mid-Layer Leap:

Visuelle Token, selbst am Eingang (Layer 0), ähneln am stärksten den kontextualisierten Text-Repräsentationen aus mittleren Schichten des LLM (z. B. Layer 8–16), nicht den Eingabe-Embeddings (Layer 0) oder den Ausgabe-Logits.
Bedeutung: Dies deutet darauf hin, dass die gelernte Projektion visuelle Informationen direkt in semantische, kontextualisierte Repräsentationen übersetzt, anstatt sie nur in lexikalische Einheiten zu mapen. Visuelle Token durchlaufen im LLM weniger Transformationen als Text-Token und bleiben in ihrer Repräsentation stabiler.

C. Robustheit und Generalisierung

Die Ergebnisse bleiben robust, selbst wenn die Projektion auf einen linearen Layer reduziert wird oder das Training auf kürzeren Beschreibungen basiert.
Die Methode funktioniert auch auf kommerziellen, vortrainierten Modellen (z. B. Qwen2-VL-7B-Instruct), nicht nur auf den kontrolliert trainierten Modellen.
Selbst Modelle ohne sprachliche Vorverarbeitung (wie DINOv2) zeigen hohe Interpretierbarkeit, was die Hypothese stützt, dass Vision- und Sprachräume strukturell stark überlappen ("Platonic Representation Hypothesis").

D. Qualitative Verbesserungen

LATENTLENS liefert ganze Sätze oder Phrasen (z. B. "großer Turm mit vielen Fenstern"), während LogitLens oft nur Subwörter, Satzzeichen oder unvollständige Vorhersagen liefert.
Bei Text in Bildern (z. B. Schilder) liefert LATENTLENS exakt die geschriebenen Wörter, während LogitLens oft plausible "Nächste-Token"-Vorhersagen macht, die nicht dem visuellen Inhalt entsprechen.

4. Signifikanz und Implikationen

Neues Verständnis der VLM-Architektur: Die Arbeit widerlegt die Annahme, dass visuelle Token in LLMs "unlesbar" oder in einem separaten, nicht-interpretierbaren Raum liegen. Sie zeigt, dass eingefrorene LLMs visuelle Eingaben bereits auf einer tiefen semantischen Ebene verstehen können.
Methodischer Fortschritt: LATENTLENS etabliert einen neuen Standard für die Interpretierbarkeit latenter Räume, indem sie den Kontext (Contextualized Embeddings) als Vergleichsbasis nutzt, was für die Analyse von Soft Prompts, Sprachmodellen und anderen nicht-linguistischen Token relevant ist.
Anwendungsgebiete: Die Erkenntnisse könnten helfen, Halluzinationen in VLMs zu reduzieren (da man besser versteht, was ein Token repräsentiert) und die Entwicklung effizienterer Connector-Module zu informieren.

Zusammenfassung

LATENTLENS beweist, dass visuelle Token in Vision-Language-Modellen hochgradig interpretierbar sind, wenn man sie mit dem richtigen Werkzeug (kontextualisierte Textrepräsentationen statt statischer Embeddings) analysiert. Die Arbeit offenbart ein tiefes strukturelles Alignment zwischen visuellen und sprachlichen Repräsentationen und zeigt, dass die Integration von Vision in LLMs weniger eine "Übersetzung" in ein fremdes Format, sondern vielmehr eine direkte Anbindung an semantische Konzepte darstellt.

LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs

Die neue Brille: LATENTLENS

Was haben sie herausgefunden?

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: LATENTLENS

3. Wichtige Beiträge und Erkenntnisse

A. Überlegene Interpretierbarkeit

B. Das "Mid-Layer Leap" Phänomen

C. Robustheit und Generalisierung

D. Qualitative Verbesserungen

4. Signifikanz und Implikationen

Zusammenfassung

Mehr davon

DualDynamics: Synergizing Implicit and Explicit Methods for Robust Irregular Time Series Analysis

Robot Collapse: Supply Chain Backdoor Attacks Against VLM-based Robotic Manipulation

ExGes: Expressive Human Motion Retrieval and Modulation for Audio-Driven Gesture Synthesis

SafePLUG: Empowering Multimodal LLMs with Pixel-Level Insight and Temporal Grounding for Traffic Accident Understanding

Advanced Assistance for Traffic Crash Analysis: An AI-Driven Multi-Agent Approach to Pre-Crash Reconstruction