LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs

Die Arbeit stellt LatentLens vor, eine neue Methode zur Übersetzung latenter visueller Token-Repräsentationen in natürliche Sprache, die zeigt, dass visuelle Token in Vision-Language-Modellen über alle Schichten hinweg weitaus interpretierbarer sind als bisher angenommen.

Benno Krojer, Shravan Nayak, Oscar Mañas, Vaibhav Adlakha, Desmond Elliott, Siva Reddy, Marius Mosbach

Veröffentlicht 2026-02-26
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

LATENTLENS: Wie wir die „Gedanken" von KI-Modellen übersetzen

Stell dir vor, du hast einen riesigen, extrem klugen Bibliothekar (das ist das Large Language Model oder LLM). Dieser Bibliothekar kann nur mit Büchern (Text) umgehen. Er kennt jedes Wort, jede Geschichte und jede Nuance der Sprache.

Jetzt willst du ihm ein Foto zeigen. Aber der Bibliothekar kann keine Bilder sehen. Um ihm das Bild zu zeigen, musst du es erst in eine Sprache übersetzen, die er versteht. Das machst du, indem du das Bild in kleine Puzzleteile zerlegst und jedem Teil ein „Wort" zuweist. Diese Wörter sind die visuellen Tokens.

Das Problem bisher war: Niemand wusste wirklich, was diese „Wörter" bedeuten. Wenn der Bibliothekar ein Bild von einer roten Katze sieht, denkt er dann an das Wort „Katze"? Oder an „rot"? Oder an etwas völlig Verrücktes wie „Zahnpasta"? Bisherige Methoden, um herauszufinden, was in diesen „Wörtern" steckt, waren wie das Erraten einer Bedeutung durch bloßes Raten – und sie scheiterten oft.

Die neue Brille: LATENTLENS

Die Forscher in diesem Papier haben eine neue Methode namens LATENTLENS erfunden. Stell dir das wie eine magische Brille vor, die man dem Bibliothekar aufsetzt.

Wie funktioniert diese Brille?

  1. Der alte Weg (LogitLens): Früher hat man versucht, die Bedeutung eines Bild-Teils zu erraten, indem man geschaut hat: „Welches Wort aus dem Wörterbuch passt am besten?" Das war wie ein Multiple-Choice-Test mit nur 50.000 Optionen. Oft passte kein Wort richtig, oder es war nur ein halbes Wort (wie „Kat" statt „Katze").
  2. Der neue Weg (LATENTLENS): LATENTLENS macht etwas viel Clevereres. Es vergleicht das Bild-Teil nicht mit einem Wörterbuch, sondern mit echten Sätzen.
    • Stell dir vor, der Bibliothekar hat eine riesige Bibliothek voller Sätze, die er schon gelesen hat.
    • Wenn er ein Bild-Teil sieht (z. B. einen Turm), schaut er nicht in ein Wörterbuch, sondern fragt: „In welchem Satz aus meiner Bibliothek taucht ein Wort auf, das sich genau so anfühlt wie dieses Bild-Teil?"
    • Das Ergebnis ist nicht nur ein Wort, sondern ein ganzer Satz wie: „Ein großer grauer Turm mit goldenen Uhren."

Was haben sie herausgefunden?

Mit dieser neuen Brille haben sie 10 verschiedene KI-Modelle untersucht und drei erstaunliche Dinge entdeckt:

1. Die Bilder sind viel verständlicher als gedacht!
Bisher dachten alle, dass KI-Modelle Bilder nur als kryptischen „Rauschen" verarbeiten, das nicht in Worte zu fassen ist. LATENTLENS zeigt aber: Nein! Die meisten Bild-Teile sind sofort als klare, sinnvolle Sätze zu verstehen. Die KI „denkt" in Bildern, die sich fast wie beschreibende Sätze anfühlen.

2. Der „Sprung in die Mitte" (Mid-Layer Leap)
Das ist das coolste Detail. Stell dir vor, die KI liest einen Satz Wort für Wort. Am Anfang (Layer 0) ist ein Wort noch sehr roh. Erst nach ein paar Sätzen wird es klarer.

  • Die Überraschung: Wenn die KI ein Bild sieht, ist das Bild-Teil sofort so klar wie ein Wort, das die KI schon in der Mitte eines Satzes gelesen hat.
  • Die Analogie: Es ist, als würdest du einem Freund ein Foto zeigen und er würde sofort sagen: „Ah, das ist der Turm!" Er muss das Foto nicht erst langsam analysieren. Das Bild kommt in der KI schon so an, als wäre es ein fertiger Gedanke, der sich mitten in einem Gespräch befindet. Die KI muss das Bild nicht erst „übersetzen", sie versteht es sofort auf einer semantischen Ebene.

3. Warum ist das wichtig?

  • Keine Halluzinationen: Wenn wir verstehen, was die KI im Bild sieht, können wir besser verhindern, dass sie Dinge erfindet (z. B. eine Katze auf einem Bild, wo keine ist).
  • Bessere KI: Wir wissen jetzt, dass wir keine riesigen, komplizierten Übersetzer brauchen, um Bilder und Text zu verbinden. Ein einfacher „Brückenbauer" reicht, weil die KI-Bibliothekare die Bilder schon fast verstehen.

Zusammenfassung in einem Satz

LATENTLENS ist wie eine Übersetzer-Brille, die zeigt, dass KI-Modelle Bilder nicht als fremde, unverständliche Daten sehen, sondern als klare, beschreibende Sätze – und zwar viel früher und besser, als wir je gedacht hätten.

Die Forscher sagen im Grunde: „Wir dachten, die KI würde Bilder nur als Rauschen sehen. Aber mit der richtigen Brille sehen wir, dass sie die Bilder genau so versteht wie wir: als Geschichten."

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →