What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models

Diese Studie stellt mit dem Werkzeug EmbedLens fest, dass Multimodale Large Language Models (MLLMs) eine ausgeprägte semantische Spärlichkeit aufweisen, bei der nur etwa 60 % der visuellen Tokens („alive") relevante Bildinformationen tragen, wodurch die meisten internen visuellen Berechnungen als redundant entlarvt werden und eine effizientere Architektur durch Token-Pruning sowie die direkte Injektion in mittlere LLM-Schichten ermöglicht wird.

Yingqi Fan, Junlong Tong, Anhao Zhao, Xiaoyu Shen

Veröffentlicht 2026-03-03
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, ein Multimodales Großes Sprachmodell (MLLM) ist wie ein hochintelligenter Übersetzer, der Bilder in Worte verwandeln soll. Normalerweise denkt man, dass dieser Übersetzer jedes einzelne Pixel eines Bildes genau betrachtet und dann langsam versteht, was er sieht.

Aber diese Studie, die von Yingqi Fan und seinem Team durchgeführt wurde, enthüllt ein ganz anderes Geheimnis: Das Bild, das dem Übersetzer gegeben wird, ist voller „Lärm" und unnötiger Füllsel.

Hier ist die einfache Erklärung, was die Forscher herausgefunden haben, mit ein paar anschaulichen Vergleichen:

1. Das Bild ist wie ein überfüllter Bus mit drei Arten von Passagieren

Wenn ein Bild in das Modell eingespeist wird, wird es in viele kleine Stücke zerlegt (sogenannte „Tokens"). Die Forscher haben entdeckt, dass diese Passagiere in drei völlig unterschiedliche Gruppen fallen:

  • Die „Toten" (Dead Tokens): Das sind etwa 30 % der Passagiere. Sie sind wie leere Sitzplätze oder Leute, die nur dumm in die Gegend starren. Sie tragen keine Information über das Bild bei. Sie sind einfach da, weil das System sie so programmiert hat. Wenn man sie aus dem Bus wirft, passiert gar nichts – das Modell versteht das Bild sogar noch besser, weil es nicht mehr von diesen leeren Plätzen abgelenkt wird.
  • Die „Sink-Passagiere" (Sink Tokens): Das sind etwa 10 % der Passagiere. Stell dir sie wie Stammgäste vor, die immer auf demselben Platz sitzen, egal ob im Bus ein Sonnenuntergang oder ein Unfall abgebildet ist. Sie sind für die Struktur des Busses wichtig (damit der Motor läuft), aber sie erzählen nichts über das Bild. Auch sie kann man entfernen, ohne dass das Verständnis leidet.
  • Die „Lebenden" (Alive Tokens): Das sind die restlichen 60 %. Nur diese Passagiere tragen wirklich wichtige Informationen. Sie sind die einzigen, die sagen: „Hier ist ein Hund", „Das ist rot" oder „Hier steht 'Stop'".

Die große Erkenntnis: Das Bild ist zu 80 % mit unnötigem Ballast gefüllt! Das Modell braucht eigentlich nur die Hälfte der Daten, um alles zu verstehen.

2. Die lebenden Passagiere sind schon fast fertig

Man dachte bisher, das Sprachmodell müsse erst hart arbeiten, um aus den Bildstücken Sinn zu machen. Aber die Forscher fanden heraus: Die lebenden Passagiere sind bereits perfekt vorbereitet.

  • Der Vergleich: Stell dir vor, du schickst einen Brief an einen Freund. Normalerweise denkst du, der Freund muss den Brief erst lesen, entschlüsseln und verstehen.
  • Die Realität: In diesem Fall ist der Brief aber schon so perfekt formuliert, dass der Freund ihn sofort versteht, noch bevor er ihn richtig liest. Die Bild-Stücke enthalten die Informationen (Objekte, Farben, Text) bereits so klar, dass das Sprachmodell sie fast sofort „lesen" kann. Es muss nicht erst lange darüber nachdenken.

3. Der unnötige Umweg durch die ersten Etagen

Das Sprachmodell besteht aus vielen Schichten (wie Stockwerke in einem Wolkenkratzer). Früher dachte man, die Bild-Informationen müssen durch alle Stockwerke wandern, um verstanden zu werden.

  • Die Entdeckung: Die lebenden Passagiere sind so gut vorbereitet, dass sie die ersten Stockwerke (die unteren Schichten) gar nicht brauchen. Wenn sie dort hineingezwungen werden, verwirrt es sie nur.
  • Die Lösung: Es ist viel effizienter, diese Passagiere direkt in die mittleren Stockwerke zu bringen. Dort angekommen, können sie sofort mit dem Text-Teil des Modells reden. Die unteren Stockwerke sind für Bilder eigentlich nur Zeitverschwendung.

4. Ein neues Werkzeug: „EmbedLens"

Um das alles zu sehen, haben die Forscher ein neues Werkzeug namens EmbedLens entwickelt.

  • Der Vergleich: Stell dir vor, du hast einen Haufen verschlüsselter Daten. EmbedLens ist wie ein super-schneller Scanner, der sofort sagt: „Aha, dieses Stück gehört zu 'Hund', dieses hier ist nur Rauschen, und das hier ist ein leeres Sitzkissen."
  • Mit diesem Werkzeug konnten sie die drei Gruppen (Tot, Sink, Lebendig) genau identifizieren und zeigen, wie viel Platz man sparen kann.

Warum ist das wichtig?

Diese Entdeckungen sind wie ein großes Aufräumprojekt für KI-Modelle:

  1. Schneller: Wenn man die „toten" und „sink"-Passagiere weglässt, muss das Modell weniger rechnen. Das macht es schneller und spart Energie.
  2. Besser: Weniger Ablenkung durch unnötige Daten bedeutet, dass das Modell seltener Halluzinationen hat (also Dinge erfindet, die nicht da sind).
  3. Einfacher: Man kann die Architektur von KI-Modellen vereinfachen, indem man die Bild-Informationen direkt in die Mitte des Modells injiziert, statt sie durch einen langen, unnötigen Tunnel zu schicken.

Zusammenfassend:
Die Forscher haben gezeigt, dass unsere KI-Bild-Versteher bisher wie ein Student waren, der versucht, ein Buch zu lesen, das zu 80 % aus leeren Seiten besteht. Wenn man diese leeren Seiten einfach weglässt und den Studenten direkt zum wichtigsten Kapitel führt, lernt er schneller, macht weniger Fehler und braucht weniger Energie.