When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der Forschung, als würde man sie einem Freund beim Kaffee erzählen – ohne komplizierte Fachbegriffe.

Das große Problem: Der überfüllte Rucksack

Stell dir vor, du hast einen riesigen Rucksack (das ist die Künstliche Intelligenz, genauer gesagt ein "Vision Large Language Model" oder VLLM). Wenn du ihm ein Foto zeigst, packt dieser Rucksack das Bild nicht einfach als Ganzes hinein. Stattdessen schneidet er das Bild in hunderte kleine Puzzleteile (die sogenannten Tokens) und packt jedes einzelne davon in den Rucksack.

Das Problem: Der Rucksack wird so schwer, dass er kaum noch laufen kann. Die KI braucht ewig, um eine Antwort zu geben, weil sie sich durch diesen ganzen "Müll" arbeiten muss.

Die bisherige Lösung: Der clevere Aufräumer

Bisher haben Forscher versucht, diesen Rucksack zu erleichtern, indem sie einen "cleveren Aufräumer" (Token Pruning) eingebaut haben. Dieser Aufräumer sollte entscheiden: "Welche Puzzleteile sind wichtig? Welche sind nur unnötiger Ballast?"
Er sollte also die wichtigen Teile behalten und den Rest wegwerfen, damit der Rucksack leichter wird.

Die überraschende Entdeckung: Ab einem bestimmten Punkt ist "Wahllos" besser als "Klug"

Die Forscher in diesem Papier haben etwas Verblüffendes entdeckt:
Der "clevere Aufräumer" funktioniert super, solange wir uns am Anfang des Bildes befinden (in den ersten Schichten des Netzwerks). Dort weiß er genau, welche Teile wichtig sind (z. B. das Gesicht einer Person) und welche nicht (der Hintergrund).

Aber: Je tiefer man in den Rucksack hineingreift (in den tieferen Schichten des Netzwerks), desto dümmer wird der Aufräumer.
Ab einem bestimmten Punkt (etwa nach der 20. Schicht) ist es dem Aufräumer egal, was er wegwirft. Er kann gar keine wichtigen Teile mehr finden, weil die Informationen dort oben bereits "verblasst" sind.

Die Metapher: Stell dir vor, du hast eine Nachricht in einem Briefkasten.

Schicht 1-10: Der Brief ist frisch, die Tinte ist klar. Ein cleverer Sortierer kann genau sagen, welcher Brief wichtig ist.
Schicht 20+: Der Brief liegt schon ewig da, die Tinte ist verblasst, das Papier ist zerknittert. Alle Briefe sehen jetzt gleich aus. Wenn du jetzt versuchst, die "wichtigsten" zu finden, ist es genauso gut, wenn du einfach blind (zufällig) einige wegwirfst. Der clevere Sortierer bringt keinen Vorteil mehr – er ist genauso gut wie ein Zufallsgenerator.

Der neue Begriff: Die "Informations-Horizont"

Die Forscher nennen diesen Wendepunkt den "Informations-Horizont".

Darunter: Die Puzzleteile haben noch viel zu sagen. Hier muss man sorgfältig auswählen.
Darüber: Die Puzzleteile sind "leer". Sie tragen keine neuen Informationen mehr bei. Man kann sie alle wegwerfen, ohne dass die KI etwas verpasst.

Aber Vorsicht: Dieser Horizont ist nicht für alle gleich!

Je schwieriger die Aufgabe, desto tiefer geht der Horizont: Wenn die KI nur fragen soll "Ist das ein Hund?", reicht der Horizont bald. Wenn sie aber lesen soll "Was steht auf diesem kleinen Schild im Bild?" (OCR), muss sie tiefer graben, weil die Details dort noch wichtig sind.
Je stärker die KI, desto tiefer geht der Horizont: Eine sehr starke KI (wie Qwen-2.5-VL) kann noch tief im Rucksack wichtige Details finden, während eine schwächere KI (wie LLaVA-1.5) schon früher den Horizont erreicht.

Die geniale Lösung: "Der Zufall ist der neue Freund"

Da der clevere Aufräumer in den tiefen Schichten eh nichts Besseres kann als der Zufall, schlagen die Forscher eine neue Strategie vor:

Mische die Methoden!

Oben im Rucksack (flache Schichten): Nutze den cleveren Aufräumer, um die wirklich wichtigen Teile zu behalten.
Unten im Rucksack (tiefe Schichten): Werfe einfach zufällig Teile weg.

Warum ist das toll?

Es ist schneller: Der Computer muss nicht mehr rechnen, um zu entscheiden, was wichtig ist. Er wirft einfach blind weg.
Es ist genau: Da die Teile dort eh keine Information mehr haben, geht nichts verloren.
Es ist effizient: In Tests hat diese Mischung ("DivPrune + Random") die besten Ergebnisse geliefert. Sie hat die Leistung der KI fast vollständig erhalten (96,9%), aber die Hälfte der Puzzleteile weggeworfen.

Fazit in einem Satz

Statt zu versuchen, in den tiefen Schichten der KI klug zu entscheiden, was man wegwirft, ist es besser, einfach zufällig zu löschen – denn dort ist eh alles gleich "leer". Das macht die KI schneller, ohne dass sie dümmer wird.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs" auf Deutsch:

1. Problemstellung

Vision Large Language Models (VLLMs) wie LLaVA oder Qwen-VL erreichen beeindruckende Ergebnisse in multimodalen Aufgaben, leiden jedoch unter hohen Rechenkosten. Dies liegt daran, dass Bilder in hunderte oder tausende visuelle Tokens kodiert werden, die den Eingabesequenzumfang dominieren und die Inferenzgeschwindigkeit erheblich verlangsamen.

Zwar gibt es bereits trainingsfreie Token-Pruning-Methoden (basierend auf Wichtigkeit oder Diversität), um diese Redundanz zu reduzieren, doch die Autoren beobachten ein kritisches Phänomen: In den tieferen Schichten des Sprach-Decoders (z. B. ab der 20. Schicht) performen existierende Pruning-Methoden nicht besser als einfaches zufälliges Pruning (Random Pruning). Dies wirft die Frage auf, ob diese komplexen Algorithmen in tiefen Schichten überhaupt noch relevante Informationen identifizieren können oder ob die visuellen Tokens dort ihre Bedeutung bereits verloren haben.

2. Methodik

Definition von „Visueller Token-Information"

Um die Rolle der Tokens zu verstehen, schlagen die Autoren eine neue Metrik zur Quantifizierung der Informationsmenge eines visuellen Tokens vor.

Messprinzip: Die Information eines Tokens $V_k$ in einer bestimmten Schicht $i$ wird als die Änderung der Ausgabewahrscheinlichkeit des Modells für das Ground-Truth-Label definiert, wenn dieser spezifische Token entfernt wird.
Verfahren:
1. Alle visuellen Tokens außer dem Ziel-Token werden in Schicht $i$ maskiert (entfernt).
2. Die Wahrscheinlichkeit für das korrekte Label wird berechnet ( $p_k$ ).
3. Anschließend wird auch der Ziel-Token entfernt, sodass das Modell nur noch auf Text-Tokens basiert ( $p_{text}$ ).
4. Die Information ist definiert als: $I_i(V_k) = p_k - p_{text}$ .

Analyse der Informationstiefe

Mithilfe dieser Metrik analysieren die Autoren, wie sich die Information der visuellen Tokens über die Schichten hinweg verteilt. Sie untersuchen, ob und wann die Information „verschwindet" und ob dies von der Aufgabenkomplexität oder der Modellkapazität abhängt.

3. Schlüsselbeiträge und Erkenntnisse

Die Studie führt drei zentrale Erkenntnisse vor:

Das Phänomen des „Informationshorizonts" (Information Horizon):
Die Information visueller Tokens wird mit zunehmender Tiefe des Netzwerks zunehmend uniform und verschwindet schließlich in einer mittleren Schicht vollständig (nahe Null). Ab diesem Punkt, dem „Informationshorizont", sind die verbleibenden visuellen Tokens redundant. Das Entfernen aller Tokens ab dieser Schicht beeinträchtigt die Modellleistung nicht.
Dynamische Position des Horizonts:
Die Lage dieses Horizonts ist nicht statisch, sondern wird von zwei Faktoren bestimmt:
- Visuelle Komplexität der Aufgabe: Aufgaben, die detaillierte visuelle Analyse erfordern (z. B. OCR – Optische Zeichenerkennung), nutzen visuelle Informationen in tieferen Schichten als allgemeine Aufgaben (z. B. Wissens-Frage-Antwort). Der Horizont liegt hier also tiefer (z. B. Schicht 27 vs. Schicht 20).
- Modellkapazität: Stärkere Modelle (z. B. Qwen2.5-VL) können informative visuelle Tokens in tieferen Schichten nutzen als schwächere Modelle (z. B. LLaVA-1.5).
Überlegenheit von Random Pruning in tiefen Schichten:
Da die Information in tiefen Schichten uniform gegen Null geht, ist die Unterscheidung zwischen „wichtigen" und „unwichtigen" Tokens unmöglich. Daher performen komplexe Pruning-Algorithmen (wie Attention-basierte Methoden) in diesen Schichten nicht besser als zufälliges Entfernen.

4. Ergebnisse

Basierend auf diesen Erkenntnissen schlagen die Autoren eine hybride Strategie vor: Kombination von existierenden Pruning-Methoden in flachen Schichten mit Random Pruning in tiefen Schichten.

Leistung: Diese Kombination (z. B. DivPrune + Random oder DART + Random) führt zu State-of-the-Art-Ergebnissen.
- Bei Qwen2.5-VL-7B wird bei 50% Token-Pruning eine Leistung von 96,9% des Originalmodells erreicht (im Vergleich zu 92,7% bei reinem DART).
- Bei LLaVA-1.5-7B verbessert sich die Leistung auf MMBench um 6,7% (von 54,6% auf 61,3%) im Vergleich zu reinem DivPrune.
Effizienz: Die Methode ermöglicht eine signifikante Reduktion der FLOPs und der Inferenz-Latenz.
- Beispiel LLaVA-1.5-7B: Bei 88,9% Pruning-Ratio (nur 64 Tokens verbleibend) reduziert sich die Latenz auf 0,6-fache der Originalzeit bei Erhalt von 91,6% der Leistung.
- Die Methode ist kompatibel mit schnellen Attention-Implementierungen wie FlashAttention, was bei reinen Attention-basierten Pruning-Methoden oft nicht der Fall ist.
Vergleich mit VTW (Visual Token Withdrawal): Im Gegensatz zu VTW, das alle visuellen Tokens ab einer festen Schicht entfernt, erlaubt die Kombination mit Random Pruning, eine kleine Teilmenge von Tokens in den tiefen Schichten zu behalten. Dies führt bei komplexen Aufgaben (OCR, TextVQA) zu deutlich besseren Ergebnissen als das vollständige Entfernen.

5. Bedeutung und Fazit

Das Paper liefert einen fundamentalen Einblick in die Funktionsweise von VLLMs:

Es widerlegt die Annahme, dass komplexe Pruning-Strategien in allen Schichten überlegen sind.
Es etabliert das Konzept des Informationshorizonts, der von der Aufgabe und dem Modell abhängt.
Es zeigt, dass Random Pruning in den tiefen Schichten nicht nur akzeptabel, sondern oft die effizienteste und effektivste Strategie ist, da es Rechenzeit spart, ohne die Leistung zu beeinträchtigen.

Die vorgeschlagene Methode bietet einen praktischen Weg, um die Effizienz von VLLMs drastisch zu steigern, ohne auf die Leistungsfähigkeit bei komplexen visuellen Aufgaben verzichten zu müssen. Der Code ist öffentlich verfügbar, um diese Erkenntnisse weiter zu validieren und anzuwenden.