Pyramid Token Pruning for High-Resolution Large Vision-Language Models via Region, Token, and Instruction-Guided Importance

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen riesigen, hochauflösenden Fotoalbum mit Tausenden von Bildern. Ein sehr intelligenter, aber etwas langsamer Freund (der sogenannte „Large Vision-Language Model" oder LVLM) soll Ihnen dazu Fragen beantworten.

Das Problem: Wenn Sie ihm das ganze Album auf einmal zeigen, wird er überfordert. Er versucht, jedes einzelne Pixel jedes Bildes zu analysieren, egal ob es ein wichtiges Detail ist oder nur ein unscharfer Hintergrund. Das kostet ihn unglaublich viel Zeit und Energie (Rechenleistung), und er wird dabei müde.

Die Forscher aus diesem Papier haben eine clevere Lösung namens PTP (Pyramid Token Pruning) entwickelt. Man kann sich das wie einen sehr effizienten Assistenten vorstellen, der dem Freund hilft, das Album zu durchsuchen.

Hier ist die Erklärung in einfachen Schritten mit ein paar Analogien:

1. Das Problem: Der „Wust" an Informationen

Normalerweise schneidet man ein großes Bild in viele kleine Kacheln (wie bei einem Puzzle), damit der Computer sie besser verarbeiten kann. Aber das Ergebnis sind Tausende von kleinen „Brocken" (Tokens). Der Computer muss jeden einzelnen prüfen, auch die, die gar nicht wichtig sind (z. B. der blaue Himmel im Hintergrund, wenn man nach einem roten Auto fragt). Das ist wie wenn Sie versuchen, eine Nadel im Heuhaufen zu finden, indem Sie jeden einzelnen Halm einzeln untersuchen.

2. Die Lösung: Der dreistufige Filter (PTP)

Die Autoren von PTP haben einen Prozess erfunden, der wie ein drei-stufiger Sieb funktioniert, um nur die wichtigen Teile durchzulassen.

Stufe 1: Der „Blick auf das Ganze" (Region-Level)

Stellen Sie sich vor, Sie schauen auf eine Landkarte. Bevor Sie in die Details gehen, fragen Sie sich: „Wo ist überhaupt das Interessante?"

Wie es funktioniert: Der Assistent schaut sich die verschiedenen Kacheln des Bildes an. Wenn eine Kachel einen wichtigen Ort zeigt (z. B. eine Straßenszene), bekommt sie mehr Aufmerksamkeit. Wenn eine Kachel nur eine leere Wand zeigt, bekommt sie weniger.
Die Analogie: Es ist wie ein Tourist, der zuerst die Stadtteile auswählt, die er besuchen will, und die langweiligen Vororte ignoriert.

Stufe 2: Der „Mikroskop-Blick" (Token-Level)

Jetzt, wo wir wissen, welche Kacheln wichtig sind, schauen wir uns die Details darin an.

Wie es funktioniert: Selbst in einer wichtigen Kachel gibt es unwichtige Teile. Der Assistent nutzt die „Augen" des Computers (die Aufmerksamkeitsmechanismen), um zu sehen, welche kleinen Bildteile sich am meisten bewegen oder hervorstechen.
Die Analogie: Sie sind in einem belebten Marktplatz (der wichtigen Kachel). Sie schauen nicht auf jeden einzelnen Stein auf dem Boden, sondern nur auf die Menschen, die sich bewegen oder etwas halten.

Stufe 3: Der „Fragesteller" (Instruction-Guided)

Das ist der geniale Teil. Bisher haben wir nur geschaut, was optisch auffällig ist. Aber was, wenn die Frage etwas ganz Spezifisches ist?

Wie es funktioniert: Der Assistent liest Ihre Frage (z. B. „Wo ist der rote Ball?"). Er ignoriert dann alles, was nicht mit dem roten Ball zu tun hat, selbst wenn es optisch sehr auffällig ist (z. B. ein riesiger blauer Himmel).
Die Analogie: Wenn Sie nach Ihrem Schlüssel suchen, schauen Sie nicht auf den schönen Blumenstrauß auf dem Tisch, auch wenn er bunt ist. Sie schauen nur dort hin, wo Sie Ihren Schlüssel vermuten. Der Assistent passt seinen Fokus also an Ihre Frage an.

3. Das Ergebnis: Schnell und schlau

Durch diese Kombination aus „Was sieht gut aus?" (Stufe 1 & 2) und „Was wird gefragt?" (Stufe 3) kann der Computer die Hälfte (oder mehr) der Bildinformationen wegwerfen, ohne etwas Wichtiges zu verlieren.

Geschwindigkeit: Der Freund antwortet viel schneller, weil er weniger Daten verarbeiten muss.
Speicher: Er braucht weniger Platz im Gedächtnis (wie ein Rucksack, der leichter wird, weil man unnötige Steine herauswirft).
Genauigkeit: Er macht fast genauso viele richtige Antworten wie vorher, manchmal sogar bessere, weil er sich weniger durch unnötiges Gerede ablenken lässt.

Zusammenfassung in einem Satz

PTP ist wie ein kluger Butler, der für Sie das riesige Bildmaterial vorsortiert: Er wirft den Müll weg, behält die wichtigen Details und passt den Fokus genau an Ihre Frage an, damit Ihr Computer-Genie schnell und präzise antworten kann, ohne sich zu verausgaben.

Das Tolle an dieser Methode ist, dass man den Computer-Genie nicht neu trainieren muss – der Butler passt sich einfach an, was ihn sehr einfach in bestehende Systeme einbaubar macht.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Große Vision-Language-Modelle (LVLMs) haben zwar beeindruckende multimodale Verständnisfähigkeiten entwickelt, stoßen jedoch bei der Verarbeitung hochauflösender Bilder an Effizienzgrenzen. Um feine visuelle Details zu erfassen, werden hochauflösende Bilder oft in mehrere Sub-Bilder (Tiles) zerlegt. Dies führt jedoch zu einer massiven Explosion der Anzahl visueller Tokens, was den Inferenzaufwand, die Latenz und den GPU-Speicherbedarf drastisch erhöht.

Ein zentrales Problem ist die hohe Redundanz: Studien zeigen, dass LVLMs nur einen winzigen Bruchteil der visuellen Tokens tatsächlich für die Ausgabe nutzen (z. B. nur ca. 0,2 % der Aufmerksamkeit im Vergleich zu Text-Tokens). Bestehende Lösungsansätze haben jedoch Mängel:

Trainingsbasierte Methoden: Erfordern oft zusätzliche Trainingsdaten oder Modellanpassungen, was die Plug-and-Play-Fähigkeit einschränkt.
Text-unabhängige Pruning-Methoden: Pruning vor dem LLM (z. B. basierend auf CLS-Attention) ignoriert die spezifische Aufgabe und kann wichtige Tokens entfernen, die für eine bestimmte Frage entscheidend sind.
Text-basierte Methoden innerhalb des LLM: Nutzen zwar Kreuzmodalitäts-Informationen, übersehen aber oft die rein visuelle Salienz (Bedeutung) des Encoders.

2. Methodik: Pyramid Token Pruning (PTP)

Die Autoren schlagen Pyramid Token Pruning (PTP) vor, eine training-freie, plug-and-play Strategie, die visuelle Salienz (Bottom-Up) mit instruktionsgesteuerter Relevanz (Top-Down) hierarchisch integriert. Inspiriert von der menschlichen visuellen Kognition (erst grobe Regionen, dann Details), besteht der Prozess aus drei Stufen:

A. Region-Level-Bewertung (Bottom-Up)

Das hochauflösende Bild wird in ein Raster von Sub-Bildern unterteilt. Für jedes Sub-Bild wird eine visuelle Salienz-Score berechnet, indem die Kosinus-Ähnlichkeit zwischen dem CLS-Token des Sub-Bildes und dem CLS-Token des globalen Thumbnails gemessen wird.

Ziel: Bestimmung, welche Bildregionen für das Gesamtbild semantisch am wichtigsten sind.
Aktion: Das Token-Budget wird pro Region basierend auf diesem Score verteilt. Wichtige Regionen erhalten mehr Tokens, unwichtige weniger.

B. Token-Level-Bewertung (Bottom-Up)

Innerhalb jeder zugewiesenen Region werden einzelne Patch-Tokens bewertet.

Methode: Nutzung der Self-Attention-Mechanismen des Vision-Encoders (ViT). Der Attention-Score vom CLS-Token zu jedem Patch-Token in einer mittleren Schicht des Encoders dient als Maß für die intrinsische visuelle Bedeutung.
Ziel: Identifikation redundanter Tokens innerhalb einer bereits als wichtig erachteten Region.

C. Instruktionsgesteuerte Bewertung (Top-Down)

Um sicherzustellen, dass tokens, die für die spezifische Benutzeranfrage relevant sind, nicht entfernt werden, wird eine Top-Down-Bewertung eingeführt.

Methode: Analyse der Attention-Gewichte von den Text-Token der Instruktion zu den visuellen Tokens in den frühen Schichten des LLM.
Score: Der maximale Attention-Wert, den ein visueller Token von einem beliebigen Instruktions-Token erhält, wird als Relevanz-Score ( $c_j$ ) genutzt.
Ziel: Sicherstellung, dass visuelle Beweise, die direkt mit der Frage verknüpft sind, erhalten bleiben.

D. Adaptive Fusion und Pruning

Die Scores werden kombiniert, um einen finalen Pruning-Plan zu erstellen:

Ein finaler Score $s_j$ wird berechnet: $s_j = \alpha \cdot c_j + (1-\alpha) \cdot b_j^{(i)}$ , wobei $b_j^{(i)}$ der Bottom-Up Token-Score und $\alpha$ ein Hyperparameter ist, der das Gleichgewicht zwischen Text- und Bildfokus steuert.
Basierend auf dem zugewiesenen Budget pro Region werden die Tokens mit den höchsten Scores $s_j$ behalten, der Rest wird verworfen.

3. Schlüsselbeiträge

Bottom-Up Token Pruning: Entwicklung eines pyramidenförmigen Mechanismus, der visuelle Salienz auf Region- und Token-Ebene nutzt, um Redundanz ohne Nachtraining zu eliminieren.
Top-Down Token Pruning: Einführung einer instruktionsbewussten Phase, die sicherstellt, dass aufgabenrelevante Informationen nicht durch rein visuelle Filter verloren gehen.
Umfassende Evaluation: Demonstration der Wirksamkeit auf 13 verschiedenen Benchmarks mit den Modellen InternVL2-2B und InternVL2-8B.
Erkenntnisse: Die Arbeit zeigt, dass das optimale Verhältnis zwischen Bottom-Up und Top-Down prunning task-abhängig ist (z. B. mehr Bottom-Up für OCR, mehr Top-Down für offene Szenenverständnis).

4. Ergebnisse

Die Experimente wurden auf 13 Benchmarks (General VQA, OCR, Comprehensive, Others) durchgeführt:

Leistungserhalt: PTP reduziert die Anzahl der visuellen Tokens um 50 %, während die Genauigkeit im Durchschnitt bei 99,8 % (bei InternVL2-2B) bzw. 99,7 % (bei InternVL2-8B) des ungeschnittenen Basismodells liegt.
Leistungssteigerung: In einigen Fällen (z. B. AI2D, MME, POPE) übertrifft PTP sogar das Vollmodell, da das Entfernen von Rauschen den Fokus auf relevante Inhalte schärft.
Vergleich mit SOTA: PTP schneidet auf allen 13 Benchmarks besser ab als bestehende Methoden wie VTW, PDrop, FastV oder G-Search.
Effizienzgewinn:
- Reduktion der Inferenzzeit von 325,7 ms auf 187,4 ms (bei 50 % Pruning).
- Reduktion der FLOPs um ca. 52,5 %.
- Deutliche Senkung des GPU-Speicherbedarfs (von 24,6 GB auf 20,9 GB) und der KV-Cache-Größe.

5. Bedeutung und Ausblick

PTP adressiert das fundamentale Dilemma zwischen hoher Auflösung und Recheneffizienz in LVLMs. Durch die Kombination von grober Regionenzuweisung, feiner Token-Auswahl und kontextueller Instruktionsanalyse bietet PTP eine robuste, training-freie Lösung, die den Einsatz von LVLMs auf ressourcenbeschränkter Hardware ermöglicht.

Die Studie liefert zudem wichtige Einblicke in die Natur visueller Tokens: Je nach Aufgabe (z. B. Texterkennung vs. komplexe Szenenanalyse) variieren die optimalen Strategien zur Token-Auswahl. Als zukünftige Arbeit schlagen die Autoren adaptive Strategien vor, bei denen der Mischparameter $\alpha$ dynamisch an die Eingabe oder Aufgabe angepasst wird, um die Effizienz weiter zu optimieren.