VLM-Pruner: Buffering for Spatial Sparsity in an Efficient VLM Centrifugal Token Pruning Paradigm

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, ein Vision-Language Model (VLM) ist wie ein extrem neugieriger, aber etwas überforderter Detektiv. Wenn du ihm ein Foto zeigst, schaut er sich nicht nur das Wichtigste an, sondern zerlegt das gesamte Bild in tausende winzige Puzzleteile (sogenannte "Tokens"). Jedes Teil wird analysiert, um die Geschichte des Bildes zu verstehen.

Das Problem: Bei hochauflösenden Bildern oder Videos sind diese Puzzleteile so zahlreich, dass der Detektiv (das KI-Modell) fast erstickt. Es braucht unendlich viel Rechenleistung und Zeit, um all diese Teile zu verarbeiten. Das macht es unmöglich, solche KI-Modelle auf Handys oder kleinen Geräten laufen zu lassen.

Bisherige Versuche, die KI zu beschleunigen, waren wie ein ungeschickter Gärtner, der versucht, das Unkraut zu jäten:

Die "Wichtigkeits"-Methode: Sie schaut nur, welche Teile am hellsten oder auffälligsten sind. Das Problem: Sie behält oft fünf fast identische Blätter an einer Pflanze, wirft aber die Wurzeln weg. Es bleibt viel Redundanz (Doppeltarbeit).
Die "Vielfalt"-Methode: Sie versucht, so unterschiedliche Teile wie möglich zu behalten. Das Problem: Der Gärtner pflückt ein Blatt von der linken Seite, eins von der rechten und eins von oben. Das Bild wird zersplittert, und wichtige Details (wie das Gesicht einer Person) gehen verloren, weil die Teile zu weit voneinander entfernt sind.

Die Lösung: VLM-Pruner – Der kluge "Zentrifugen"-Gärtner

Die Autoren dieses Papers haben VLM-Pruner entwickelt. Man kann sich das wie einen klugen Gärtner mit einem speziellen Werkzeug vorstellen, der nach einem ganz bestimmten Prinzip arbeitet: "Von innen nach außen" (Zentrifugal).

Hier ist, wie er es macht, einfach erklärt:

1. Der Startpunkt: Die "Anker" (Pivot Tokens)

Statt willkürlich zu beginnen, sucht der Gärtner zuerst ein paar wenige, sehr unterschiedliche "Anker-Punkte" im Bild. Das sind die wichtigsten Bereiche, die das Bild grob abdecken (z. B. "da ist ein Auto", "da ist ein Baum").

2. Das Herzstück: Der "Puffer für räumliche Dichte" (BSS)

Das ist die geniale Idee des Papers. Anstatt sofort zum nächsten beliebigen Teil des Bildes zu springen, sagt der Gärtner: "Wenn ich schon hier bin, schaue ich mir zuerst die unmittelbare Nachbarschaft an."

Die Analogie: Stell dir vor, du suchst nach Schätzen auf einem großen Feld.
- Ein schlechter Gärtner (andere Methoden) springt zufällig von Schatz A zu Schatz Z, überspringt aber alles dazwischen.
- Der VLM-Pruner sagt: "Ich habe Schatz A gefunden. Bevor ich zum nächsten springe, suche ich gründlich in der Nähe von A, weil dort wahrscheinlich noch mehr Details zu A versteckt sind."
- Er füllt also erst die Lücken um die Anker herum auf, bevor er weiter nach außen wandert. Das sorgt dafür, dass Objekte (wie ein Auto oder ein Gesicht) nicht zersplittert werden, sondern als Ganzes erhalten bleiben.

3. Die Rettung: Der "Rückhol-Service" (SWA)

Am Ende des Prozesses gibt es noch viele kleine Puzzleteile, die der Gärtner verworfen hat, weil sie "zu weit weg" oder "zu ähnlich" waren. Aber vielleicht enthielten sie noch ein winziges, wichtiges Detail?
Der VLM-Pruner ist nicht so hart. Er nimmt diese verworfenen Teile, schaut, welchem der behandelten Teile sie am ähnlichsten sind, und mischt ihre Informationen sanft in die behandelten Teile ein. Es ist, als würde man den Saft der verworfenen Blätter in die behandelten Blätter pressen, damit nichts an Geschmack verloren geht.

Warum ist das so toll?

Es ist kostenlos: Du musst das KI-Modell nicht neu trainieren. Es funktioniert sofort ("Training-free").
Es ist schnell: Weil weniger Teile verarbeitet werden müssen, läuft die KI auf dem Handy viel schneller.
Es ist genauer: Besonders bei Aufgaben, bei denen es auf Details ankommt (z. B. "Ist auf dem Teller ein sauberer Löffel?" oder "Was steht auf diesem kleinen Schild?"), ist VLM-Pruner unschlagbar. Andere Methoden verlieren diese Details, weil sie zu sehr auf "Vielfalt" statt auf "Zusammenhang" achten.

Zusammenfassend:
Stell dir VLM-Pruner wie einen effizienten Bibliothekar vor. Wenn du ein Buch (das Bild) lesen willst, sortiert er nicht einfach die Seiten nach Farbe (Wichtigkeit) oder wirft sie wild durcheinander (Vielfalt). Stattdessen liest er Seite für Seite, Kapitel für Kapitel, und stellt sicher, dass keine wichtigen Sätze aus dem Kontext gerissen werden. Er wirft nur das wirklich Überflüssige weg, behält aber die Geschichte des Bildes intakt – und das alles in einem Bruchteil der Zeit.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Vision-Language Models (VLMs) wie LLaVA oder Qwen-VL sind in der Bild- und Videoanalyse sehr leistungsfähig, leiden jedoch unter einem hohen Rechenaufwand. Dies liegt daran, dass hochauflösende Bilder oder Videoframes in eine enorme Anzahl visueller Tokens (oft hunderte oder tausende) zerlegt werden, die dann in den Transformer-Layers des Large Language Models (LLM) verarbeitet werden. Da die Aufmerksamkeit (Attention) quadratische Komplexität aufweist, führt dies zu Ineffizienzen, die den Einsatz auf mobilen Geräten oder in Echtzeitsystemen erschweren.

Bestehende Token-Pruning-Methoden (das Entfernen unwichtiger Tokens) haben zwei Hauptmängel:

Importanz-getriebene Methoden (z. B. FastV, SparseVLM): Sie behalten oft viele redundante Tokens bei, die sich auf denselben lokalen Bereich konzentrieren, und ignorieren die räumliche Verteilung.
Redundanz-reduzierende Methoden (z. B. DART, DivPrune): Sie wählen Tokens basierend auf geringer Ähnlichkeit aus, was zu einer stark zerstreuten (dispersen) Auswahl führt. Dabei werden wichtige feinkörnige Details von Objekten (z. B. Kanten oder Text) oft übersehen, da Tokens am Rand oder im Hintergrund fälschlicherweise bevorzugt werden.

Das Ziel ist es, eine Methode zu entwickeln, die sowohl die Redundanz minimiert als auch die räumliche Kohärenz und die Detailtreue der verbleibenden Tokens erhält.

2. Methodik: VLM-Pruner

Die Autoren schlagen VLM-Pruner vor, einen training-freien (training-free) Ansatz, der auf einem zentrifugalen Token-Pruning-Paradigma basiert. Das Prinzip folgt einer „von-nahe-zu-weit"-Strategie (near-to-far), beginnend mit Pivot-Token und expandierend nach außen, um lokale Details zu erhalten.

Der Prozess besteht aus drei Hauptphasen:

A. Pivot-Initialisierung (Stage 1)

Zunächst wird eine kleine Menge an „Pivot-Token" ausgewählt, die verschiedene semantische Regionen des Bildes grob abdecken.

Dies geschieht mittels einer Max-Min-Strategie im Raum der Token-Keys (K).
Es werden $\kappa$ Token ausgewählt, die maximalen Abstand zueinander haben, um eine diverse Abdeckung der Bildinhalte zu gewährleisten, ohne redundante Regionen zu wählen.

B. Greedy-Auswahl mit BSS-Kriterium (Stage 2)

Dies ist das Kernstück der Methode. Anstatt einfach die ähnlichsten oder unähnlichsten Token zu wählen, wird ein Buffering for Spatial Sparsity (BSS) Kriterium eingeführt.

Ziel: Die Auswahl soll räumlich geordnet erfolgen, um die Zerstreutheit zu vermeiden.
Mechanismus: Für jeden Kandidaten-Token wird die räumliche Distanz zu den bereits ausgewählten Tokens berechnet. Die Ähnlichkeit (Cosine Similarity) wird durch einen Faktor modifiziert, der die räumliche Distanz bestraft.
- Formel: $f(M_{ij}) = M_{ij} \cdot (1 + \lambda \cdot \bar{\delta}_i(S))$
- Dabei ist $\bar{\delta}_i(S)$ die normalisierte Distanz zum nächsten ausgewählten Token.
Effekt: Tokens, die räumlich weit von den bereits gewählten entfernt sind, erhalten einen höheren Ähnlichkeitswert (werden als redundanter eingestuft) und werden zurückgestellt. Tokens in der Nachbarschaft der bereits gewählten werden bevorzugt. Dies erzwingt eine dichte, lokale Abdeckung, bevor sich die Auswahl nach außen ausbreitet.
Die Auswahl erfolgt parallel in Batches, um die Effizienz zu steigern.

C. Wiederherstellung durch Ähnlichkeitsgewichtete Aggregation (Stage 3 / SWA)

Um Informationsverluste durch das Entfernen von Tokens zu kompensieren, werden die verworfenen Tokens nicht einfach ignoriert.

Jeder verworfene Token wird dem ähnlichsten verbleibenden Token zugeordnet.
Die versteckten Zustände (Hidden States) der verworfenen Tokens werden gewichtet (basierend auf ihrer Ähnlichkeit) und in den verbleibenden Token aggregiert (Similarity-Weighted Aggregation, SWA).
Dies ermöglicht es, komplementäre semantische Informationen aus den entfernten Tokens zu retten, ohne die Token-Anzahl zu erhöhen.

3. Schlüsselbeiträge

Zentrifugales Paradigma: Ein neuer Ansatz für Token-Pruning, der die räumliche Nachbarschaft explizit priorisiert, um eine „von-nahe-zu-weit"-Auswahl zu gewährleisten.
BSS-Kriterium (Buffering for Spatial Sparsity): Eine innovative Metrik, die die räumliche Distanz in die Ähnlichkeitsberechnung einbezieht, um eine chaotische, zerstreute Token-Verteilung zu verhindern und feinkörnige Details zu erhalten.
Training-Freiheit: Die Methode benötigt kein erneutes Training des VLM, was sie universell auf verschiedene Modelle anwendbar macht.
SWA-Mechanismus: Eine effektive Technik zur Wiedergewinnung von Informationen aus verworfenen Tokens.

4. Ergebnisse

Die Autoren haben VLM-Pruner auf 5 verschiedenen VLMs (LLaVA-1.5-7B/13B, LLaVA-Next-7B, Qwen2-VL-7B, LLaVA-Video-7B) und 13 Benchmarks (9 Bild-Sprache, 4 Video-Sprache) evaluiert.

Leistung: Bei extrem hohen Pruning-Raten (bis zu 88,9%, d.h. nur 11,1% der Tokens bleiben) übertrifft VLM-Pruner konsistent starke Baselines (wie FastV, DART, DivPrune).
- Auf LLaVA-1.5-7B erreicht es bei 88,9% Pruning eine durchschnittliche Leistung von 95,61% der Originalleistung (Upper Bound), während andere Methoden oft unter 90% fallen.
- Besonders stark ist die Verbesserung bei Aufgaben, die feine Details erfordern, wie OCRBench (Texterkennung) und GQA (visuelles Schlussfolgern).
Effizienz: Die Methode bietet signifikante Beschleunigungen (Speedup) bei der Inferenz (bis zu 1,60-fach schneller auf Qwen2-VL) und reduziert die FLOPs erheblich, ohne die Genauigkeit proportional zu verlieren.
Video: Auch bei Video-VLMs (LLaVA-Video) zeigt sich eine robuste Leistung, da das BSS-Kriterium auch in 3D-Koordinaten (Höhe, Breite, Zeit) funktioniert.

5. Bedeutung und Fazit

VLM-Pruner adressiert eine kritische Lücke in der Effizienzsteigerung von Multimodal-Modellen. Während frühere Ansätze entweder zu viel Redundanz ließen oder zu viele Details verloren, bietet dieser Ansatz einen optimalen Kompromiss durch die explizite Modellierung der räumlichen Sparsamkeit.

Die Bedeutung liegt in:

Praktischer Anwendbarkeit: Durch das „Training-Free"-Design kann die Methode sofort in bestehenden Systemen eingesetzt werden, um VLMs auf ressourcenbeschränkten Geräten (Mobile, Edge) lauffähig zu machen.
Qualitätserhalt: Sie beweist, dass aggressive Token-Reduktion nicht zwangsläufig zu einem Verlust an semantischer Tiefe oder Detailgenauigkeit führen muss, wenn die räumliche Struktur der Daten berücksichtigt wird.
Zukunftsperspektive: Der Ansatz legt einen neuen Standard für effizientes Token-Management in Vision-Language-Modellen, der besonders für Anwendungen wie OCR, medizinische Bildanalyse oder autonome Systeme relevant ist, wo jedes Detail zählt.

Der Code ist öffentlich verfügbar, was die Reproduzierbarkeit und weitere Forschung in diesem Bereich fördert.