HiDrop: Hierarchical Vision Token Reduction in MLLMs via Late Injection, Concave Pyramid Pruning, and Early Exit

Each language version is independently generated for its own context, not a direct translation.

🧠 Das Problem: Der überfüllte Bus

Stell dir vor, ein Multimodales Großes Sprachmodell (MLLM) ist wie ein großer Reisebus, der sowohl Passagiere (Text) als auch schwere Koffer (Bilder) transportiert.

Das Problem ist: Ein Bild besteht aus tausenden winzigen Details (Pixeln), die als „Tokens" in den Bus geladen werden. Ein Text besteht nur aus wenigen Wörtern. Wenn der Bus durch die Stadt fährt (die Berechnung durch die neuronalen Netzwerke), muss er alle diese Koffer mitnehmen.

Die Folge: Der Bus wird extrem langsam, verbraucht viel Kraftstoff (Rechenleistung) und wird teuer im Unterhalt.
Der bisherige Versuch: Bisherige Methoden haben versucht, Koffer einfach willkürlich rauszuwerfen, sobald der Bus losfährt. Das Problem dabei: Manchmal werden wichtige Koffer (wichtige Bildteile) zu früh weggeschmissen, oder der Bus fährt unnötig lange mit leeren Koffern, die niemand braucht.

💡 Die Lösung: HiDrop – Der intelligente Fahrer

Die Forscher haben HiDrop entwickelt. Das ist wie ein super-intelligenter Fahrer, der genau weiß, wann welche Koffer benötigt werden und wann sie entsorgt werden können. Er nutzt drei clevere Tricks:

1. Der späte Einsteiger (Late Injection)

Das alte Problem: Der Bus nahm alle Koffer sofort am Start mit, auch wenn die ersten Stationen (die ersten Schichten des Modells) nur dafür da waren, den Text zu lesen und die Koffer gar nicht anzufassen. Das war reine Zeitverschwendung.
Die HiDrop-Lösung: Der Fahrer sagt: „Die ersten 9 Stationen fahren wir nur mit Text-Passagieren." Die Bild-Koffer bleiben draußen im Gepäckraum warten. Erst an der Station, an der die eigentliche Zusammenarbeit (Fusion) beginnt, werden die Koffer spät geladen.
Analogie: Es ist wie beim Kochen: Du musst nicht die ganze Zeit über den Topf stehen, in dem nur Wasser kocht. Du wartest, bis du das Gemüse (das Bild) hinzufügen musst, bevor du anfängst, es zu rühren.

2. Der konische Pyramiden-Schnitt (Concave Pyramid Pruning)

Das alte Problem: Frühere Methoden warfen Koffer in einem starren Muster weg (z. B. immer 10% pro Station). Das ist wie ein Roboter, der blindlings Koffer wegwirft, egal ob sie wichtig sind oder nicht.
Die HiDrop-Lösung: In der Mitte der Fahrt (den mittleren Schichten) passiert die eigentliche Magie: Das Modell verbindet Bild und Text. Hier gibt es aber viele überflüssige Koffer (z. B. ein unscharfer Hintergrund).
- HiDrop wirft am Anfang dieser Phase sehr schnell viele unnötige Koffer weg (wie einen großen Haufen Müll sofort entsorgen).
- Je weiter die Fahrt geht, desto vorsichtiger wird es, bis nur noch die allerwichtigsten Koffer übrig sind.
Analogie: Stell dir vor, du sortierst einen Haufen Fotos. Zuerst wirfst du sofort alle unscharfen oder leeren Fotos weg (schneller Schnitt). Dann schaust du dir die restlichen genauer an und behältst nur die, auf denen Gesichter zu sehen sind.

3. Der frühe Aussteiger (Early Exit)

Das alte Problem: Der Bus fuhr bis zum letzten Bahnhof, auch wenn die Koffer schon längst nicht mehr gebraucht wurden.
Die HiDrop-Lösung: Sobald die Bilder und Texte verknüpft sind und das Modell „versteht", worum es geht, werden die restlichen Bild-Koffer sofort rausgeworfen. Der Rest der Fahrt (die tiefen Schichten) läuft nur noch mit Text-Passagieren weiter.
Analogie: Wenn du eine Geschichte hörst, die auf einem Bild basiert, musst du das Bild nicht mehr ansehen, sobald du die Geschichte verstanden hast. Du kannst das Bild weglegen und dich nur noch auf das Gespräch konzentrieren.

🛠️ Wie sie das technisch „glatt" machen

Damit dieser ständige Ein- und Ausstieg nicht den Bus zum Stehen bringt (Verzögerungen), nutzen sie noch zwei Tricks:

Feste Sitzplätze: Auch wenn Koffer rausgeworfen werden, behalten die verbleibenden ihre festen „Sitznummern" (Positionscodes). So verwirrt sich der Bus nicht.
Paralleles Arbeiten: Während der Bus nur mit Text fährt, wird im Hintergrund schon der nächste Bild-Koffer vorbereitet, damit er genau dann hereinkommt, wenn er gebraucht wird.

🚀 Das Ergebnis

Durch diese Methode erreicht HiDrop etwas Wunderbares:

Es werden ca. 90% der Bild-Koffer entsorgt (das Modell wird viel schlanker).
Die Geschwindigkeit beim Lernen und Anwenden steigt um das 1,7-fache.
Die Genauigkeit bleibt fast gleich wie beim vollen Bus.

Zusammenfassend: HiDrop ist wie ein effizienter Logistikmanager, der genau weiß, wann er Lasten aufnehmen muss, wann er sie schnell sortieren kann und wann er sie endgültig abladen darf, ohne dass der Lieferwagen (das KI-Modell) jemals ins Stocken gerät.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Multimodale Large Language Models (MLLMs) stoßen bei der Verarbeitung visueller Eingaben auf ein erhebliches Rechenniveau-Problem. Da Bildencoder eine hohe Informationsdichte haben, generieren sie deutlich mehr Token als Textencoder. Da der Rechenaufwand für den Self-Attention-Mechanismus quadratisch mit der Anzahl der Token skaliert ( $O(N^2)$ ), führt dies zu einem massiven Engpass, insbesondere bei hohen Bildauflösungen.

Bestehende Lösungsansätze wie das progressive Pruning (Schrittweises Entfernen von visuellen Token) leiden unter zwei fundamentalen Missverständnissen:

Fehlinterpretation flacher Schichten: Aktuelle Methoden gehen davon aus, dass flache Schichten für die multimodale Integration entscheidend sind und daher erhalten bleiben müssen. Die Autoren zeigen jedoch, dass diese Schichten visuelle Token lediglich passiv weiterleiten („Propagatoren"), ohne sie signifikant zu transformieren oder mit Text zu fusionieren.
Starre Pruning-Schedules: Bisherige Ansätze verwenden oft starre, gleichmäßige Reduktionspläne (z. B. lineare oder pyramidenförmige Abnahme). Dies ignoriert die nicht-uniforme Dynamik des Informationsflusses, bei der Redundanz in mittleren Schichten stark ausgenutzt werden kann, während tiefe Schichten oft gar keine visuellen Token mehr benötigen.

2. Methodik: HiDrop Framework

HiDrop (Hierarchical Vision Token Dropping) ist ein Framework, das das Token-Pruning an die tatsächliche hierarchische Funktionsweise von MLLMs anpasst. Es unterteilt die Transformer-Schichten in drei Phasen und wendet spezifische Strategien für jede an:

A. Späte Injektion (Late Injection) für flache Schichten

Da flache Schichten als passive Durchgangsstationen fungieren, werden visuelle Token hier gar nicht verarbeitet.

Strategie: HiDrop umgeht die ersten $L_{inj}-1$ Schichten für den visuellen Strom vollständig.
Umsetzung: Die visuellen Token werden erst an der Schicht $L_{inj}$ (im Experiment Layer 9) injiziert, genau zu dem Zeitpunkt, an dem die aktive Fusion von Text und Bild beginnt. Dies eliminiert unnötige Berechnungen in den frühen Schichten.

B. Konkave Pyramiden-Pruning (Concave Pyramid Pruning) für mittlere Schichten

Die mittleren Schichten sind der Hauptort der Fusion, weisen aber eine hohe Redundanz auf.

Strategie: Anstatt einer linearen Reduktion wird eine „konkave Pyramiden"-Strategie angewendet. Dies bedeutet eine aggressive Reduktion zu Beginn der Fusionsphase, gefolgt von einer langsameren Reduktion, um wichtige Informationen zu bewahren.
Filter-Layer-Identifikation (ILVAS): Um zu bestimmen, wo pruned werden soll, wird die Inter-Layer Visual Attention Similarity (ILVAS) verwendet. Diese Metrik misst, wie stabil die Aufmerksamkeit auf bestimmte Token von einer Schicht zur nächsten ist. Lokale Maxima in der ILVAS-Kurve identifizieren Schichten, die als stabile Filterpunkte dienen (z. B. Layer 10, 14, 16, 18).
Token-Auswahl (Differentiable Top-K): Um zu bestimmen, welche Token entfernt werden, wird ein differentieller Top-K-Operator (DTop-K) verwendet. Im Gegensatz zu harten Top-K-Selektionen (die nicht differenzierbar sind) ermöglicht dies ein weiches, lernbares Maskieren und eine feinere Auswahl der informativsten Token während des Trainings.

C. Früher Exit (Early Exit) für tiefe Schichten

Sobald die Fusion abgeschlossen ist, dominieren tiefe Schichten das sprachbasierte Reasoning.

Strategie: Ab einer bestimmten Schicht $L_{exit}$ (im Experiment Layer 25) werden alle verbleibenden visuellen Token verworfen.
Umsetzung: Der Vorwärtsdurchlauf setzt sich fort, aber nur noch mit dem Textstrom. Dies reduziert den Rechenaufwand in den späteren Schichten drastisch.

D. Implementierungsoptimierungen

Um sicherzustellen, dass die dynamische Token-Reduktion keinen versteckten Overhead erzeugt, implementiert HiDrop:

Persistente Positionscodierung: Visuelle Token erhalten feste Positions-IDs bei der Eingabe, die auch beim Pruning und der Injektion beibehalten werden, um Inkonsistenzen in der Positionscodierung (z. B. bei RoPE) zu vermeiden.
FlashAttention-Kompatibilität: Die Token-Auswahl erfolgt über einen separaten, leichten Hilfs-Attention-Pass, der mit dem Haupt-Attention-Kernel (FlashAttention) kompatibel bleibt.
Parallele Entkopplung: Da die Injektion verzögert erfolgt, kann die visuelle Verarbeitung (Encoder + Projector) parallel zur Text-Prefill-Phase berechnet werden, was die Latenz weiter senkt.

3. Hauptbeiträge

Diagnose von MLLM-Dynamiken: Die Arbeit widerlegt die Annahme, dass flache Schichten für die Integration essenziell sind, und zeigt, dass visuelle Token erst in den mittleren Schichten aktiv fusioniert werden.
HiDrop-Framework: Einführung einer neuen Architektur mit Late Injection, Concave Pyramid Pruning und Early Exit, die die Effizienzgrenzen bestehender Methoden sprengt.
Technische Innovationen: Entwicklung von ILVAS zur Schichtauswahl und des differentiellen Top-K-Operators für eine optimierbare Token-Auswahl.
State-of-the-Art Ergebnisse: Demonstration, dass eine aggressive Kompression (bis zu 90% Token-Reduktion) ohne signifikanten Genauigkeitsverlust möglich ist.

4. Ergebnisse

Die Methode wurde umfassend auf LLaVA-1.5-7B (sowie 2.7B und 13B Varianten) getestet, basierend auf 11 gängigen Benchmarks (z. B. MME, MMBench, GQA, MMStar).

Genauigkeit: HiDrop komprimiert ca. 90% der visuellen Token (von 576 auf ~64 Token), während es 98,3% der ursprünglichen Leistung beibehält. Im Vergleich zu State-of-the-Art-Methoden wie PDrop oder FastV ist HiDrop bei gleicher Kompressionsrate deutlich genauer.
Trainingseffizienz: Die Trainingszeit wurde von 159,3 auf 94,4 GPU-Stunden reduziert (eine Beschleunigung von 1,72-fach).
Inferenz-Effizienz: Der FLOPs-Aufwand für den visuellen Teil sank von 3,82 TFlops auf 0,42 TFlops (88,9% Reduktion). Die Prefill-Latenz wurde von 63,6 ms auf 32,6 ms halbiert.
Robustheit: Die Methode funktioniert konsistent über verschiedene Backbone-Modelle (MobileLLaMA, Vicuna-7B/13B) hinweg und skaliert gut mit größeren Instruktions-Datensätzen.

5. Bedeutung und Fazit

HiDrop stellt einen Paradigmenwechsel in der effizienten Gestaltung von Multimodalen Modellen dar. Anstatt Token einfach nach starren Regeln zu entfernen, nutzt HiDrop die inhärente Hierarchie der neuronalen Netze aus:

Es vermeidet Berechnungen, wo keine nötig sind (flache Schichten).
Es komprimiert aggressiv, wo Redundanz hoch ist (mittlere Schichten).
Es beendet die visuelle Verarbeitung, sobald sie abgeschlossen ist (tiefe Schichten).

Dies führt nicht nur zu neuen State-of-the-Art-Ergebnissen in Bezug auf das Verhältnis von Effizienz zu Genauigkeit, sondern liefert auch tiefgreifende Einblicke in die Funktionsweise von MLLMs. Die Arbeit zeigt, dass multimodale Fusion ein lokalisiertes Phänomen innerhalb des Modells ist und nicht den gesamten Vorwärtsdurchlauf durchdringen muss. Der Code ist öffentlich verfügbar, was die Reproduzierbarkeit und weitere Forschung in diesem Bereich fördert.