EntropyPrune: Matrix Entropy Guided Visual Token Pruning for Multimodal Large Language Models

Each language version is independently generated for its own context, not a direct translation.

🧠 Das Problem: Der überfüllte Rucksack

Stell dir vor, du hast einen sehr schlauen Freund (den Multimodalen KI-Modell), der dir Bilder beschreibt. Wenn du ihm ein Foto zeigst, zerlegt dieser Freund das Bild in viele kleine Puzzleteile, die wir „Tokens" nennen.

Das Problem ist: Er nimmt zu viele Teile mit.

Bei einem normalen Bild nimmt er oft 576 Puzzleteile.
Bei einem hochauflösenden Bild sind es sogar mehrere Tausend.

Das ist, als würdest du einen Rucksack für einen kurzen Spaziergang packen, aber darin nicht nur ein Brot und ein Wasser, sondern den ganzen Supermarkt, eine Ziege und ein Klavier verstauen. Der Freund muss all diese Teile durch seinen Kopf (den Computer) schleppen. Das kostet enorm viel Energie, dauert lange und macht ihn langsam.

🔍 Die alte Lösung: Raten und Schätzen

Bisher haben Forscher versucht, den Rucksack zu leeren, indem sie einfach raten:

„Wir entfernen die ersten 100 Teile."
„Wir entfernen die Teile aus Schicht 5."
„Wir schauen, welche Teile am meisten Aufmerksamkeit bekommen."

Das ist wie ein Koch, der einfach zufällig Zutaten aus dem Topf fischt, weil er hofft, dass die wichtigen dabei bleiben. Manchmal klappt es, manchmal schmeckt das Essen fad, und oft wird das Essen verdorben, weil wichtige Gewürze weg sind. Es gibt keine feste Regel, wann man aufhören soll, Teile zu entfernen.

💡 Die neue Idee: Der „Entropie-Einsturz" (EntropyPrune)

Die Autoren von EntropyPrune haben etwas Geniales entdeckt. Sie haben sich nicht die einzelnen Puzzleteile angesehen, sondern die Gesamtmenge an Information, die in den Teilen steckt, während sie durch die Schichten des Gehirns wandern.

Stell dir vor, die KI schaut sich das Bild an, Schicht für Schicht:

Schicht 1 & 2: Hier ist das Bild noch sehr „laut" und voller Details. Die Information ist bunt, chaotisch und reichhaltig.
Schicht 3: Plötzlich passiert etwas Merkwürdiges. Die Information bricht plötzlich und drastisch ein.

Die Forscher nennen diesen Punkt den „Entropie-Einsturz" (Entropy Collapse).

Die Analogie: Stell dir vor, du hast einen lauten Konzertsaal voller Menschen, die alle reden (viele Informationen). Plötzlich gehen die Lichter aus und alle schweigen. Die „Lautstärke" (Information) bricht zusammen. Ab diesem Punkt sind die meisten Leute im Raum nur noch da, um zu schauen, aber sie sagen nichts Neues mehr. Sie sind redundant.

🛠️ Wie funktioniert EntropyPrune?

Anstatt zu raten, nutzen sie diesen „Einsturz-Punkt" als Wegweiser:

Der perfekte Zeitpunkt: Sie warten genau bis zu dieser Schicht, wo die Information einbricht. Das ist der Moment, in dem sie sagen: „Okay, ab hier sind die meisten Puzzleteile nur noch Platzverschwendung."
Der Wert-Check: Sie prüfen jedes einzelne Puzzleteil (Token) auf seinen „Informationswert".
- Hoher Wert: Das Teil ist einzigartig und wichtig (z. B. die Farbe des Taxis oder der Mann auf dem Stuhl). -> Behalten!
- Niedriger Wert: Das Teil ist langweilig oder wiederholt sich nur (z. B. ein Stück blauer Himmel, das 50-mal vorkommt). -> Weg damit!
Der Turbo-Boost: Normalerweise ist so ein Wert-Check sehr rechenintensiv (wie das Zählen jedes einzelnen Sandkorns am Strand). Die Autoren haben einen mathematischen Trick gefunden (Dualität der Gram-Matrizen), der diesen Check 64-mal schneller macht. Es ist, als würde man einen Sandhaufen nicht einzeln zählen, sondern ihn einfach in eine Waage werfen und das Ergebnis sofort ablesen.

🚀 Das Ergebnis

Das Ergebnis ist verblüffend:

Der Rucksack wird extrem leicht (bis zu 78 % weniger Teile).
Der Freund wird viel schneller (bis zu 68 % weniger Rechenarbeit).
Aber er vergisst nichts Wichtiges! Er kann das Bild immer noch genauso gut beschreiben wie vorher.

Zusammenfassend:
EntropyPrune ist wie ein sehr erfahrener Reiseleiter. Er weiß genau, wann die Gruppe an einem Punkt angelangt ist, an dem die meisten Touristen nur noch herumstehen und nichts Neues sehen. Anstatt alle mitzunehmen, lässt er die unnötigen Touristen zu Hause und nimmt nur die mit, die wirklich etwas zu sehen haben. So kommt die Gruppe schneller ans Ziel, ohne dass etwas Wichtiges verpasst wird.

Und das Beste: Es funktioniert nicht nur bei normalen Bildern, sondern auch bei Videos und riesigen, hochauflösenden Fotos – überall dort, wo KI heute noch zu langsam ist.

Each language version is independently generated for its own context, not a direct translation.

Problemstellung

Multimodale Large Language Models (MLLMs) wie LLaVA oder Qwen-VL erreichen beeindruckende Ergebnisse in visuellen Verständnis- und Reasoning-Aufgaben. Ein wesentlicher Engpass für deren effiziente Inferenz ist jedoch die Verarbeitung einer großen Anzahl visueller Tokens pro Bild. Modelle repräsentieren ein einzelnes Bild oft durch hunderte (z. B. 576 bei LLaVA-1.5) oder sogar tausende Tokens (bei hochauflösenden Eingaben), was zu extrem langen Eingabesequenzen und einem hohen Rechenaufwand (FLOPs) führt.

Bestehende Ansätze zur Token-Pruning (Beschleunigung durch Entfernen redundanter Tokens) stützen sich häufig auf heuristische Methoden:

Aufmerksamkeitsbasierte Methoden: Nutzen Attention-Weights, sind aber oft inkompatibel mit effizienten Implementierungen wie FlashAttention.
Diversitätsbasierte Methoden: Messen Ähnlichkeiten zwischen Tokens.
Ein zentrales, bisher ungelöstes Problem ist die Festlegung des Pruning-Zeitpunkts: Die meisten Methoden wählen Pruning-Schichten statisch und empirisch aus (z. B. „immer ab Schicht 3"). Dies fehlt an Interpretierbarkeit, ist modellabhängig und berücksichtigt nicht den intrinsischen Informationsfluss der Repräsentationen.

Methodik: EntropyPrune

Die Autoren führen einen neuen, informationstheoretischen Ansatz ein, der auf Matrix-Entropie basiert, um sowohl den optimalen Pruning-Zeitpunkt als auch die zu entfernenden Tokens zu bestimmen.

1. Entropie-Collapse-Schicht (ECL) – „Wann prunen?"

Die Autoren analysieren die Schicht-für-Schicht-Entropie der visuellen Token-Repräsentationen (Query- und Key-States) in MLLMs.

Beobachtung: Sie identifizieren ein konsistentes Phänomen namens „Entropy Collapse Layer" (ECL). In den frühen Schichten bleibt die Matrix-Entropie hoch (hoher Informationsgehalt), fällt jedoch nach einer bestimmten Schicht (z. B. Schicht 2 bei LLaVA-1.5) abrupt und drastisch ab.
Bedeutung: Dieser „Kollaps" signalisiert, dass redundante visuelle Informationen stark komprimiert wurden und viele Tokens ab diesem Punkt informationsmäßig entbehrlich sind. Die ECL dient somit als interpretierbares, theoretisch fundiertes Kriterium, um den Startpunkt für das Pruning zu bestimmen, anstatt auf manuelle Heuristiken zurückzugreifen.

2. Token-Entropie-Scoring – „Was prunen?"

Nach Erreichen der ECL wird jeder visuelle Token basierend auf seinem Informationsgehalt bewertet:

Vorgehen: Jeder Token wird schichtweise in eine Matrix umgeformt (Head-wise Reshaping). Aus den Merkmalsvektoren der Attention-Heads wird eine Spur-normalisierte Kovarianzmatrix ( $\Sigma$ ) berechnet.
Metrik: Die Matrix-Entropie (verwandt mit der von-Neumann-Entropie in der Quantenmechanik) wird als Score für den Token verwendet.
- Hohe Entropie $\rightarrow$ Hohe Informationsvielfalt $\rightarrow$ Token behalten.
- Niedrige Entropie $\rightarrow$ Redundanz $\rightarrow$ Token entfernen.
Vorteil: Im Gegensatz zu Attention-basierten Methoden benötigt dieser Ansatz keine Attention-Maps und ist daher hardwarefreundlicher.

3. Spektrale Beschleunigung (Spectral Acceleration)

Die direkte Berechnung der Matrix-Entropie erfordert eine Eigenwertzerlegung der Kovarianzmatrix mit kubischer Komplexität ( $O(d_h^3)$ ), was bei hohen Head-Dimensionen ( $d_h$ ) zu teuer ist.

Lösung: Die Autoren nutzen die Eigenschaft dualer Gram-Matrizen. Da die Matrizen $A^TA$ und $AA^T$ die gleichen nicht-null Eigenwerte besitzen, kann die Entropie stattdessen auf einer kleineren Gram-Matrix der Größe $h \times h$ (Anzahl der Heads) berechnet werden.
Effizienz: Dies reduziert die Komplexität von $O(d_h^3)$ auf $O(h^3)$ . Da in typischen Architekturen $d_h \gg h$ ist (z. B. $d_h=128, h=32$ ), ergibt sich eine theoretische Beschleunigung von bis zu 64-fach.

Wichtige Beiträge

Theoretische Erkenntnis: Identifikation des „Entropy Collapse Layer" als universelles, interpretierbares Kriterium für den Pruning-Zeitpunkt in MLLMs.
Neues Framework: Entwicklung von EntropyPrune, einem training-freien Pruning-Verfahren, das Token basierend auf Matrix-Entropie auswählt.
Algorithmische Optimierung: Einführung einer spektralen Beschleunigungsstrategie mittels dualer Gram-Matrizen, die die Berechnungskosten drastisch senkt.
Umfassende Evaluation: Validierung auf verschiedenen Modellen (LLaVA-1.5, LLaVA-NeXT, Video-LLaVA, Qwen2.5-VL) und Aufgaben (Bilder, hochauflösende Bilder, Videos).

Ergebnisse

Die Experimente zeigen, dass EntropyPrune den State-of-the-Art (SOTA) in Bezug auf Genauigkeit und Effizienz übertrifft:

Leistungserhalt: Auf LLaVA-1.5-7B reduziert die Methode die Anzahl der visuellen Tokens um 77,8 % (von 576 auf 128).
- FLOPs-Reduktion: 68,2 %.
- Performance: Es werden 96,0 % der ursprünglichen Modellleistung beibehalten.
- Vergleich: EntropyPrune übertrifft SOTA-Methoden wie FastV, DART, DivPrune und CDPruner signifikant, insbesondere bei aggressivem Pruning.
Robustheit:
- Hochauflösende Bilder: Funktioniert effektiv bei LLaVA-NeXT (bis zu 88,9 % Token-Reduktion).
- Videos: Zeigt starke Ergebnisse bei Video-LLaVA auf Benchmarks wie MSVD-QA und MSRVTT-QA.
- Architektur-Unabhängigkeit: Funktioniert auch bei der Qwen2.5-VL-Architektur, was die Generalisierbarkeit unterstreicht.
Effizienz: Durch die spektrale Beschleunigung ist der Overhead der Entropieberechnung vernachlässigbar im Vergleich zur Inferenz des Hauptmodells.

Bedeutung und Ausblick

EntropyPrune bietet einen fundamentalen Fortschritt in der Effizienzsteigerung von MLLMs:

Green AI: Durch die massive Reduktion der Rechenkosten (FLOPs) und des Speicherverbrauchs (KV-Cache) wird der Energieverbrauch und der CO2-Fußabdruck bei der Inferenz gesenkt.
Edge-Computing: Die Methode ermöglicht den Betrieb fortschrittlicher multimodaler Modelle auf ressourcenbeschränkter Hardware.
Interpretierbarkeit: Statt auf Black-Box-Heuristiken zu setzen, liefert die Entropie-Analyse ein physikalisch fundiertes Verständnis des Informationsflusses in neuronalen Netzen.

Zusammenfassend stellt EntropyPrune einen leistungsfähigen, training-freien und theoretisch fundierten Ansatz dar, der die Skalierbarkeit und praktische Einsetzbarkeit von Multimodal Large Language Models erheblich verbessert. Der Code ist öffentlich verfügbar.