EntropyPrune: Matrix Entropy Guided Visual Token Pruning for Multimodal Large Language Models

Die Arbeit stellt EntropyPrune vor, einen neuartigen Rahmen zur visuellen Token-Pruning für multimodale Large Language Models, der durch die Identifizierung einer „Entropie-Kollaps-Schicht" und die Nutzung der spektralen Äquivalenz von Gram-Matrizen eine prinzipiengeleitete, effiziente und genaue Beschleunigung ohne Heuristiken ermöglicht.

Yahong Wang, Juncheng Wu, Zhangkai Ni, Chengmei Yang, Yihang Liu, Longzhen Yang, Yuyin Zhou, Ying Wen, Lianghua He

Veröffentlicht 2026-02-20
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

🧠 Das Problem: Der überfüllte Rucksack

Stell dir vor, du hast einen sehr schlauen Freund (den Multimodalen KI-Modell), der dir Bilder beschreibt. Wenn du ihm ein Foto zeigst, zerlegt dieser Freund das Bild in viele kleine Puzzleteile, die wir „Tokens" nennen.

Das Problem ist: Er nimmt zu viele Teile mit.

  • Bei einem normalen Bild nimmt er oft 576 Puzzleteile.
  • Bei einem hochauflösenden Bild sind es sogar mehrere Tausend.

Das ist, als würdest du einen Rucksack für einen kurzen Spaziergang packen, aber darin nicht nur ein Brot und ein Wasser, sondern den ganzen Supermarkt, eine Ziege und ein Klavier verstauen. Der Freund muss all diese Teile durch seinen Kopf (den Computer) schleppen. Das kostet enorm viel Energie, dauert lange und macht ihn langsam.

🔍 Die alte Lösung: Raten und Schätzen

Bisher haben Forscher versucht, den Rucksack zu leeren, indem sie einfach raten:

  • „Wir entfernen die ersten 100 Teile."
  • „Wir entfernen die Teile aus Schicht 5."
  • „Wir schauen, welche Teile am meisten Aufmerksamkeit bekommen."

Das ist wie ein Koch, der einfach zufällig Zutaten aus dem Topf fischt, weil er hofft, dass die wichtigen dabei bleiben. Manchmal klappt es, manchmal schmeckt das Essen fad, und oft wird das Essen verdorben, weil wichtige Gewürze weg sind. Es gibt keine feste Regel, wann man aufhören soll, Teile zu entfernen.

💡 Die neue Idee: Der „Entropie-Einsturz" (EntropyPrune)

Die Autoren von EntropyPrune haben etwas Geniales entdeckt. Sie haben sich nicht die einzelnen Puzzleteile angesehen, sondern die Gesamtmenge an Information, die in den Teilen steckt, während sie durch die Schichten des Gehirns wandern.

Stell dir vor, die KI schaut sich das Bild an, Schicht für Schicht:

  1. Schicht 1 & 2: Hier ist das Bild noch sehr „laut" und voller Details. Die Information ist bunt, chaotisch und reichhaltig.
  2. Schicht 3: Plötzlich passiert etwas Merkwürdiges. Die Information bricht plötzlich und drastisch ein.

Die Forscher nennen diesen Punkt den „Entropie-Einsturz" (Entropy Collapse).

  • Die Analogie: Stell dir vor, du hast einen lauten Konzertsaal voller Menschen, die alle reden (viele Informationen). Plötzlich gehen die Lichter aus und alle schweigen. Die „Lautstärke" (Information) bricht zusammen. Ab diesem Punkt sind die meisten Leute im Raum nur noch da, um zu schauen, aber sie sagen nichts Neues mehr. Sie sind redundant.

🛠️ Wie funktioniert EntropyPrune?

Anstatt zu raten, nutzen sie diesen „Einsturz-Punkt" als Wegweiser:

  1. Der perfekte Zeitpunkt: Sie warten genau bis zu dieser Schicht, wo die Information einbricht. Das ist der Moment, in dem sie sagen: „Okay, ab hier sind die meisten Puzzleteile nur noch Platzverschwendung."
  2. Der Wert-Check: Sie prüfen jedes einzelne Puzzleteil (Token) auf seinen „Informationswert".
    • Hoher Wert: Das Teil ist einzigartig und wichtig (z. B. die Farbe des Taxis oder der Mann auf dem Stuhl). -> Behalten!
    • Niedriger Wert: Das Teil ist langweilig oder wiederholt sich nur (z. B. ein Stück blauer Himmel, das 50-mal vorkommt). -> Weg damit!
  3. Der Turbo-Boost: Normalerweise ist so ein Wert-Check sehr rechenintensiv (wie das Zählen jedes einzelnen Sandkorns am Strand). Die Autoren haben einen mathematischen Trick gefunden (Dualität der Gram-Matrizen), der diesen Check 64-mal schneller macht. Es ist, als würde man einen Sandhaufen nicht einzeln zählen, sondern ihn einfach in eine Waage werfen und das Ergebnis sofort ablesen.

🚀 Das Ergebnis

Das Ergebnis ist verblüffend:

  • Der Rucksack wird extrem leicht (bis zu 78 % weniger Teile).
  • Der Freund wird viel schneller (bis zu 68 % weniger Rechenarbeit).
  • Aber er vergisst nichts Wichtiges! Er kann das Bild immer noch genauso gut beschreiben wie vorher.

Zusammenfassend:
EntropyPrune ist wie ein sehr erfahrener Reiseleiter. Er weiß genau, wann die Gruppe an einem Punkt angelangt ist, an dem die meisten Touristen nur noch herumstehen und nichts Neues sehen. Anstatt alle mitzunehmen, lässt er die unnötigen Touristen zu Hause und nimmt nur die mit, die wirklich etwas zu sehen haben. So kommt die Gruppe schneller ans Ziel, ohne dass etwas Wichtiges verpasst wird.

Und das Beste: Es funktioniert nicht nur bei normalen Bildern, sondern auch bei Videos und riesigen, hochauflösenden Fotos – überall dort, wo KI heute noch zu langsam ist.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →