Energy-Driven Adaptive Visual Token Pruning for Efficient Vision-Language Models

Die Arbeit stellt E-AdaPrune vor, einen energiegetriebenen adaptiven Pruning-Ansatz für Vision-Language-Modelle, der den Token-Budget dynamisch basierend auf der spektralen Energie der Bildmerkmale anpasst, um ohne zusätzliche lernbare Parameter die Effizienz zu steigern und die Leistung auf Benchmarks zu verbessern.

Jialuo He, Huangxun Chen

Veröffentlicht 2026-03-09
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen sehr klugen, aber etwas langsamen Freund, der Ihnen Bilder beschreiben soll. Dieser Freund ist ein Vision-Language Model (VLM). Wenn Sie ihm ein Foto zeigen, zerlegt er das Bild in tausende kleine Puzzleteile (die sogenannten "Tokens"), um jedes Detail zu verstehen.

Das Problem ist: Er schaut sich jedes Puzzleteil mit der gleichen intensiven Aufmerksamkeit an, egal ob es sich um ein einfaches Foto von einem weißen Blatt Papier oder ein überfülltes Bild von einer belebten Bar mit vielen Schildern und Flaschen handelt. Das ist wie wenn Sie versuchen, einen ganzen Roman zu lesen, nur um herauszufinden, ob es draußen regnet – es kostet viel Zeit und Energie, bringt aber für einfache Fragen nichts.

Bisherige Methoden waren wie ein strenger Lehrer, der sagt: "Schau dir immer genau die ersten 100 Puzzleteile an, egal was auf dem Bild ist."

  • Bei einfachen Bildern (wenig Information) schaut er sich unnötig viele Teile an (Verschwendung).
  • Bei komplexen Bildern (viel Information) schneidet er wichtige Teile ab, weil er stur bei 100 bleibt (Fehler).

Die Lösung: E-AdaPrune – Der "Energie-Meter" für Bilder

Die Forscher Jialuo He und Huangxun Chen aus Hongkong haben eine clevere Lösung namens E-AdaPrune entwickelt. Man kann es sich wie einen intelligenten Energiespar-Schalter vorstellen, der automatisch entscheidet, wie viel Arbeit nötig ist.

Hier ist die einfache Erklärung, wie es funktioniert, mit ein paar Analogien:

1. Das Bild als Musikalbum (Die "Energie")

Stellen Sie sich das Bild nicht als Pixel vor, sondern als ein Musikalbum.

  • Ein einfaches Bild (z. B. ein blauer Himmel) ist wie ein Lied mit nur wenigen Instrumenten. Die "Energie" (die wichtigen Informationen) konzentriert sich auf wenige Töne.
  • Ein komplexes Bild (z. B. eine überfüllte Bar) ist wie ein volles Orchester mit hunderten Instrumenten. Die Energie ist auf viele Töne verteilt.

E-AdaPrune schaut sich dieses "Musikalbum" an und misst die Energie. Es fragt sich: "Wie viele Töne brauche ich, um 99 % der Melodie zu verstehen?"

  • Bei der einfachen Melodie (blauer Himmel) reichen vielleicht 50 Töne.
  • Bei der komplexen Symphonie (die Bar) braucht es vielleicht 300 Töne, um nichts Wichtiges zu verpassen.

2. Der adaptive Rucksack

Früher hatte jeder Reisende (jedes Bild) denselben Rucksack mit fester Größe.

  • E-AdaPrune ist wie ein magischer Rucksack, der sich automatisch anpasst.
  • Wenn das Bild einfach ist, wird der Rucksack klein und leicht gemacht. Der Freund (das KI-Modell) ist schnell fertig.
  • Wenn das Bild kompliziert ist, wird der Rucksack größer, damit keine wichtigen Informationen (wie das Etikett einer Bierflasche) verloren gehen.

3. Warum ist das so genial?

  • Kein neues Training: Man muss den Freund nicht neu ausbilden. Es ist wie ein Plugin, das man einfach "einschaltet".
  • Keine Fehler: Bei dem Bild mit der Bar hat das alte System oft das Wort "Corona" auf dem Schild übersehen, weil es zu viele Teile weggeworfen hat. E-AdaPrune behält genug Teile bei, um das Wort zu lesen.
  • Geschwindigkeit: Man könnte denken, dass das Messen der Energie Zeit kostet. Die Forscher haben aber einen Trick benutzt (eine Art "schneller Schätzer" namens rSVD), der nur 8 Millisekunden pro Bild dauert. Das ist so schnell wie ein Wimpernschlag und spart am Ende viel mehr Zeit, als er kostet.

Zusammenfassung in einem Satz

E-AdaPrune ist wie ein intelligenter Regisseur, der einem Filmteam sagt: "Für diese einfache Szene reichen 2 Statisten, aber für diese wilde Party-Szene brauchen wir 200!" Dadurch wird der Film (die KI) schneller, ohne dass die Qualität leidet.

Das Ergebnis: Die KI wird im Durchschnitt 0,6 % besser, und bei schwierigen Denkaufgaben sogar um 5,1 % genauer, während sie gleichzeitig schneller läuft. Ein Gewinn für alle!