EvoPrune: Early-Stage Visual Token Pruning for Efficient MLLMs

Each language version is independently generated for its own context, not a direct translation.

EvoPrune: Der effiziente „Sicherheitscheck" für Multimodale KI-Modelle

Stell dir vor, ein Multimodales Large Language Model (MLLM) ist wie ein genialer Detektiv, der Bilder und Videos analysiert, um Fragen zu beantworten. Wenn dieser Detektiv jedoch ein hochauflösendes Foto oder einen langen Film sieht, wird er von einer Flut an Informationen erschlagen.

Das Problem: Der „Daten-Stau"

Normalerweise schaut sich dieser Detektiv jedes einzelne Pixel eines Bildes oder jeden einzelnen Frame eines Videos an. Bei einem 4K-Bild oder einem 10-minütigen Video sind das Tausende von winzigen Bildteilen (sogenannten „Tokens").

Das alte Problem: Bisherige Methoden haben dem Detektiv gesagt: „Schau dir erst das ganze Bild komplett an (das kostet viel Zeit und Energie), und erst danach wirf die unwichtigen Teile weg."
Die Folge: Der Detektiv verschwendet seine wertvolle Zeit damit, Dinge zu betrachten, die er ohnehin später wieder wegwerfen würde. Bei langen Videos wird dieser Prozess so langsam, dass er für Echtzeit-Anwendungen (wie eine Live-Kameraüberwachung) unbrauchbar ist.

Die Lösung: EvoPrune – Der „Frühwarnsystem"-Ansatz

Die Forscher von ByteDance haben EvoPrune entwickelt. Das ist wie ein intelligenter Sicherheitscheck, der während des Sehens stattfindet, nicht danach.

Stell dir EvoPrune wie einen erfahrenen Galerieleiter vor, der einem Besucher durch eine riesige Kunstausstellung führt:

Der alte Weg: Der Besucher läuft durch den gesamten Raum, betrachtet jedes einzelne Gemälde genau, und erst am Ende sagt der Galerist: „Okay, die 90 % der Bilder, die du gesehen hast, waren langweilig. Wirf sie weg." Der Besucher hat sich die Beine schon wund gelaufen.
Der EvoPrune-Weg: Der Galerist geht mit dem Besucher. Sobald er merkt, dass zwei Bilder fast identisch sind (z. B. zwei fast gleiche Wolken am Himmel), sagt er: „Schau dir nur eines davon an, das andere ist eine Kopie." Oder: „Das Bild hier ist langweilig, wirf es sofort weg, bevor du es auch nur richtig ansiehst."

Das Ergebnis: Der Besucher (die KI) muss viel weniger Bilder betrachten, spart enorme Zeit und Energie, vergisst aber nichts Wichtiges, weil der Galerist genau weiß, welche Bilder die spannenden sind.

Wie funktioniert das „Magische" im Inneren?

EvoPrune nutzt drei einfache Regeln, um zu entscheiden, was behalten und was weggeworfen wird:

Ähnlichkeit (Der „Klon"-Filter): Wenn zwei Bildteile sich fast genau gleichen (z. B. ein blauer Himmel, der sich über den ganzen Bildschirm erstreckt), werden sie zu einem einzigen Teil zusammengefasst. Warum zwei Mal das Gleiche schauen?
Vielfalt (Der „Einzigartigkeit"-Filter): Der Detektiv soll nicht nur das Offensichtliche sehen. EvoPrune sorgt dafür, dass auch die kleinen, einzigartigen Details (ein roter Ball in einer grünen Wiese) nicht verloren gehen. Es wird verhindert, dass nur „langweilige" Teile übrig bleiben.
Aufmerksamkeit (Der „Wichtig"-Filter): Manche Teile des Bildes sind einfach wichtiger als andere. Wenn der Detektiv auf etwas schaut, das für die Antwort entscheidend ist (z. B. ein Straßenschild), wird dieses Teil niemals weggeworfen, egal wie viele andere Teile entfernt werden.

Warum ist das so großartig?

Die Ergebnisse sind beeindruckend, besonders bei Videos:

Geschwindigkeit: EvoPrune macht die KI zweimal so schnell (2x Speedup).
Qualität: Die KI wird dabei kaum dümmer (weniger als 1 % Genauigkeitsverlust).
Skalierbarkeit: Je länger das Video ist, desto mehr spart EvoPrune. Bei einem 64-Frames-Video (ein kurzer Clip) spart es so viel Zeit, dass die KI endlich in Echtzeit arbeiten kann.

Zusammenfassung

EvoPrune ist wie ein effizienter Assistent, der dem KI-Modell hilft, nicht jeden einzelnen Stein auf dem Weg zu untersuchen, sondern nur die wichtigen Steine zu beachten. Es schaltet den „Daten-Stau" aus, indem es die KI lehrt, frühzeitig zu filtern, anstatt alles erst zu speichern und dann zu löschen.

Das bedeutet: Schnellere KI, weniger Energieverbrauch und die Möglichkeit, Videos in Echtzeit zu verstehen – alles ohne dass die KI ihre Intelligenz verliert.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Multimodale Large Language Models (MLLMs) haben in visuell-sprachlichen Aufgaben beeindruckende Leistungen gezeigt, leiden jedoch unter einer erheblichen Ineffizienz bei der Inferenz, insbesondere bei hochauflösenden Bildern und langen Videos. Das Hauptproblem ist die exponentielle Zunahme der visuellen Token.

Engpass: Herkömmliche Token-Pruning-Methoden arbeiten meist erst nach dem vollständigen visuellen Encoding (d. h. nach dem Visual Encoder).
Folge: Der visuelle Encoder bleibt unoptimiert und verursacht einen Großteil der Rechenkosten, da er alle ursprünglichen Token verarbeitet, bevor eine Reduktion stattfindet.
Skalierbarkeitsproblem: Wie in Abbildung 1 des Papers gezeigt, steigt der Anteil der Rechenzeit des Encoders bei großen Eingaben (z. B. 64 Videoframes) auf bis zu 74 % der gesamten Laufzeit an. Bestehende Methoden, die erst später prune, bieten bei steigender Eingabegröße nur noch geringe Beschleunigungen, da der teuerste Teil (der Encoder) unverändert bleibt.

2. Methodik: EvoPrune

EvoPrune ist ein Framework für das Token-Pruning in einer frühen Phase, das direkt in den visuellen Encoder integriert ist. Statt alle Features zu extrahieren und dann zu filtern, werden redundante Token bereits während der Feature-Berechnung zusammengeführt.

Kernkomponenten:

Layer-wise Pruning (Schichtweises Pruning):
- Das Pruning erfolgt nicht am Ende, sondern an ausgewählten Schichten des visuellen Encoders (Transformer-Layer).
- Es wird ein globales Pruning-Budget $R$ (Anzahl der zu entfernenden Token) über die Schichten verteilt (z. B. alle zwei Schichten, wie in der „Skip"-Strategie).
Score-Guided Token Merging (Score-gesteuertes Zusammenführen):
Anstatt Token einfach zu löschen, werden redundante Token-Paare zu einem neuen Token zusammengeführt. Die Auswahl der zu mergenden Paare basiert auf einer kompositen Score-Matrix, die drei Faktoren kombiniert:
1. Semantische Ähnlichkeit (Similarity Attraction): Misst die kosinussähnlichkeit der Feature-Embeddings. Ähnliche Token werden bevorzugt gemerged.
2. Informationsvielfalt (Diversity Penalty): Verhindert das Zusammenführen von Token, die unterschiedliche Inhalte tragen. Dies wird durch die lokale Dichte im Embedding-Space berechnet, um die Repräsentationsvielfalt zu erhalten.
3. Aufmerksamkeitsbasierte Wichtigkeit (Attention Preservation): Nutzt die Attention-Weights des Encoders, um kritische Token zu identifizieren.
  - Ein Critical Token Ratio (CTR) (z. B. 25 %) definiert einen Satz von „kritischen Token", die niemals gemerged werden dürfen.
  - Token-Paare, die einen dieser geschützten Token enthalten, erhalten einen Score von $-\infty$ , um ein Zusammenführen zu verhindern.

Algorithmus:

Der Prozess läuft iterativ durch die Encoder-Schichten:

Standard Multi-Head Self-Attention.
Berechnung des Scores basierend auf Ähnlichkeit, Vielfalt und Attention.
Auswahl der Top- $r$ Token-Paare mit dem höchsten Score (unter Beachtung der Schutzmasken).
Zusammenführen dieser Paare und Weiterleitung an die nächste Schicht.

3. Hauptbeiträge

Neues Paradigma: EvoPrune führt das Pruning in die visuelle Encodierungsphase ein und adressiert damit den bisher vernachlässigten Rechenaufwand des Encoders.
Multi-Faktor-Strategie: Die Integration von Ähnlichkeit, Diversität und Attention-gesteuerten Schutzmechanismen ermöglicht eine selektive Reduktion, die semantisch wichtige Informationen bewahrt.
Plug-and-Play: Die Methode erfordert kein Nach-Training (re-training) und kann nahtlos in bestehende MLLM-Architekturen (wie LLaVA) integriert werden.

4. Ergebnisse

Die Evaluation erfolgte auf einer Vielzahl von Bild- und Video-Benchmarks (z. B. VQAv2, MMBench, VideoMME) mit Modellen wie LLaVA-1.5-7B und LLaVA-Video-7B.

Effizienzsteigerung:
- Auf dem VideoMME-Datensatz erzielt EvoPrune eine 2-fache Beschleunigung (2× Speedup) der Gesamtinferenzzeit.
- Im Vergleich zu State-of-the-Art-Methoden (wie FasterVLM, VisPruner), die oft nur den LLM-Teil beschleunigen, beschleunigt EvoPrune auch den Visual Encoder signifikant (1,8×) und die Zwischenmodule (5×).
Leistungsbeibehaltung:
- Trotz aggressiver Token-Reduktion (z. B. Reduktion auf 16 Token pro Frame bei Videos) bleibt der Leistungsabfall minimal (< 1 %).
- Bei einer Reduktion auf 64×64 Token (62,1 % weniger Token) erreicht EvoPrune eine relative Genauigkeit von 99,7 % im Vergleich zum ungeschnittenen Modell und übertrifft alle Baselines.
Vergleich: EvoPrune konsistent bessere Trade-offs zwischen Geschwindigkeit und Genauigkeit als reine Ähnlichkeits- oder reine Attention-basierte Methoden.

5. Bedeutung und Ausblick

EvoPrune adressiert ein kritisches Skalierbarkeitsproblem bei MLLMs. Durch die Verlagerung des Pruning in den Encoder wird die „Flaschenhals"-Situation gelöst, bei der der Encoder bei großen Eingaben (hohe Auflösung, lange Videos) den Großteil der Latenz verursacht.

Praktische Relevanz: Die Methode macht MLLMs für latenzkritische Anwendungen wie Echtzeit-Videanalyse und Edge-Computing praktikabel, ohne dass ein teures Nach-Training notwendig ist.
Zukunft: Die Autoren planen, EvoPrune auf komplexere Szenarien mit dynamischen Sequenzen zu erweitern, indem zeitliche Redundanzen (Cross-Frame) noch besser genutzt werden.

Zusammenfassend stellt EvoPrune einen effizienten Weg dar, um die Rechenkosten multimodaler Modelle drastisch zu senken, indem es die Redundanz in visuellen Daten bereits während der Feature-Extraktion intelligent und informationsbewusst reduziert.

EvoPrune: Early-Stage Visual Token Pruning for Efficient MLLMs

Das Problem: Der „Daten-Stau"

Die Lösung: EvoPrune – Der „Frühwarnsystem"-Ansatz

Wie funktioniert das „Magische" im Inneren?

Warum ist das so großartig?

Zusammenfassung

1. Problemstellung

2. Methodik: EvoPrune

Kernkomponenten:

Algorithmus:

3. Hauptbeiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

When Is Collective Intelligence a Lottery? Multi-Agent Scaling Laws for Memetic Drift in LLMs

AutoSAM: an Agentic Framework for Automating Input File Generation for the SAM Code with Multi-Modal Retrieval-Augmented Generation

Trust as Monitoring: Evolutionary Dynamics of User Trust and AI Developer Behaviour

Formal Semantics for Agentic Tool Protocols: A Process Calculus Approach