Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen riesigen, hochauflösenden Videofilm, den du dir ansehen möchtest. Ein modernes KI-Modell (ein „Video-LLM") versucht, diesen Film zu verstehen und Fragen dazu zu beantworten. Das Problem ist: Der Film besteht aus Tausenden von Einzelbildern (Frames), und jedes Bild besteht aus Millionen von kleinen Details (den sogenannten „Tokens").

Wenn das KI-Modell versucht, all diese Details gleichzeitig zu verarbeiten, wird es extrem langsam, braucht einen riesigen Stromverbrauch und den ganzen Speicherplatz seines Computers. Es ist, als würde man versuchen, einen ganzen Ozean Wasser in einen kleinen Eimer zu füllen, nur um einen Schluck zu trinken.

Bisherige Methoden waren wie ein ungeschickter Gärtner: Sie haben einfach die „unwichtigen" Blumen abgeschnitten oder viele ähnliche Blumen zu einem Haufen zusammengepresst. Das Problem dabei? Oft haben sie dabei auch wichtige Informationen verloren oder den Haufen nur verdreckt, ohne den Geschmack zu verbessern.

Die neue Lösung: AOT (Der clevere Kurierdienst)

Die Autoren dieses Papers schlagen eine völlig neue Methode vor, die sie AOT nennen. Sie nutzen ein mathematisches Konzept namens „Optimaler Transport" (Optimal Transport). Um das einfach zu erklären, nutzen wir eine Analogie:

1. Die Idee der „Anker" (Die wichtigsten Punkte)

Stell dir vor, du musst eine lange Reise mit vielen Stopps machen. Anstatt jeden einzelnen Schritt zu beschreiben, entscheidest du dich für ein paar wichtige Ankerpunkte (z. B. große Städte), an denen du Halt machst.

Lokal: Du wählst in jedem Bild (Frame) bestimmte Punkte aus, die lokal wichtig sind (z. B. ein Gesicht oder ein Objekt).
Global: Du wählst auch Punkte aus, die das ganze Bild zusammenfassen (z. B. die Stimmung oder den Hintergrund).

Diese ausgewählten Punkte werden zu deinen „Ankern". Alles andere ist „unwichtiges Gepäck".

2. Der Transport (Das Magische)

Hier kommt der Clou: Früher wurde das „unwichtige Gepäck" einfach weggeworfen. Bei AOT passiert etwas Magisches.

Stell dir vor, die weggeworfenen Details sind wie Wasser, das in vielen kleinen Eimern (den ungewählten Tokens) steht. Deine Anker sind wie große, leere Tanks.
Die Methode AOT berechnet den perfekten Weg, um das Wasser aus den kleinen Eimern in die großen Tanks zu pumpen.

Sie fragt: „Welches Wasser aus welchem kleinen Eimer passt am besten in welchen Tank?"
Sie mischt das Wasser so, dass der Tank am Ende nicht nur Wasser enthält, sondern den perfekten Geschmack aller kleinen Eimer, die dorthin gehören.

Das Ergebnis: Du hast immer noch nur wenige große Tanks (die Anker), aber sie enthalten nun die gesamte Information des ursprünglichen Ozeans, verdichtet und perfekt gemischt. Nichts geht verloren, aber der Platzbedarf ist winzig.

3. Die Zeitreise (Zwischen den Bildern)

Ein Video ist nicht nur eine Ansammlung von Bildern, sondern eine Geschichte.

Intra-Frame (Innerhalb eines Bildes): Wie oben beschrieben, wird das Bild selbst verdichtet.
Inter-Frame (Zwischen den Bildern): Stell dir vor, du hast ein Video von einem laufenden Hund. In Bild 1 ist der Hund links, in Bild 2 ist er rechts.
- Die Methode erkennt: „Ah, der Hund ist fast derselbe, nur ein bisschen verschoben."
- Statt das Bild 2 komplett neu zu speichern, wird es mit Bild 1 „verschmolzen". Nur die Bewegung (der Unterschied) wird extra gespeichert.
- So entsteht eine Art „Zeit-Strick", bei dem nur die wichtigen Änderungen neu eingearbeitet werden, während die Ähnlichkeiten zusammengefasst werden.

Warum ist das so toll?

Kein Training nötig: Die KI muss nicht neu gelernt werden. Es ist wie ein Filter, den man einfach vor das Objektiv klemmt.
Extrem schnell: Da die KI nur noch mit wenigen, aber super-relevanten „Ankern" arbeitet, ist sie bis zu 12-mal schneller und braucht viel weniger Rechenleistung.
Kein Qualitätsverlust: Selbst wenn man 90% der ursprünglichen Daten wegwirft, versteht die KI das Video fast genauso gut wie vorher. Sie hat die „Essenz" behalten und den „Lärm" entfernt.

Zusammenfassend:
Statt einen Videofilm einfach zu kürzen oder zu komprimieren, wie man ein Video auf YouTube herunterlädt, nimmt AOT den Film, zerlegt ihn in seine wichtigsten Momente und mischt alle Details so geschickt zusammen, dass am Ende eine winzige, aber vollkommene Zusammenfassung übrig bleibt. Die KI kann diesen „perfekten Schluck" trinken und versteht den Film trotzdem in seiner ganzen Tiefe.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Video Large Language Models (VLLMs) zeichnen sich durch ein starkes Verständnis von Videoinhalten aus, leiden jedoch unter erheblichen Ineffizienzen. Der Hauptgrund hierfür ist die Redundanz visueller Token, die durch die Verarbeitung tausender Frames entsteht.

Herausforderungen bestehender Methoden:
- Viele Ansätze konzentrieren sich entweder nur auf räumliche Redundanz innerhalb eines Frames oder führen Pruning innerhalb des LLM durch, was oft nur oberflächliche Reduktionen ermöglicht.
- Bestehende Methoden neigen dazu, Token einfach zu entfernen oder ähnliche Token zu mergen, ohne deren subtilen, aber informativen Kontext zu bewahren.
- Dies führt zu einem Verlust an semantischer Information und einer schlechten Nutzung der Komprimierbarkeit im Langkontext.
- Viele Lösungen erfordern ein aufwendiges Fine-Tuning oder Training, was hohe Kosten verursacht.

Das Ziel ist es, visuelle Token zu reduzieren, während gleichzeitig kritische semantische und kontextuelle Informationen (sowohl räumlich als auch zeitlich) erhalten bleiben, und dies ohne zusätzliches Training (training-free).

2. Methodik: AOT (Anchors via Optimal Transport)

Die Autoren schlagen AOT vor, einen neuen Ansatz, der Token-Anker (Anchors) innerhalb und zwischen Frames etabliert und diese durch Optimal Transport (OT) optimiert, um informative Kontexte zu aggregieren.

A. Etablierung von Local-Global Token Anchors

Bevor eine Reduktion stattfindet, werden für jeden Frame stabile „Anker-Token" ausgewählt, die als Basis für die Aggregation dienen:

Globale Anker: Token, die die meiste Aufmerksamkeit vom [CLS]-Token (oder via Self-Attention bei fehlendem [CLS]) erhalten, um globale Informationen zu erfassen.
Lokale Anker: Das Bild wird in ein Gitter unterteilt. Innerhalb jedes Gitterfensters werden die wichtigsten Token basierend auf der Aufmerksamkeit ausgewählt, um feine lokale Details zu bewahren.
Das Ergebnis ist eine Menge von Anker-Token ( $X_a$ ), die semantisch wichtig und räumlich divers sind, sowie eine Menge nicht ausgewählter Token ( $X_u$ ).

B. Intra-Frame Pruning (Räumliche Reduktion)

Innerhalb eines einzelnen Frames wird Optimal Transport genutzt, um die Information der nicht ausgewählten Token ( $X_u$ ) auf die Anker-Token ( $X_a$ ) zu übertragen.

Optimierungsproblem: Die Token werden als diskrete Wahrscheinlichkeitsverteilungen modelliert. Die Kostenmatrix $C$ basiert auf dem inversen Kosinus-Ähnlichkeitsmaß ( $1 - \text{similarity}$ ).
Transportplan: Ein Transportplan $T$ wird berechnet (mittels Sinkhorn-Knopp-Iteration), der angibt, wie viel „Masse" (Kontext) von einem nicht ausgewählten Token zu einem Anker fließt.
Aggregation: Die Anker-Token werden aktualisiert, indem sie die gewichtete Information der nicht ausgewählten Token absorbieren. Dies geschieht nach der Formel:
$\tilde{x}_j^a = x_j^a + \lambda_{intra} \frac{\sum T_{ij}^* x_i^u}{1 + \lambda_{intra} m_j}$
Dabei wird sichergestellt, dass keine Information verloren geht, sondern in die verbleibenden Anker „verdichtet" wird.

C. Inter-Frame Pruning (Zeitliche Reduktion)

Um zeitliche Redundanz über mehrere Frames hinweg zu reduzieren, wird ein ähnlicher Ansatz auf Frame-Clips angewendet:

Die Anker des ersten Frames eines Clips dienen als temporale Basis.
Für nachfolgende Frames werden die Anker des vorherigen Frames mit den Token des aktuellen Frames verglichen.
Dynamik-Erhaltung: Token, die starke zeitliche Änderungen zeigen (hohe Dissimilarität), werden beibehalten, um die Bewegungsdynamik zu erhalten. Token mit ähnlichem Inhalt werden über den OT-Plan in die bestehenden Anker aggregiert.
Dies ermöglicht eine effiziente Kompression über die Zeitachse, ohne wichtige Bewegungsabläufe zu verlieren.

D. Training-Free Pipeline

Der gesamte Prozess ist training-frei. Die Berechnung des Transportplans erfolgt effizient durch die Sinkhorn-Knopp-Iteration, was einen geringen Overhead verursacht (weniger als 1% der gesamten Inferenzzeit).

3. Wichtige Beiträge

Neue Perspektive: Der erste Ansatz, der darauf abzielt, subtile und informative Semantik aus zu entfernenden Token in die verbleibenden Anker zu aggregieren, anstatt sie einfach zu löschen oder naiv zu mitteln.
Local-Global Anker: Eine Strategie zur Auswahl von Token-Ankern, die sowohl globale Semantik als auch lokale räumliche Diversität sicherstellen.
Optimal Transport für VLLMs: Die Anwendung von OT, um räumliche und zeitliche Kontexte aus Pruning- und Merging-Prozessen zu extrahieren und in einem training-freien Setup zu erhalten.
Umfassende Evaluation: Validierung auf führenden Benchmarks mit signifikanten Effizienzgewinnen bei Erhalt der Leistung.

4. Ergebnisse

Die Methode wurde auf den Modellen LLaVA-OneVision-7B und LLaVA-Video-7B getestet.

Leistungserhalt: AOT reduziert die Anzahl der Video-Token um 90%, behält aber 97,6% der Leistung des Originalmodells auf allen getesteten Benchmarks (MVBench, LongVideoBench, EgoSchema, VideoMME) bei.
Recheneffizienz: Die Rechenkosten (FLOPs) werden auf nur 8,3% der ursprünglichen Kosten reduziert.
Vergleich mit SOTA: AOT übertrifft bestehende training-freie Methoden wie FastV, VisionZip, DyCoke und PruneVid, insbesondere bei aggressiven Reduktionsraten (z.B. 10% Token-Erhalt).
Skalierbarkeit: Die Methode zeigt Robustheit bei unterschiedlichen Eingabeframeraten (16 bis 128 Frames) und bewältigt lange Videos besser als Baseline-Modelle, die oft an Kontextlängenlimits scheitern.
Overhead: Der zusätzliche Aufwand für die OT-Berechnung beträgt weniger als 2,11 ms pro Video (bei 32 Frames), was vernachlässigbar ist.

5. Bedeutung und Fazit

Die Arbeit demonstriert, dass Token-Reduktion in Video-LLMs nicht zwangsläufig zu einem Leistungsabfall führen muss, wenn die Information intelligent aggregiert wird.

Paradigmenwechsel: Statt Token als „Müll" zu betrachten und zu löschen, betrachtet AOT sie als Quellen für Kontext, die durch mathematische Optimierung (OT) in kompakte Repräsentationen überführt werden.
Praktische Relevanz: Da der Ansatz training-frei ist und auf bestehenden Modellen funktioniert, kann er sofort zur Beschleunigung von Video-LLM-Inferenzen eingesetzt werden, was die Anwendung auf ressourcenbeschränkten Geräten oder für Echtzeitanwendungen ermöglicht.
Zukunftspotenzial: Die Autoren sehen Potenzial darin, die OT-Strategie in zukünftige trainierbare Systeme zu integrieren, um noch effizientere Token-Reduktionsframeworks zu entwickeln.

Zusammenfassend bietet AOT einen effektiven Weg, die enorme Rechenlast von Video-LLMs zu senken, ohne die visuelle und zeitliche Integrität der Daten zu opfern.