Stateful Token Reduction for Long-Video Hybrid VLMs

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr intelligenten Assistenten, der dir Videos erklärt. Aber hier ist das Problem: Wenn du ihm einen langen Film zeigst, muss er sich jede einzelne Sekunde, jedes Bild und jedes Detail merken. Das ist wie wenn du versuchst, einen ganzen Ozean in einer einzigen Eimer zu tragen – es wird schnell zu schwer, zu langsam und zu teuer.

Dieser Artikel von NVIDIA beschreibt eine neue Methode, wie man diesem Assistenten hilft, klüger statt härter zu arbeiten, besonders wenn er Hybrid-Architekturen (eine Mischung aus zwei verschiedenen Denkmodellen) nutzt.

Hier ist die Erklärung in einfachen Worten:

1. Das Problem: Der "Informations-Overload"

Wenn ein KI-Modell ein Video sieht, zerlegt es es in tausende von kleinen Bild-Stücken, die man Tokens nennt. Bei einem langen Video sind das schnell 10.000 oder mehr.

Das alte Problem: Die meisten Methoden, um die KI zu beschleunigen, schneiden einfach die ersten 75 % dieser Bilder weg, basierend auf einer schnellen Einschätzung.
Das Risiko: Das ist wie wenn du einen Roman liest und die ersten drei Kapitel einfach wegwirfst, weil sie dir "langweilig" vorkamen. Aber vielleicht war genau dort der Schlüssel, um das Ende zu verstehen! Wenn man zu früh zu viel wegwirft, verliert die KI den Faden.

2. Die Entdeckung: Warum "Hybrid"-KIs anders sind

Die Forscher haben zwei Arten von KIs verglichen:

Der reine "Transformer" (Der klassische Denker): Er denkt Schritt für Schritt. Wenn er ein Bild wegwirft, ist es für immer weg. Er hat kein Gedächtnis für das, was er gerade weggeworfen hat.
Der "Hybrid" (Der neue Mamba-Transformer): Dieser Typ hat ein kurzfristiges Gedächtnis (einen "Zustands-Speicher"). Selbst wenn er ein Bild nicht mehr aktiv betrachtet, hat er die Essenz davon in seinem Gedächtnis gespeichert. Es ist, als würde er ein Bild nicht wegwerfen, sondern nur in einen Koffer packen, den er mit sich trägt.

Die Erkenntnis: Bei Hybrid-KIs ist es sicherer, Dinge wegzulassen, weil das Gedächtnis die Information trotzdem behält. Bei klassischen KIs führt das sofort zu Fehlern.

3. Die Lösung: Der "Stufenweise-Verkleinerungs-Plan"

Da die Wichtigkeit der Bilder sich von Schicht zu Schicht ändert (was im ersten Moment wichtig ist, ist im zweiten vielleicht egal und umgekehrt), schlagen die Autoren einen cleveren Zeitplan vor:

Frühe Phase (Vorsichtig sein): Am Anfang des Denkprozesses wissen wir noch nicht genau, welche Bilder wichtig sind. Also behalten wir hier fast alle Bilder bei. Wir werfen noch nichts weg.
Späte Phase (Mutig sein): Je weiter die KI "denkt", desto besser versteht sie den Kontext. Jetzt wissen wir genau, welche Bilder wirklich wichtig sind. Hier können wir aggressiv wegkürzen.

Die Analogie: Stell dir vor, du packst einen Koffer für eine Reise.

Am Anfang legst du alles hinein (Vorsicht).
Wenn du merkst, dass du schon viel Platz hast und genau weißt, was du brauchst, nimmst du die unnötigen Dinge erst am Ende wieder heraus.
Die alte Methode wäre gewesen: "Ich nehme einfach die Hälfte der Kleidung aus dem Koffer, bevor ich überhaupt weiß, wohin ich reise."

4. Das Ergebnis: Schnell wie ein Rennwagen, klug wie ein Professor

Die Forscher haben ihre Methode getestet, indem sie die KI gezwungen haben, nur noch 25 % der Bilder zu verarbeiten (statt 100 %).

Geschwindigkeit: Die KI war 4-mal schneller beim Starten der Antwort (das nennt man "Prefilling").
Qualität: Überraschenderweise war die Antwort fast genauso gut wie ohne Kürzung! Und wenn man die KI noch ein wenig nachtrainiert hat, wurde sie sogar noch besser als die ungeschnittene Version.
Der Vergleich: Bei der klassischen KI (ohne Gedächtnis) führte das Wegwerfen von 75 % der Bilder zu einem massiven Qualitätsverlust. Bei der Hybrid-KI passte sie sich an und lieferte hervorragende Ergebnisse.

Zusammenfassung

Die Forscher haben herausgefunden, dass man bei modernen, hybriden KI-Modellen nicht einfach blind Dinge wegschneiden darf. Stattdessen muss man geduldig sein: Behalte am Anfang alles, verarbeite es, und werfe dann erst das Unwichtige weg, wenn das Modell den Kontext verstanden hat.

Dadurch werden Video-KIs endlich schnell genug, um lange Filme in Echtzeit zu verstehen, ohne dass sie "vergisst", worum es eigentlich ging. Es ist der Unterschied zwischen einem Assistenten, der panisch Dinge wegwirft, und einem, der ruhig und strategisch vorgeht.

Each language version is independently generated for its own context, not a direct translation.

Titel: Stateful Token Reduction for Long-Video Hybrid VLMs

Autoren: Jindong Jiang et al. (NVIDIA)
Datum: März 2026 (vorläufige Version)

1. Problemstellung

Vision-Language-Modelle (VLMs) für lange Videos stehen vor einem erheblichen Rechendilemma: Lange Videos generieren eine enorme Anzahl visueller Tokens (oft >10.000), was die Inferenzkosten, insbesondere während der Prefilling-Phase (Verarbeitung des Eingabe-Kontexts), extrem erhöht.

Herausforderung bei Hybrid-Architekturen: Bisherige Methoden zur Token-Reduktion (Pruning oder Merging) wurden primär für reine Transformer-Architekturen entwickelt. Sie ignorieren jedoch hybride Architekturen, die Attention-Blöcke mit linearen State-Space-Modellen (wie Mamba) mischen.
Fehleranfälligkeit früher Pruning-Entscheidungen: In reinen Transformer-Modellen ist die Wichtigkeit von Tokens oft instabil über die Schichten hinweg. Ein aggressives, frühes Entfernen von Tokens führt zu irreversiblen Informationsverlusten, da Transformer keine persistente Zustandsinformation zwischen den Schichten speichern („Memory-free").
Lücke: Es fehlte an einer Methode, die die spezifischen Eigenschaften von Hybrid-Modellen (insbesondere den rekurrenten Zustand in Mamba-Blöcken) nutzt, um Token-Reduktion sicher und effizient durchzuführen.

2. Methodik

Die Autoren schlagen einen neuen Ansatz vor, der auf einer tiefen Analyse des Token-Verhaltens in Hybrid-Modellen basiert und eine schrittweise Reduktionsstrategie implementiert.

A. Analyse: Sparsity und Stabilität

Die Autoren untersuchten zwei Schlüsseleigenschaften:

Layerwise Sparsity (Schichtweise Sparsamkeit): Wie viele Tokens tragen zur eigentlichen Query-Relevanz bei? Die Analyse zeigte, dass die Wichtigkeit innerhalb einer Schicht stark konzentriert ist (hohe Sparsamkeit).
Importance Stability (Stabilität der Wichtigkeit): Bleiben die wichtigsten Tokens über die Schichten hinweg gleich?
- Ergebnis: Die Rangfolge der wichtigsten Tokens ändert sich stark zwischen den Schichten (schwache Korrelation).
- Konsequenz: Ein aggressives Pruning in den frühen Schichten ist unzuverlässig, da Tokens, die zunächst unwichtig erscheinen, später kritisch werden können.

B. Der hybride Vorteil: Stateful Compression

Ein zentraler Erkenntnisgewinn ist der Unterschied zwischen Transformer und Hybrid-Modellen:

Transformer: Pruning ist gleichbedeutend mit „Drop" (Löschen). Informationen gehen für nachfolgende Schichten verloren.
Hybrid (Mamba): Mamba-Blöcke unterhalten einen rekurrenten latenten Zustand, der Informationen über die Zeit akkumuliert. Selbst wenn ein Token aus der aktiven Berechnung entfernt wird, bleibt seine Information im komprimierten Zustand ( $S_t$ ) erhalten. Dies macht Hybrid-Modelle robuster gegenüber aggressivem Pruning, da die Information nicht vollständig verloren geht, sondern „komprimiert" weitergegeben wird.

C. Proposed Method: Progressive Reduction & Unified Scoring

Basierend auf diesen Erkenntnissen entwickeln die Autoren:

Progressive Low-to-High Schedule: Anstatt alle Tokens sofort zu reduzieren, wird die Reduktion schrittweise über die Schichttiefe hinweg erhöht.
- Frühe Schichten: Wenige Tokens werden entfernt (da die Wichtigkeit noch instabil ist und der State noch nicht genug Information gesammelt hat).
- Späte Schichten: Aggressivere Reduktion (da der Mamba-Zustand bereits Informationen aggregiert hat).
Unified Language-Aware Scoring:
- Für Attention-Blöcke: Nutzung standardmäßiger Text-zu-Vision-Attention-Gewichte.
- Für Mamba-Blöcke: Entwicklung eines impliziten Attention-Proxy. Da Mamba keine explizite Attention-Matrix hat, leiten die Autoren die Token-Wichtigkeit aus der unrollten selektiven Scan-Update-Formel ab. Sie nutzen die Dot-Produkte der Projektionen ( $\bar{b}$ und $c$ ) als Proxy für Query-Key-Alignment, wobei der Decay-Term (der die Wichtigkeit alter Tokens mindert) ignoriert wird, um die Relevanz über die gesamte Sequenz hinweg fair zu bewerten.

3. Experimente und Ergebnisse

Die Methode wurde auf Nemotron-Nano-V2 VL 12B (Hybrid) und Qwen3-VL 8B (reiner Transformer) evaluiert.

Benchmarks: VideoMME, LongVideoBench, LVBench (lange Videos bis zu 2 Stunden).
Einstellungen: Aggressive Kompression (Retention von nur 25% der visuellen Tokens).

Wichtige Ergebnisse:

Geschwindigkeit: Das Verfahren erzielt eine 3,8- bis 4,2-fache Beschleunigung der Prefilling-Zeit (Time-to-First-Token, TTFT).
Genauigkeit (Test-Time): Bei reiner Inferenz ohne Nachtraining bleibt die Genauigkeit nahe am Baseline-Wert (z. B. VideoMME: 69,22 vs. 68,85 bei 25% Retention im Hybrid-Modell).
Genauigkeit (Train-Time): Durch leichtes Fine-Tuning unter reduzierter Token-Anzahl übertrifft das Hybrid-Modell sogar das unkomprimierte Baseline-Modell (z. B. +1,37 Punkte im Durchschnitt über alle Benchmarks).
Vergleich Hybrid vs. Transformer:
- Das Hybrid-Modell profitiert von der Kompression: Es wird schneller und genauer (durch das Fine-Tuning).
- Das reine Transformer-Modell zeigt den klassischen Trade-off: Es wird schneller, verliert aber signifikant an Genauigkeit bei aggressiver Kompression (besonders bei 25% Retention), da ihm der rekurrente Speicher fehlt, um Informationen zu kompensieren.
Skalierbarkeit: Bei langen Videos (bis 512 Frames) verhindert die Reduktion das Out-of-Memory (OOM) und skaliert die Latenz deutlich besser als das Baseline-Modell.

4. Schlüsselbeiträge

Erste Analyse von Token-Reduktion in Hybrid-VLMs: Identifikation der schwachen Korrelation der Token-Wichtigkeit über Schichten hinweg und der daraus resultierenden Unzuverlässigkeit von Early-Pruning.
Stateful Compression Insight: Demonstration, dass der rekurrente Zustand in Mamba-Blöcken Token-Reduktion von einem „Löschen" zu einer „Komprimierung" wandelt, was höhere Reduktionsraten toleriert.
Neue Scoring-Methode für Mamba: Ein Proxy-Mechanismus, der Query-basierte Token-Bewertung auch in nicht-Attention-Blöcken (State-Space-Modellen) ermöglicht.
Progressive Scheduling: Ein schichtabhängiger Reduktionsplan, der die Instabilität früher Schichten ausgleicht und die Robustheit später Schichten nutzt.

5. Bedeutung und Ausblick

Diese Arbeit ist ein Meilenstein für die effiziente Verarbeitung langer Videos in modernen VLMs. Sie zeigt, dass die Kombination aus Hybrid-Architekturen (Mamba + Transformer) und schichtabhängigen Reduktionsstrategien nicht nur die Inferenzkosten drastisch senkt, sondern durch gezieltes Fine-Tuning sogar die Leistungsfähigkeit steigern kann.

Dies ermöglicht den Einsatz von VLMs auf Hardware mit begrenztem Speicher (z. B. Consumer-GPUs) für Anwendungen, die bisher nur auf großen Server-Clustern möglich waren (z. B. Analyse von Stunden-langen Überwachungsvideos oder Dokumentationen). Die Methode adressiert direkt das Skalierungsproblem von Multimodal-Modellen und bietet einen Weg, um die „Token-Explosion" bei langen Kontexten zu beherrschen, ohne die semantische Qualität zu opfern.