Contribution-aware Token Compression for Efficient Video Understanding via Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der überfüllte Bus

Stell dir vor, du hast einen riesigen, vollgepackten Bus (das ist dein Video-Modell). In diesem Bus sitzen Tausende von Passagieren (das sind die Video-Token – also die kleinen Bildchen, aus denen das Video besteht).

Wenn du dem Busfahrer (dem Künstlichen Intelligenz-Modell) eine Frage stellst wie: "Was trägt der Mann auf dem Video?", muss der Busfahrer sich alle Tausende Passagiere ansehen, um die Antwort zu finden. Das ist extrem anstrengend, langsam und kostet viel Energie.

Bisherige Methoden waren wie ein strenger Kontrolleur, der sagt: "Wir behalten nur die Passagiere, die am lautesten schreien oder am hellsten leuchten (hohe 'Aufmerksamkeitsscores'), und werfen die anderen raus."
Das Problem dabei: Manchmal schreit ein Passagier laut, ist aber für die Frage völlig unwichtig. Und der Passagier, der die Antwort weiß (z. B. das Hemd des Mannes), schweigt vielleicht leise und wird fälschlicherweise rausgeworfen. Das Ergebnis ist oft falsch oder ungenau.

Die Lösung: CaCoVID – Der kluge Reiseleiter

Die Forscher haben CaCoVID entwickelt. Das ist wie ein kluger Reiseleiter, der den Bus nicht nach dem "Lautesten" sortiert, sondern nach dem Wichtigsten für die spezifische Frage.

Hier ist, wie es funktioniert, Schritt für Schritt:

1. Lernen durch Ausprobieren (Reinforcement Learning)

Statt nur Regeln zu befolgen, lernt der Reiseleiter durch Versuch und Irrtum.

Die Analogie: Stell dir vor, der Reiseleiter probiert verschiedene Gruppen von Passagieren aus. Er behält bei Versuch A nur die Leute mit den roten Hüten, bei Versuch B nur die mit den Brillen.
Danach fragt er den Busfahrer: "Hast du die richtige Antwort gefunden?"
Wenn ja: "Super! Diese Gruppe war gut!" (Belohnung).
Wenn nein: "Schade, diese Gruppe war nicht hilfreich." (Strafe).
So lernt der Reiseleiter schnell, welche Passagiere wirklich wichtig sind, um die Frage zu beantworten. Er wird nicht passiv, sondern aktiv auf die Suche nach der besten Kombination.

2. Die große Herausforderung: Der riesige Suchraum

Das Problem bei Videos ist: Es gibt so viele Passagiere (über 1000), dass die Anzahl der möglichen Kombinationen astronomisch hoch ist (wie alle möglichen Wege durch ein Labyrinth). Wenn der Reiseleiter einfach zufällig Gruppen aussucht, würde er ewig brauchen, um das Richtige zu finden. Das nennt man "divergente Lernbewegungen" – er verirrt sich.

3. Der Trick: Der "Online-Kombinations-Raum" (OCSS)

Hier kommt der geniale Trick von CaCoVID ins Spiel.

Die Analogie: Statt im ganzen Labyrinth wild herumzulaufen, teilt der Reiseleiter das Labyrinth in kleine, überschaubare Zimmer ein.
Er sortiert die Passagiere erst einmal grob nach ihrer Wichtigkeit. Dann bildet er Zimmer, in denen nur Passagiere mit ähnlicher Wichtigkeit sitzen.
Er sucht dann nicht im ganzen Labyrinth, sondern nur in den vielversprechendsten Zimmern.
Der Vorteil: Das macht die Suche unglaublich schneller und effizienter. Der Reiseleiter findet viel schneller die perfekte Gruppe von Passagieren, die zusammen die Antwort liefern.

Das Ergebnis: Schnell, schlau und präzise

Dank dieser Methode passiert Folgendes:

Weniger Ballast: Der Bus wird entladen. Es bleiben nur die Passagiere übrig, die wirklich zur Antwort beitragen (z. B. das Hemd, die Brille, die Handbewegung).
Bessere Antworten: Da die "falschen" Passagiere (die nur laut schrien, aber nichts zur Sache sagten) rausgeflogen sind, kann sich der Busfahrer besser konzentrieren. Die Antworten werden genauer.
Geschwindigkeit: Da weniger Passagiere transportiert werden müssen, fährt der Bus viel schneller. Die Berechnung ist deutlich weniger aufwendig.

Zusammenfassung in einem Satz

CaCoVID ist wie ein intelligenter Reiseleiter, der durch geschicktes Ausprobieren und gezieltes Sortieren herausfindet, welche wenigen Passagiere in einem überfüllten Video-Bus wirklich wichtig sind, um eine Frage zu beantworten – und wirft den ganzen unnötigen Ballast weg, ohne dass das Ziel aus den Augen verloren wird.

Das Besondere daran: Das Modell muss nicht komplett neu gelernt werden. Es ist wie ein Add-On, das auf bestehende, starke KI-Modelle aufgesetzt wird, um sie schneller und effizienter zu machen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Video-Large-Language-Modelle (Video-LLMs) haben beeindruckende Fähigkeiten im Verständnis von Videos gezeigt, stoßen jedoch bei der Inferenz auf erhebliche Rechenkosten. Dies liegt primär an der hohen Anzahl redundanter Video-Token und der quadratischen Komplexität der Aufmerksamkeitsmechanismen (Attention Mechanisms).

Bestehende Kompressionsalgorithmen versuchen, Token zu entfernen, um die Effizienz zu steigern. Diese lassen sich in zwei Kategorien einteilen:

Inhaltsbasiert: Nutzen handgefertigte Metriken (z. B. Diversität oder räumlich-zeitliche Struktur), um Token zu erhalten. Diese sind oft „query-agnostisch" (fragenunabhängig) und können für die spezifische Frage entscheidende Token entfernen.
Modellbasiert: Entfernen Token mit niedrigen Aufmerksamkeitswerten (Attention Scores).

Das Kernproblem: Die Arbeit zeigt auf, dass hohe Aufmerksamkeitswerte nicht unbedingt mit dem tatsächlichen Beitrag eines Tokens zur korrekten Beantwortung einer Frage korrelieren. Oft werden kritische visuelle Informationen (z. B. die Kleidung einer Person) ignoriert, während weniger relevante Bereiche hohe Aufmerksamkeit erhalten (ein Phänomen, das als „Visual Attention Sink" bekannt ist). Folglich führen herkömmliche Methoden zu suboptimaler Kompression und Leistungsabfall.

2. Methodik: CaCoVID

Die Autoren schlagen CaCoVID (Contribution-aware token Compression algorithm for VIDeo understanding) vor, einen Ansatz, der auf Reinforcement Learning (RL) basiert, um Token aktiv nach ihrem Beitrag zur korrekten Vorhersage auszuwählen, anstatt sie passiv basierend auf statischen Metriken zu filtern.

A. Kompressions-Policy-Netzwerk

Ein kleines, lernbares Netzwerk wird trainiert, um die Beiträge von Video-Token und -Frames zu schätzen.

Architektur: Es nutzt einen Self-Attention-Mechanismus, um Interaktionen zwischen Video-Token und Frage-Token (Text) herzustellen. Anschließend werden zwei Multi-Layer-Perceptrons (MLPs) verwendet, um für jeden Token und jede Frame einen Beitragsscore zu berechnen.
Ziel: Das Netzwerk lernt, welche Token und Frames für die Beantwortung der spezifischen Frage am wichtigsten sind, basierend auf Feedback des LLMs.

B. Kombinatorische Policy-Optimierung (CPO)

Ein Hauptproblem beim RL für Token-Auswahl ist der riesige kombinatorische Suchraum ($2^n $für$ n$ Token), der eine direkte Exploration unmöglich macht. Um dies zu lösen, wird ein neuer Algorithmus namens Online Combinatorial Space Sampling (OCSS) eingeführt:

Sortierung und Partitionierung: Die geschätzten Beitragsscores der Token werden genutzt, um diese zu sortieren und in mehrere kombinatorische Sub-Räume zu unterteilen. Token mit ähnlichen Beiträgen werden gruppiert.
Zweistufiges Sampling:
- Zuerst wird ein Sub-Raum basierend auf der Summe der Beiträge in diesem Bereich kategoriale ausgewählt.
- Innerhalb des gewählten Sub-Raums wird dann multinomial nach spezifischen Token-Kombinationen gesamplet.
Vorteil: Dies reduziert den Suchraum drastisch und verhindert das Sammeln ineffektiver Kombinationen (z. B. Mischung aus sehr wichtigen und unwichtigen Token), was die Konvergenz des Policy-Netzwerks beschleunigt.

C. Trainingsprozess und Daten-Effizienz

Reward-Signal: Die Belohnung (Reward) basiert darauf, ob das LLM mit den komprimierten Token die richtige Antwort liefert (im Vergleich zum Ground Truth).
Daten-Effizienz-Strategien:
- Filterung: Einfache Fragen, die ohne Video beantwortet werden können, werden herausgefiltert.
- Experience Replay: Trainingsdaten werden mehrfach genutzt, um mehr Exploration zu ermöglichen.
- Dynamisches Sampling-Verhältnis: Das Verhältnis der gesampelten Token wird basierend auf der vorherigen Belohnung dynamisch angepasst, um bei schwierigen Fällen mehr Token und bei leichten Fällen weniger zu sampeln.

3. Wichtige Beiträge

Erster RL-basierter Ansatz: CaCoVID ist das erste Framework, das Token-Kompression für Videos direkt durch die Schätzung des Beitrags zur korrekten Vorhersage optimiert, anstatt auf Attention-Scores oder statische Metriken zu vertrauen.
Neuer Optimierungsalgorithmus: Die Einführung von OCSS löst das Problem des exponentiell großen Suchraums bei der Token-Auswahl und ermöglicht eine stabile und schnelle Konvergenz der Policy-Optimierung.
Framework-Unabhängigkeit: Die Methode ist als „Plug-and-Play"-Lösung konzipiert, die ohne Neutrainieren des großen LLMs funktioniert und nur ein kleines Policy-Netzwerk optimiert.

4. Ergebnisse

Die Methode wurde auf verschiedenen Benchmarks (LongVideoBench, MLVU, VideoMME) mit State-of-the-Art-Modellen (LLaVA-OneVision-7B, Qwen2.5-VL-3B) evaluiert.

Leistung: CaCoVID übertrifft konsistent bestehende Methoden (wie FastV, VisionZip, DivPrune) bei verschiedenen Beibehaltungsraten (10% bis 25%). Selbst bei nur 10% der ursprünglichen Token erreicht CaCoVID oft eine höhere Genauigkeit als andere Methoden bei 25%.
Effizienz: Im Vergleich zu anderen Kompressionsalgorithmen ist CaCoVID deutlich schneller (niedrigere Latenz bei der Kompression), da das Policy-Netzwerk Beiträge parallel schätzen kann.
Qualität: Visualisierungen zeigen, dass das Netzwerk kritische Frames (z. B. das Aufheben eines gelben Tuches) und Token (z. B. Kleidung, Gesichter) korrekt identifiziert, die für die Beantwortung der Frage essenziell sind, während andere Methoden diese oft ignorieren.

5. Bedeutung und Fazit

CaCoVID adressiert eine kritische Lücke in der effizienten Videoverarbeitung: Die Diskrepanz zwischen Aufmerksamkeitswerten und dem tatsächlichen Informationsgehalt für eine spezifische Aufgabe.

Durch den Wechsel von einer passiven Token-Erhaltung zu einer aktiven, RL-gesteuerten Suche nach optimalen Token-Kombinationen ermöglicht die Arbeit:

Eine drastische Reduktion der Rechenkosten (FLOPs) bei gleichzeitiger Beibehaltung oder sogar Steigerung der Genauigkeit.
Eine praktikable Lösung für den Einsatz von Video-LLMs in Echtzeitszenarien mit begrenzten Ressourcen.
Einen neuen Paradigmenwechsel in der Token-Kompression, bei dem das Modell selbst lernt, was für die Aufgabe relevant ist, anstatt auf vordefinierte Heuristiken angewiesen zu sein.

Zusammenfassend stellt CaCoVID einen bedeutenden Fortschritt dar, der die Skalierbarkeit und Praxistauglichkeit von Video-LLMs durch intelligente, aufgabenorientierte Kompression erheblich verbessert.