Going Down Memory Lane: Scaling Tokens for Video Stream Understanding with Dynamic KV-Cache Memory

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der überfüllte Gedächtnis-Speicher

Stell dir vor, du siehst einen sehr langen Film und jemand fragt dich zwischendurch: „Was hat die Hauptfigur gerade gemacht?" oder „Wie viele Äpfel hat sie gepflückt?"

Um das zu beantworten, muss dein Gehirn (das KI-Modell) den Film im Kopf behalten. Bisherige KI-Systeme hatten ein Problem: Sie versuchten, jeden einzelnen Moment des Films in ihr Gedächtnis zu speichern. Aber das Gedächtnis ist begrenzt.

Der alte Ansatz: Stell dir vor, du versuchst, 1000 Fotos von einem Film in einen kleinen Rucksack zu stopfen. Da passt nichts mehr rein, also musst du die Fotos extrem klein schneiden (wenige Details pro Bild) oder nur jedes zehnte Foto nehmen. Das Ergebnis? Du hast zwar Platz, aber die Bilder sind unscharf oder du hast wichtige Momente verpasst.
Das neue Problem: Die Forscher haben herausgefunden, dass wenn man versucht, mehr Details pro Bild zu speichern (um die Schärfe zu erhöhen), das System verwirrt wird. Es fängt an, sich nur noch an das Ende des Films zu erinnern und ignoriert den Anfang. Es ist, als würde ein Student, der für eine Prüfung lernt, nur die letzte Seite des Buches lesen, weil er denkt, das sei das Wichtigste.

Die Lösung: MemStream (Der clevere Bibliothekar)

Die Autoren haben eine neue Methode namens MemStream entwickelt. Man kann sich das wie einen extrem effizienten Bibliothekar vorstellen, der einen riesigen Filmarchiv-Raum verwaltet.

1. Der adaptive Schlüssel-Auswahl (AKS) – „Nur das Wesentliche behalten"

Statt jeden einzelnen Pixel jedes Bildes zu speichern, schaut sich MemStream die Bilder an und fragt: „Was ist hier wirklich neu und wichtig?"

Die Analogie: Stell dir vor, du filmst einen Baum im Wind. Die Blätter bewegen sich ständig. Ein dummer Speicher würde jedes einzelne Blatt in jedem Frame speichern. MemStream sagt: „Moment, die Blätter sehen fast gleich aus. Ich speichere nur den Windstoß, der die Bewegung verursacht hat, und ignoriere die Wiederholungen."
Der Effekt: Das System wird schlanker, behält aber die feinen Details (wie die Bewegung oder die genauen Farben), die für die Antwort wichtig sind. Es entfernt den „Rauschen" und behält das „Signal".

2. Das Experten-Team (Mixture-of-Experts) – „Zwei Augen sehen mehr als eines"

Wenn die KI eine Frage bekommt (z. B. „Wie viele Gurken wurden gepflückt?"), sucht sie in ihrem Gedächtnis nach der richtigen Szene.

Das Problem: Die interne Suche der KI ist manchmal unzuverlässig. Sie sucht in den falschen Regalen oder verpasst Details.
Die Lösung: MemStream holt sich Hilfe von einem externen Experten (einem anderen, spezialisierten KI-Modell, das gut darin ist, Bilder zu verstehen).
Die Analogie: Stell dir vor, du suchst nach einem bestimmten Buch in einer riesigen Bibliothek.
- Der interne Bibliothekar (die Haupt-KI) sagt: „Ich glaube, es ist im 5. Regal."
- Der externe Experte (Hilfs-KI) sagt: „Nein, ich habe den Titel gesehen, es ist im 3. Regal."
- MemStream kombiniert beide Meinungen. Es sagt: „Okay, lasst uns beide suchen und die besten Treffer zusammenfügen." So finden sie das Buch viel schneller und genauer, ohne dass einer von beiden allein alles wissen muss.

Das Ergebnis: Warum ist das besser?

In Tests (wie bei langen Videos oder Fragen zu Details) war MemStream deutlich besser als die alten Methoden:

Genauigkeit: Es konnte Fragen beantworten, bei denen die alten Systeme scheiterten (z. B. die genaue Anzahl von Gurken zu zählen).
Geschwindigkeit: Da es keine unnötigen Informationen speichert, läuft es schneller und braucht weniger Rechenleistung.
Kein Nachtrainieren nötig: Das Tolle ist, dass sie dieses System nicht von Grund auf neu lernen mussten. Sie haben einfach die bestehenden KI-Modelle „klüger" gemacht, indem sie ihnen bessere Werkzeuge (den Experten-Check und die selektive Speicherung) gegeben haben.

Zusammenfassung in einem Satz

MemStream ist wie ein kluger Filmkritiker, der nicht jeden einzelnen Frame auswendig lernt, sondern nur die wichtigsten Momente merkt und bei Fragen sofort zwei verschiedene Experten konsultiert, um die perfekte Antwort zu finden – alles ohne den Rucksack zu sprengen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Verständnis von langen Videostreams stellt Multimodale Large Language Models (MLLMs) vor erhebliche Herausforderungen, insbesondere im Kontext von Streaming-Video-Frage-Antwort-Systemen (VideoQA).

Begrenzte Kontextlänge: Herkömmliche Modelle können nicht alle Frames eines langen Videos gleichzeitig verarbeiten.
Trade-off bei Subsampling: Bestehende Ansätze nutzen entweder zeitliches Subsampling (Auswahl von Schlüsselbildern), was zu einem Verlust der zeitlichen Granularität führt, oder räumliches Subsampling (weniger Tokens pro Frame), was feine visuelle Details vernachlässigt.
Limitierungen von KV-Caching: State-of-the-Art-Ansätze wie ReKV nutzen Key-Value (KV) Caches, um Informationen über Zeit zu speichern. Die Autoren identifizieren jedoch kritische Mängel:
- Verlust bei hoher Token-Dichte: Erhöht man die Anzahl der Tokens pro Frame (um Details zu erhalten), verschlechtert sich die Retrieval-Leistung drastisch.
- Zeitliche Verzerrung (Temporal Bias): Bei höheren Token-Budgets steigen die Ähnlichkeitswerte zwischen der Query und späteren Frames im Video systematisch an. Dies führt dazu, dass das Modell Frames am Ende des Videos bevorzugt, anstatt die tatsächlich relevanten Frames zu finden.
- Redundanz: Die Self-Similarity-Matrizen der Key-Repräsentationen zeigen, dass bei mehr Tokens die Frames untereinander zu ähnlich werden, was die Unterscheidbarkeit verringert.
- Instabilität der internen Retrieval: Die interne Aufmerksamkeit des MLLM ist über die verschiedenen Schichten (Layers) hinweg inkonsistent; einige Schichten finden relevante Frames, andere gar keine.

2. Methodik: MemStream

Die Autoren stellen MemStream vor, ein training-freies Framework, das zwei Hauptkomponenten umfasst, um diese Probleme zu lösen:

A. Adaptive Key Selection (AKS) für Sparse Sliding-Window Attention

Um die Redundanz im KV-Cache zu reduzieren und die Diskriminierbarkeit zu erhöhen, wird während der Videokodierung eine adaptive Kompressionsstrategie eingeführt:

Funktionsweise: Anstatt alle Key-Features eines Sliding Windows zu speichern, wird ein Teil der redundanten Informationen entfernt.
Patch-basierte Selektion: Für jedes Paar benachbarter Key-Features ( $K_t$ und $K_{t-1}$ ) werden die Patch-Features berechnet. Es werden nur die $k$ am wenigsten ähnlichen (d.h. einzigartigsten) Patch-Features von $K_t$ beibehalten.
Ziel: Dies eliminiert zeitliche Redundanz innerhalb des Fensters, behält aber lokale spatiotemporale Informationen bei. Die volle Key-Information wird zwar gespeichert, aber die Aufmerksamkeit (Attention) konzentriert sich auf die ausgewählten, informativen Schlüssel.

B. Retrieval Mixture-of-Experts (MoE)

Da die interne Retrieval-Leistung des MLLM über die Schichten hinweg schwankt und oft feine Details verpasst, wird ein training-freier Ansatz zur Kombination mehrerer Retrieval-Quellen vorgeschlagen:

Kombination interner und externer Signale: Neben der internen Attention des MLLM werden externe Vision-Language-Modelle (z. B. CLIP oder PECore) genutzt, um Query-Frame-Scores zu berechnen.
Reciprocal Rank Fusion (RRF): Anstatt die Roh-Scores zu fusionieren (was Annahmen über die Vergleichbarkeit der Embedding-Räume erfordert), werden die Ranglisten (Ranks) der internen und externen Modelle mittels RRF kombiniert.
- Formel: $RRFScore(t) = \sum \frac{1}{k + r(t)}$ , wobei $r(t)$ der Rang des Frames $t$ ist.
Vorteil: Diese Strategie gleicht Schwächen einzelner Schichten oder Modelle aus und führt zu einer robusteren und konsistenteren Auswahl relevanter Frames.

3. Wichtige Beiträge

Analyse von KV-Cache-Limitierungen: Eine umfassende Untersuchung zeigt, dass das Erhöhen des Token-Budgets bei bestehenden KV-Cache-Methoden zu einer Verschlechterung der Retrieval-Leistung führt, verursacht durch zeitliche Verzerrungen und erhöhte Redundanz.
Adaptive Key Selection (AKS): Eine neue Strategie zur dynamischen Kompression von Key-Features in Sliding Windows, die Redundanz reduziert und die Diskriminierbarkeit der Features verbessert.
Training-freies Mixture-of-Experts: Ein effektiver Mechanismus zur Fusion interner und externer Retrieval-Signale mittels RRF, der die Zuverlässigkeit der Frame-Auswahl über alle Schichten hinweg erhöht.

4. Ergebnisse

Die Methode wurde auf mehreren Offline- und Online-Benchmarks evaluiert (CG-Bench, LVBench, VideoMME, RVS-Ego, RVS-Movie) unter Verwendung des Modells Qwen2.5-VL-7B.

Leistungsgewinne:
- +8,0% auf CG-Bench.
- +8,5% auf LVBench.
- +2,4% auf VideoMME (Long) im Vergleich zum vorherigen State-of-the-Art (ReKV).
Ablationsstudien:
- Die alleinige Nutzung von AKS verbesserte die Leistung bereits signifikant (z. B. +5,5% auf CG-Bench).
- Die Kombination von AKS mit dem MoE-Verfahren erzielte die besten Ergebnisse.
- Die Verwendung von RRF zur Fusion war der einfachen L2-Konkatenation überlegen.
Effizienz: MemStream erreicht diese Verbesserungen bei vergleichbarer Latenz und Speichernutzung wie ReKV, wobei die Speicherbandbreite durch die effizientere Attention-Struktur optimiert wird.

5. Bedeutung und Fazit

MemStream adressiert ein fundamentales Problem beim Streaming-Video-Verständnis: Die Unfähigkeit bestehender Modelle, feine Details (hohe Token-Dichte) mit einer robusten Retrieval-Mechanik zu kombinieren.

Paradigmenwechsel: Statt das Token-Budget zu begrenzen, um Speicher zu sparen, skaliert MemStream das Budget und kompensiert die daraus resultierende Redundanz durch intelligente Selektion (AKS) und verbesserte Retrieval-Strategien (MoE).
Praktische Relevanz: Da der Ansatz training-frei ist und externe Modelle nutzt, kann er leicht auf verschiedene bestehende MLLMs angewendet werden, um deren Fähigkeiten im Umgang mit langen Videostreams sofort zu verbessern.
Zukunftsausblick: Die Arbeit zeigt, dass die Kombination von dynamischer Kompression und hybriden Retrieval-Systemen der Schlüssel für skalierbares Video-Understanding ist.