Learning Compact Video Representations for Efficient Long-form Video Understanding in Large Multimodal Models

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie möchten einem Freund eine Geschichte aus Ihrem ganzen Urlaub erzählen. Aber anstatt die Geschichte zu erzählen, zeigen Sie ihm einfach jedes einzelne Foto, das Sie gemacht haben – von der Tasse Kaffee am Morgen bis zum Sonnenuntergang am Abend.

Das Problem? Ihr Freund (in diesem Fall die künstliche Intelligenz) würde vor lauter Bildern ertrinken. Er würde sich an die 100 Fotos von der gleichen Landschaft erinnern, aber vielleicht genau das eine wichtige Foto übersehen, auf dem Sie lachen. Außerdem würde er den Kopf schütteln, weil er so viele Bilder gleichzeitig verarbeiten muss, dass er müde wird.

Genau dieses Problem lösen die Autoren dieses Papers mit ihrer neuen Methode für KI-Modelle, die Videos verstehen sollen. Hier ist die Erklärung, wie sie das schaffen:

1. Das Problem: Zu viel "Rauschen"

Videos bestehen aus tausenden von Einzelbildern (Frames). Die meisten davon sind fast identisch (z. B. eine Person, die nur leicht den Kopf bewegt). Für eine KI sind das tausende von redundanten Informationen. Wenn man ein 1-stündiges Video direkt in eine KI füttert, explodieren die Kosten und die Rechenzeit, und die KI verliert den Faden.

2. Die Lösung: Ein schlauer Assistent mit zwei Werkzeugen

Die Autoren haben ein System entwickelt, das wie ein sehr effizienter Filmredakteur funktioniert. Es besteht aus zwei Teilen:

Teil A: Der "Wissens-Detektor" (Adaptive Video Sampler - AVS)

Stellen Sie sich vor, Sie haben einen Filmredakteur, der sich nicht von langweiligen Szenen blenden lässt.

Wie es funktioniert: Anstatt Bilder in gleichen Abständen auszuwählen (z. B. alle 5 Sekunden), schaut dieser Redakteur genau hin: "Wo passiert etwas Wichtiges?"
Die Analogie: Wenn im Video jemand spricht, ein Auto fährt oder sich die Szene ändert (ein "Schnitt"), markiert er diese Momente. Wenn die Szene statisch ist (jemand sitzt nur da), überspringt er die Bilder.
Das Ergebnis: Die KI bekommt nur die wichtigsten Schlüsselmomente zu sehen, nicht den ganzen Müll dazwischen.

Teil B: Der "Zusammenfasser" (Spatiotemporal Video Compressor - SVC)

Nehmen wir an, die KI hat jetzt die wichtigen Bilder. Aber selbst diese sind noch zu groß und zu detailliert.

Wie es funktioniert: Hier kommt ein spezieller "Verpacker" ins Spiel. Er nimmt die visuellen Informationen und presst sie zusammen, wie man einen schweren Wollpullover in einen kleinen Vakuumbeutel packt.
Der Trick: Er entfernt die unnötige Fülle (das "Rauschen"), behält aber die wesentliche Form und Bedeutung bei. Es ist, als würde man ein 4K-Foto nehmen und es in eine perfekte, kleine Skizze verwandeln, die genau dasselbe aussagt, aber viel weniger Platz wegnimmt.
Besonderheit: Dieser "Verpacker" wurde trainiert, indem er sich nur Videos angesehen hat (ohne Text), um zu lernen, was wirklich wichtig ist.

3. Das Ergebnis: Die "Super-KI"

Durch diese Kombination passiert Magie:

Platzsparend: Die KI muss nur noch 1/64 der ursprünglichen Bilder verarbeiten. Das ist wie der Unterschied zwischen einem riesigen Lastwagen voller Sand und einem kleinen Sack Gold.
Schneller: Da weniger Daten reinkommen, denkt die KI viel schneller nach.
Besser: Weil sie nicht von unwichtigen Details abgelenkt wird, versteht sie lange Videos (von 30 Minuten bis zu 2 Stunden) viel besser als frühere Modelle.

Warum ist das wichtig?

Bisher mussten KI-Modelle entweder sehr kurze Videos verstehen oder sie mussten extrem teuer und langsam sein, um lange Filme zu analysieren. Mit dieser Methode können wir nun ganze Filme oder lange Vorträge in Echtzeit verstehen, ohne dass die KI "überhitzt".

Zusammenfassend:
Die Autoren haben eine KI gebaut, die nicht einfach "blind" durch ein Video starrt. Stattdessen hat sie einen intelligenten Blick (AVS), der die spannenden Momente findet, und einen klugen Gedächtnis-Trick (SVC), der die Informationen kompakt speichert. So kann sie lange Geschichten verstehen, ohne sich in den Details zu verlieren.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Verständnis von langen Videos (Long-form Video Understanding) stellt eine erhebliche Herausforderung für Large Multimodal Models (MLLMs) dar. Obwohl Fortschritte bei Video-Backbones und Sprachmodellen (LLMs) die Analyse von Videos über mehrere Minuten hinweg ermöglichen, stoßen aktuelle State-of-the-Art-Modelle an Grenzen aufgrund der inhärenten Redundanz von Videosequenzen. Die Hauptprobleme sind:

Speicher- und Token-Budget: Die Verarbeitung einer großen Anzahl von Frames führt zu einem enormen Anstieg der visuellen Tokens, was den quadratischen Rechenaufwand von Transformer-Architekturen sprengt und das Token-Budget des LLMs erschöpft.
Informationsverlust vs. Redundanz: Herkömmliche Methoden wie gleichmäßiges Sampling (Uniform Sampling) oder einfache Pooling-Operationen (z. B. Average Pooling) führen oft zum Verlust diskriminierender Informationen, da sie wichtige Szenenwechsel oder Schlüsselmomente nicht berücksichtigen.
Limitationen bestehender Ansätze:
- Clip-basierte Captioning: Verlust von niedrigstufigen visuellen Details und Anhäufung von Halluzinationen durch Aggregation von Textbeschreibungen.
- Text-gesteuerte Kompression: Erfordert große Mengen an Video-Text-Paaren für das Training, was die Skalierbarkeit einschränkt.
- Token-Merging: Funktioniert gut bei Bildern, führt aber bei langen Videos mit hoher Diversität zu Informationsverzerrungen.

2. Methodik

Die Autoren schlagen ein end-to-end Schema vor, das aus zwei Hauptkomponenten besteht, die nahtlos in ein MLLM integriert sind: einem Adaptive Video Sampler (AVS) und einem Autoencoder-basierten Spatiotemporal Video Compressor (SVC).

A. Adaptive Video Sampler (AVS)

Anstatt Frames gleichmäßig zu verteilen, wählt der AVS Frames basierend auf ihrer Informationsdichte aus.

Prinzip: Das Video wird als Abfolge von „Informationstubelets" betrachtet (ähnlich wie Szenen und Shots in Filmen). Innerhalb eines Tubelets ist die Information homogen, während sich die Verteilung zwischen Tubelets stark ändert.
Implementierung: Ein Shot-Boundary-Detektor analysiert das gesamte Video und weist jedem Frame einen Konfidenzscore für Inhaltsänderungen zu.
Selektion: Nach Anwendung von Non-Maximum Suppression (NMS) werden die Frames mit den höchsten Konfidenzscores (Top-k) ausgewählt. Dies ermöglicht es, dynamische Momente und Schlüsselinformationen zu erfassen, während redundante, statische Frames verworfen werden.

B. Autoencoder-basierte Spatiotemporal Video Compressor (SVC)

Der SVC reduziert die Anzahl der visuellen Tokens drastisch, ohne wesentliche Informationen zu verlieren.

Architektur: Ein Convolutional Autoencoder (Encoder-Decoder), der Roh-Video-Features in einen kompakten latenten Raum komprimiert.
Training: Im Gegensatz zu vorherigen Ansätzen, die auf Video-Text-Paaren basieren, wird der SVC nur mit Videodaten vortrainiert (Self-Supervised Learning) durch Minimierung des Rekonstruktionsverlusts (Mean Absolute Loss) zwischen den ursprünglichen und rekonstruierten Features.
Residual Latent Space Constraint: Um die Generalisierungsfähigkeit zu verbessern und sicherzustellen, dass der komprimierte Raum mit dem des LLMs kompatibel ist, wird eine innovative Einschränkung eingeführt. Der komprimierte Vektor $h$ $h$ wird als Summe aus dem Encoder-Ausgang und den 3D-Average-Pooled-Features des Eingabebildes definiert: $h = C(f) + \text{avgpool}_{3D}(X)$ $h = C (f) + avgpool_{3 D} (X)$ .
- Dies zwingt den Kompressor, nur die Residuen (die durch Average Pooling verlorenen Informationen) zu lernen.
- Es verhindert, dass der latente Raum „Löcher" aufweist, und eliminiert die stochastischen Probleme von VAEs (Variational Autoencoders).
Effizienz: Die Kompression erfolgt über 3D-Convolutionen mit Strides, was eine Reduktion der Dimensionen in Zeit, Höhe und Breite ermöglicht.

C. Gesamtsystem

Das System erreicht eine 64-fache Kompression (z. B. 4×4×4 über Zeit, Höhe und Breite). Der AVS filtert redundante Frames, und der SVC komprimiert die verbleibenden Features. Die komprimierten Tokens werden dann über einen Projector (MLP) in den Eingaberaum des LLMs (QWen2) projiziert, um Antworten auf Fragen zu generieren.

3. Wichtige Beiträge

Neues Schema für lange Videos: Einführung eines vollständigen Pipelines aus Sampling und Kompression, der speziell für die Anforderungen von MLLMs bei langen Videos entwickelt wurde.
Adaptive Sampling-Strategie: Der AVS nutzt Shot-Boundary-Detection, um informativste Frames zu selektieren, anstatt auf starre Sampling-Intervalle zu setzen.
Effizienter Kompressor (SVC): Ein rein auf Videodaten vortrainierter Autoencoder, der eine 64-fache Kompression erreicht. Der entscheidende Innovation ist die Residual Constraint, die die Komplexität des Lernens reduziert und die Ausrichtung mit dem LLM verbessert.
Ressourceneffizienz: Das System reduziert den Token-Bedarf um 80 % (im Vergleich zu LLaVA-OV), ermöglicht aber dennoch das Verarbeiten von stundenlangen Videos.

4. Ergebnisse

Die Methode wurde auf einer Vielzahl von Benchmarks evaluiert (EgoSchema, NextQA, ActivityNet-QA, MLVU, MVBench, PerceptionTest).

Leistung: Das Modell übertrifft State-of-the-Art-Methoden (wie VideoAgent, LLoVi, LLaVA-OneVision) signifikant.
- Auf EgoSchema (lange Videos) wurde LLaVA-OV um 2,6 % übertroffen.
- Auf PerceptionTest wurde LLaVA-OV um 3,3 % übertroffen.
- Auf NextQA und ActivityNet-QA wurden ebenfalls deutliche Verbesserungen gegenüber vergleichbaren Modellen erzielt.
Effizienz: Trotz der hohen Kompression (64-fach) und der Nutzung von nur 20 % der visuellen Tokens im Vergleich zu vorherigen SOTA-Methoden, wird die Leistung beibehalten oder verbessert.
Ablationsstudien:
- Der AVS zeigt besonders bei Videos mit Szenenwechseln (Shot Changes) Vorteile.
- Der SVC (Autoencoder) übertrifft Average Pooling und Perceiver-basierte Downsampling-Methoden deutlich.
- Die Residual Constraint ist entscheidend: Ohne sie konvergiert das Training nicht oder die Leistung bricht ein; VAE-Constraints sind suboptimal.
- Eine ausgewogene räumlich-zeitliche Kompression (4×4×4) funktioniert besser als asymmetrische Ansätze.

5. Bedeutung und Ausblick

Diese Arbeit adressiert das fundamentale Problem der Skalierbarkeit von MLLMs für lange Videos. Durch die Kombination von intelligentem Sampling und effizienter, rein visuell vortrainierter Kompression wird gezeigt, dass man nicht auf massive Token-Mengen angewiesen ist, um lange Videos zu verstehen.

Praktische Relevanz: Das Verfahren ermöglicht die Analyse von stundenlangen Videos auf Hardware mit begrenzten Ressourcen (weniger Speicherbedarf, geringerer Rechenaufwand).
Zukunft: Die Autoren sehen Potenzial für die Anpassung an Echtzeitanwendungen und die Erweiterung auf andere Multimodal-Domänen.

Zusammenfassend stellt das Paper einen effizienten, skalierbaren und leistungsfähigen Ansatz dar, der die Lücke zwischen der Komplexität langer Videos und den Beschränkungen aktueller Transformer-basierter MLLMs schließt.