ReMoRa: Multimodal Large Language Model based on Refined Motion Representation for Long-Video Understanding

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einem Freund einen ganzen Tag lang erzählen, was in einem Film passiert. Ein normaler Computer (ein herkömmliches KI-Modell) würde versuchen, dir jeden einzelnen Frame des Films Wort für Wort und Bild für Bild vorzulesen. Das wäre wie ein 10-stündiges Buch, das du auswendig lernen musst, nur um eine kurze Zusammenfassung zu geben. Das ist nicht nur extrem anstrengend, sondern auch extrem langsam und teuer.

Die Forscher von ReMoRa haben eine clevere Lösung gefunden, die wie ein genialer Filmredakteur funktioniert.

Hier ist die Erklärung, wie ReMoRa das macht, ganz einfach erklärt:

1. Das Problem: Der "Flut von Bildern"-Effekt

Normalerweise schauen sich KIs Videos an, indem sie Tausende von Bildern nacheinander ansehen. Bei langen Videos (z. B. 30 Minuten) ist das wie der Versuch, einen Ozean mit einem Eimer leer zu schöpfen. Die KI erstickt in redundanten Informationen (z. B. ein statischer Hintergrund, der sich nicht ändert) und vergisst die wichtigen Details, weil sie zu viele Daten auf einmal verarbeiten muss.

2. Die Lösung: ReMoRa – Der "Smart-Redakteur"

ReMoRa schaut sich das Video nicht als eine Flut von Bildern an, sondern nutzt die geheime Sprache, in der Videos eigentlich gespeichert sind (wie bei Netflix oder YouTube im Hintergrund).

Stell dir ein Video wie ein Baustellentagebuch vor:

Die I-Frames (Die Fotos): An bestimmten Punkten macht die Kamera ein scharfes, komplettes Foto der Szene. Das ist wie ein Foto vom fertigen Haus.
Die P/B-Frames (Die Notizen): Zwischen diesen Fotos speichert das System nicht jedes neue Bild neu. Stattdessen schreibt es nur kleine Notizen: "Der Mann hat sich 2 Zentimeter nach links bewegt" oder "Der Ball ist hoch gesprungen". Das sind die Bewegungsvektoren.

Die meisten KIs ignorieren diese Notizen und versuchen, das ganze Haus neu zu bauen. ReMoRa hingegen liest direkt diese Notizen.

3. Der Trick: "Rauschen" in "Klarheit" verwandeln

Das Problem mit den Notizen (den Bewegungsvektoren) ist, dass sie oft etwas ungenau sind. Sie sind wie eine grobe Skizze auf einem Kärtchen: "Der Mann ging schnell" – aber wie schnell genau? Und in welche Richtung? Das ist oft verrauscht und ungenau.

Hier kommt der erste Zaubertrick von ReMoRa ins Spiel, genannt RMR (Refined Motion Representation):

Stell dir vor, du hast eine unscharfe, verpixelte Skizze einer Bewegung.
ReMoRa hat einen speziellen "Korrektor" (ein trainiertes Modul), der diese groben Notizen nimmt und sie in eine klare, flüssige Animation verwandelt.
Es ist so, als würde ein Künstler eine schnelle Strichskizze nehmen und sie in eine wunderschöne, detaillierte Zeichnung umwandeln, ohne dass er das Originalfoto neu malen muss. So bekommt die KI das Gefühl von flüssiger Bewegung, ohne Millionen von Bildern laden zu müssen.

4. Der zweite Trick: Die "Zeit-Tasche" (HMSS)

Selbst mit den Notizen ist ein langer Film immer noch eine lange Liste von Ereignissen. Wenn man eine normale KI fragt, was vor einer Stunde passiert ist, vergisst sie oft, was vor 10 Minuten war (wie ein Mensch, der zu viel auf einmal hört).

ReMoRa nutzt eine spezielle Technik namens HMSS (Hierarchical Motion State Space).

Stell dir vor, du liest ein Buch. Anstatt jeden Satz einzeln zu merken, fasst du jeden Absatz in einem einzigen, klaren Gedanken zusammen.
ReMoRa fasst die Notizen von jedem kleinen Abschnitt des Videos zu einem kompakten "Gedanken" zusammen.
Dadurch kann die KI den gesamten Film (selbst Stunden lang) im "Kopf" behalten, ohne den Überblick zu verlieren. Sie versteht den Zusammenhang zwischen dem Anfang und dem Ende, ohne den Speicherplatz zu sprengen.

Warum ist das so toll?

Geschwindigkeit: Weil ReMoRa keine riesigen Bilder laden muss, sondern nur die kleinen Bewegungs-Notizen, ist es viel schneller und braucht weniger Rechenleistung.
Genauigkeit: Da es die Bewegung direkt aus den Notizen "verstärkt", sieht es kleine Details (wie ein Winken oder ein kurzes Hinfallen), die andere KIs übersehen, weil sie zu viele Bilder gleichzeitig betrachten und dabei verwirrt werden.
Lange Videos: Es kann Filme von einer Stunde Länge verstehen, ohne zu "vergessen", was am Anfang passiert ist.

Zusammenfassung in einem Satz

ReMoRa ist wie ein super-effizienter Filmredakteur, der nicht jedes einzelne Bild neu zeichnet, sondern die Bewegungsnotizen des Films liest, diese in eine klare Geschichte verwandelt und so versteht, was in einem ganzen Film passiert, ohne dabei den Kopf zu verlieren.

Das Ergebnis: Die KI ist schneller, schlauer bei langen Videos und versteht Bewegungen besser als alle bisherigen Modelle.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Multimodale Large Language Models (MLLMs) haben in vielen visuell-sprachlichen Aufgaben große Erfolge erzielt, stoßen jedoch beim Verständnis von Langzeit-Videos (Minuten bis Stunden) an ihre Grenzen.

Rechenkomplexität: Die Verarbeitung eines vollständigen RGB-Frame-Streams ist rechnerisch kaum machbar. Da Self-Attention-Mechanismen eine quadratische Komplexität ( $O(N^2)$ ) bezüglich der Sequenzlänge aufweisen, führt eine dichte Abtastung von Frames schnell zu einem untragbaren Rechenaufwand.
Redundanz: Herkömmliche Methoden, die gleichmäßig abgetastete Frames verwenden, kodieren redundante visuelle Inhalte (z. B. statische Hintergründe) wiederholt, was ineffizient ist.
Informationsverlust: Um die Komplexität zu reduzieren, werden oft nur wenige Frames ausgewählt (sparse sampling). Dies führt jedoch dazu, dass kurze, aber kritische Ereignisse oder feine zeitliche Dynamiken übersehen werden.

2. Methodik: ReMoRa

Das Paper stellt ReMoRa vor, ein Video-MLLM, das direkt im komprimierten Videobereich operiert, anstatt dekodierte RGB-Frames zu verarbeiten. Die Architektur nutzt die inhärente Struktur von Videocodecs (wie H.264/HEVC), die Videos in Gruppen von Bildern (GOPs) unterteilen.

Die Architektur besteht aus vier Hauptkomponenten:

A. Komprimierte Videorepräsentation (Input)

Statt aller Frames werden nur zwei Arten von Daten genutzt:

I-Frames (Keyframes): Vollständige Bilder, die als Anker für das Erscheinungsbild (Appearance) dienen.
Motion Vectors (aus P/B-Frames): Statt der vollen Pixelbilder der dazwischenliegenden Frames werden nur die Bewegungsinformationen (Motion Vectors) verwendet. Diese sind eine leichte, aber verrauschte und grobkörnige Approximation des optischen Flusses (Optical Flow).

B. Refined Motion Representation (RMR) Modul

Da die Motion Vectors aus Standardcodecs blockbasiert, spärlich und verrauscht sind, reicht ihre Qualität für feingranulares Reasoning oft nicht aus.

Funktion: Das RMR-Modul dient als Feature-Encoder, der diese rohen, blockbasierten Vektoren in feingranulare, dichte Bewegungsrepräsentationen umwandelt.
Pretraining: Das Modul wird vorab trainiert, indem es die rohen Motion Vectors auf dichte optische Fluss-Ziele (generiert durch ein externes Modell wie Co-Tracker3) abbildet. Dies „entrauscht" die Signale und verbessert die zeitliche Konsistenz, ohne den vollen Dekodierungsaufwand zu benötigen.

C. Hierarchical Motion State Space (HMSS) Modul

Um die extrem langen Sequenzen von Tokens (die durch viele GOPs entstehen) effizient zu verarbeiten, wird ein State Space Model (SSM) verwendet, das auf der Mamba-Architektur basiert.

Lokale Fusion (Innerhalb eines GOPs): Ein bidirektionaler Mamba-Block fusioniert die I-Frame-Features mit den verfeinerten Motion-Features innerhalb einer GOP, um eine bewegungsbewusste Repräsentation zu erstellen.
Globale Modellierung (Über GOPs hinweg): Eine zweite Schicht modelliert langfristige zeitliche Abhängigkeiten über die gesamte Videosequenz hinweg.
Vorteil: Im Gegensatz zu Self-Attention skaliert das SSM linear mit der Sequenzlänge ( $O(N)$ ), was eine effiziente Verarbeitung sehr langer Videos ermöglicht.

D. Integration mit LLM

Die aggregierten Video-Features werden in den Embedding-Raum eines vortrainierten LLMs (hier Qwen2) projiziert und mit Text-Prompts kombiniert, um Antworten zu generieren.

3. Schlüsselbeiträge

ReMoRa-Architektur: Ein Video-MLLM, das komprimierte Videostreams (I-Frames + Motion Vectors) direkt verarbeitet, um redundante RGB-Daten zu eliminieren und skalierbares Langzeit-Verständnis zu ermöglichen.
RMR-Modul: Eine innovative Komponente zur Entrauschung und Verfeinerung von blockbasierten Codec-Bewegungsvektoren zu dichten, optischen Fluss-ähnlichen Repräsentationen.
HMSS-Modul: Ein hierarchisches State-Space-Modul, das die Codec-Struktur (GOPs) nutzt, um zeitliche Abhängigkeiten in linearer Zeit zu modellieren und so die quadratische Komplexität von Transformern zu umgehen.
Leistungsnachweis: ReMoRa übertrifft bestehende State-of-the-Art-Methoden in mehreren Benchmarks für Langzeit-Video-Verständnis.

4. Ergebnisse

Die Autoren evaluieren ReMoRa auf einer umfassenden Suite von Benchmarks, darunter LongVideoBench, NExT-QA, MLVU, VideoMME und Perception Test.

Quantitative Ergebnisse:
- ReMoRa erzielt die besten Ergebnisse auf LongVideoBench (60.8), NExT-QA (84.2) und MLVU (72.1).
- Der durchschnittliche Score über alle Benchmarks liegt bei 69.8, was die besten Baseline-Modelle (z. B. BIMBA mit 68.9) übertrifft.
- Auch bei offenen VideoQA-Aufgaben (MSVD-QA, ActivityNet-QA) zeigt das Modell starke Verbesserungen, insbesondere bei der Genauigkeit (Accuracy) auf ActivityNet-QA (+8.4 Punkte gegenüber dem Zweitplatzierten).
Qualitative Ergebnisse:
- Fallstudien zeigen, dass ReMoRa feine, sequenzielle menschliche Aktionen (z. B. das Überprüfen der Hose nach einem Sturz) und Objektbewegungen (z. B. das Unterscheiden zwischen einem springenden Ball und einem geworfenen Frisbee) besser versteht als Modelle, die nur auf RGB-Frames basieren.
Effizienz:
- Trotz der zusätzlichen Module bleibt der Speicherbedarf und der Durchsatz vergleichbar mit effizienten Baselines wie BIMBA und deutlich geringer als bei speicherintensiven Modellen wie LLaVA-Video.

5. Bedeutung und Fazit

ReMoRa adressiert das fundamentale Problem der Skalierbarkeit von MLLMs für Langzeitvideos, indem es die Redundanz im Videodatenstrom intelligent ausnutzt.

Paradigmenwechsel: Statt teurer Dekodierung und gleichmäßiger Abtastung nutzt das Modell die inhärente Kompression (Motion Vectors) als effiziente Proxy für optischen Fluss.
Qualitätssteigerung: Durch das RMR-Modul wird die Qualität der rohen Codec-Daten so weit verbessert, dass sie für feingranulares Reasoning geeignet sind, ohne den Rechenvorteil zu verlieren.
Zukunftsperspektive: Die Arbeit zeigt, dass komprimierte Domänen-Informationen (Compressed-Domain) ein vielversprechender Weg sind, um die Lücke zwischen kurzen Clips und stundenlangen Videos in der KI zu schließen, und legt den Grundstein für effiziente, bewegungsbewusste Multimodal-Modelle.