ReMoRa: Multimodal Large Language Model based on Refined Motion Representation for Long-Video Understanding

Die Arbeit stellt ReMoRa vor, ein multimodales großes Sprachmodell, das durch die Verarbeitung komprimierter, geräuschreduzierter Bewegungsrepräsentationen anstelle vollständiger RGB-Frames eine effiziente und leistungsfähige Langzeit-Videoanalyse ermöglicht.

Daichi Yashima, Shuhei Kurita, Yusuke Oda, Komei Sugiura

Veröffentlicht 2026-02-24
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einem Freund einen ganzen Tag lang erzählen, was in einem Film passiert. Ein normaler Computer (ein herkömmliches KI-Modell) würde versuchen, dir jeden einzelnen Frame des Films Wort für Wort und Bild für Bild vorzulesen. Das wäre wie ein 10-stündiges Buch, das du auswendig lernen musst, nur um eine kurze Zusammenfassung zu geben. Das ist nicht nur extrem anstrengend, sondern auch extrem langsam und teuer.

Die Forscher von ReMoRa haben eine clevere Lösung gefunden, die wie ein genialer Filmredakteur funktioniert.

Hier ist die Erklärung, wie ReMoRa das macht, ganz einfach erklärt:

1. Das Problem: Der "Flut von Bildern"-Effekt

Normalerweise schauen sich KIs Videos an, indem sie Tausende von Bildern nacheinander ansehen. Bei langen Videos (z. B. 30 Minuten) ist das wie der Versuch, einen Ozean mit einem Eimer leer zu schöpfen. Die KI erstickt in redundanten Informationen (z. B. ein statischer Hintergrund, der sich nicht ändert) und vergisst die wichtigen Details, weil sie zu viele Daten auf einmal verarbeiten muss.

2. Die Lösung: ReMoRa – Der "Smart-Redakteur"

ReMoRa schaut sich das Video nicht als eine Flut von Bildern an, sondern nutzt die geheime Sprache, in der Videos eigentlich gespeichert sind (wie bei Netflix oder YouTube im Hintergrund).

Stell dir ein Video wie ein Baustellentagebuch vor:

  • Die I-Frames (Die Fotos): An bestimmten Punkten macht die Kamera ein scharfes, komplettes Foto der Szene. Das ist wie ein Foto vom fertigen Haus.
  • Die P/B-Frames (Die Notizen): Zwischen diesen Fotos speichert das System nicht jedes neue Bild neu. Stattdessen schreibt es nur kleine Notizen: "Der Mann hat sich 2 Zentimeter nach links bewegt" oder "Der Ball ist hoch gesprungen". Das sind die Bewegungsvektoren.

Die meisten KIs ignorieren diese Notizen und versuchen, das ganze Haus neu zu bauen. ReMoRa hingegen liest direkt diese Notizen.

3. Der Trick: "Rauschen" in "Klarheit" verwandeln

Das Problem mit den Notizen (den Bewegungsvektoren) ist, dass sie oft etwas ungenau sind. Sie sind wie eine grobe Skizze auf einem Kärtchen: "Der Mann ging schnell" – aber wie schnell genau? Und in welche Richtung? Das ist oft verrauscht und ungenau.

Hier kommt der erste Zaubertrick von ReMoRa ins Spiel, genannt RMR (Refined Motion Representation):

  • Stell dir vor, du hast eine unscharfe, verpixelte Skizze einer Bewegung.
  • ReMoRa hat einen speziellen "Korrektor" (ein trainiertes Modul), der diese groben Notizen nimmt und sie in eine klare, flüssige Animation verwandelt.
  • Es ist so, als würde ein Künstler eine schnelle Strichskizze nehmen und sie in eine wunderschöne, detaillierte Zeichnung umwandeln, ohne dass er das Originalfoto neu malen muss. So bekommt die KI das Gefühl von flüssiger Bewegung, ohne Millionen von Bildern laden zu müssen.

4. Der zweite Trick: Die "Zeit-Tasche" (HMSS)

Selbst mit den Notizen ist ein langer Film immer noch eine lange Liste von Ereignissen. Wenn man eine normale KI fragt, was vor einer Stunde passiert ist, vergisst sie oft, was vor 10 Minuten war (wie ein Mensch, der zu viel auf einmal hört).

ReMoRa nutzt eine spezielle Technik namens HMSS (Hierarchical Motion State Space).

  • Stell dir vor, du liest ein Buch. Anstatt jeden Satz einzeln zu merken, fasst du jeden Absatz in einem einzigen, klaren Gedanken zusammen.
  • ReMoRa fasst die Notizen von jedem kleinen Abschnitt des Videos zu einem kompakten "Gedanken" zusammen.
  • Dadurch kann die KI den gesamten Film (selbst Stunden lang) im "Kopf" behalten, ohne den Überblick zu verlieren. Sie versteht den Zusammenhang zwischen dem Anfang und dem Ende, ohne den Speicherplatz zu sprengen.

Warum ist das so toll?

  • Geschwindigkeit: Weil ReMoRa keine riesigen Bilder laden muss, sondern nur die kleinen Bewegungs-Notizen, ist es viel schneller und braucht weniger Rechenleistung.
  • Genauigkeit: Da es die Bewegung direkt aus den Notizen "verstärkt", sieht es kleine Details (wie ein Winken oder ein kurzes Hinfallen), die andere KIs übersehen, weil sie zu viele Bilder gleichzeitig betrachten und dabei verwirrt werden.
  • Lange Videos: Es kann Filme von einer Stunde Länge verstehen, ohne zu "vergessen", was am Anfang passiert ist.

Zusammenfassung in einem Satz

ReMoRa ist wie ein super-effizienter Filmredakteur, der nicht jedes einzelne Bild neu zeichnet, sondern die Bewegungsnotizen des Films liest, diese in eine klare Geschichte verwandelt und so versteht, was in einem ganzen Film passiert, ohne dabei den Kopf zu verlieren.

Das Ergebnis: Die KI ist schneller, schlauer bei langen Videos und versteht Bewegungen besser als alle bisherigen Modelle.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →