ReMoRa: Multimodal Large Language Model based on Refined Motion Representation for Long-Video Understanding

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een hele dag lang een video moet bekijken om één specifiek moment te vinden, of om te begrijpen wat er precies is gebeurd. Voor een computer is dit een enorme opgave. Normaal gesproken moet de computer elke afzonderlijke foto (frame) van die video analyseren. Bij een uur durende video zijn dat duizenden beelden. Dit is als proberen een heel boek te lezen door elke letter van elke pagina te bekijken; het kost enorm veel tijd en energie.

De onderzoekers van dit papier, ReMoRa, hebben een slimme oplossing bedacht die werkt als een slimme samenvatting in plaats van een letterlijke vertaling van alles.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het probleem: Te veel ruis, te weinig signaal

Stel je voor dat je een video bekijkt van iemand die in een kamer loopt. De achtergrond (de muur, het raam) verandert nauwelijks, maar de persoon beweegt wel.

Hoe computers het nu doen: Ze kijken naar elke foto van de muur, het raam en de persoon, keer op keer. Het is alsof je een boek leest waarbij je elke zin van "de muur is wit" opnieuw moet lezen, terwijl je eigenlijk alleen wilt weten wat de persoon deed. Dit is inefficiënt en kost veel rekenkracht.

2. De oplossing: ReMoRa's "Slimme Samenvatting"

ReMoRa kijkt niet naar de hele video als een reeks van miljoenen foto's. In plaats daarvan gebruikt het de ingebouwde "samenvatting" die al in de videobestand zit (zoals bij Netflix of YouTube).

Ze splitsen de video in twee soorten informatie:

De "Keyframes" (De foto's): Dit zijn de momenten waarop het beeld echt verandert (bijvoorbeeld als de scène wisselt of iemand de kamer binnenkomt). Dit zijn de heldere, duidelijke foto's.
De "Bewegingsvectoren" (De instructies): Tussen die foto's in, in plaats van nieuwe foto's op te slaan, slaat de computer alleen op: "De hand is 5 centimeter naar rechts bewogen" of "Het hoofd is iets gedraaid". Dit is als een reeks instructies in plaats van nieuwe foto's.

3. De twee slimme onderdelen van ReMoRa

Om dit systeem perfect te maken, hebben ze twee speciale hulpmiddelen bedacht:

A. De "Bewegings-Verfijner" (RMR Module)

De bewegingsinstructies uit een videobestand zijn vaak ruw en onnauwkeurig. Het is alsof iemand je vertelt: "De bal is ergens naar links gegaan", zonder te zeggen hoe ver of hoe snel.

De analogie: Stel je voor dat je een schets van een danser hebt gemaakt met potlood. Het is vaag en wazig. De Bewegings-Verfijner is als een kunstschilder die over die schets heen gaat en er een heldere, scherpe tekening van maakt. Hij maakt de ruwe bewegingen glad en nauwkeurig, zodat de computer precies ziet hoe de danser beweegt, zonder dat hij de hele video opnieuw hoeft te berekenen.

B. De "Tijd-Organisator" (HMSS Module)

Zelfs met samenvattingen kan een uur durende video nog steeds heel lang zijn. Als je een computer vraagt om naar alles tegelijk te kijken, raakt hij in de war (dit heet "quadratische complexiteit" in vakjargon).

De analogie: Stel je voor dat je een lange film moet onthouden. Als je probeert elke seconde tegelijk te onthouden, breekt je brein. ReMoRa gebruikt in plaats daarvan een Tijd-Organisator die werkt als een slim archief. Het kijkt niet naar alles tegelijk, maar bouwt het verhaal stap voor stap op, net zoals je een verhaal onthoudt: "Eerst gebeurde dit, toen dat, en daarna weer dit." Hierdoor kan de computer heel lange video's verwerken zonder vast te lopen, alsof het een lange treinreis maakt in plaats van een sprint.

Waarom is dit belangrijk?

Met deze methode kan ReMoRa video's bekijken die uren lang duren, terwijl andere modellen vaak al vastlopen na een paar minuten.

Voorbeeld: Stel je wilt een robot helpen die een hele dag in een huis werkt en later moet vertellen wat er gebeurde. Of stel je wilt een visueel gehandicapte persoon helpen die een lange documentaire wil "horen" door een AI die de video begrijpt. ReMoRa kan dit doen omdat het slim omgaat met de informatie: het slaat de belangrijke beelden op en gebruikt slimme instructies voor de beweging.

Conclusie

Kortom: ReMoRa is als een slimme boekhouder voor video's. In plaats van elke cent (elke pixel) van elke dag te tellen, kijkt hij naar de grote lijnen (de foto's) en de veranderingen (de bewegingsinstructies). Hij maakt die instructies schoon en helder, en ordent ze in een logisch verhaal. Hierdoor kan hij lange video's sneller, slimmer en met minder energie begrijpen dan ooit tevoren.

Each language version is independently generated for its own context, not a direct translation.

1. Het Probleem

Multimodale Large Language Models (MLLM's) hebben indrukwekkende resultaten geboekt op diverse visueel-taakgebieden, maar langdurig video-onderstanding (long-form video understanding) blijft een grote uitdaging.

Berekeningskosten en redundantie: Het verwerken van volledige RGB-frame-stromen is computationally onhaalbaar voor lange video's. Zelf-attention mechanismen hebben een kwadratische complexiteit ( $O(N^2)$ ) ten opzichte van de sequentielengte, wat betekent dat het verwerken van minuten- of uur-lange video's snel prohibitief wordt.
Inefficiëntie van bestaande methoden: Bestaande modellen vertrouwen vaak op uniforme frame-sampling. Dit leidt tot een afweging:
- Sparse sampling: Rekenkundig haalbaar, maar mist korte maar kritieke gebeurtenissen.
- Dense sampling: Behoudt fijne dynamiek, maar wordt onmogelijk door de kwadratische complexiteit en de redundante informatie (bijv. statische achtergronden) die frame-na-frame wordt gecodeerd.
Beperkingen van compressie-gebaseerde benaderingen: Hoewel video-compressie (zoals H.264) al bewegingsinformatie bevat, zijn de bewegingsvectoren in standaard codecs vaak ruw, gebaseerd op blokken (block-based), en ruisachtig, wat de nauwkeurigheid van fijnmazig redeneren ondermijnt.

2. Methodologie: ReMoRa

De auteurs stellen ReMoRa voor, een video-MLLM dat direct werkt op gecomprimeerde videostreams in plaats van gedecodeerde RGB-frames. De architectuur is ontworpen om redundantie te elimineren en bewegingsinformatie te verfijnen.

De pipeline bestaat uit de volgende componenten:

A. Gecomprimeerde Video Representatie

In plaats van uniform frames te selecteren, decomposeert ReMoRa de video in Groups of Pictures (GOPs):

I-frames (Keyframes): Deze worden gebruikt als ankers voor de visuele verschijning (appearance). Ze worden verwerkt door een beeldencoder (SigLIP ViT-SO) om patch-embeddings te extraheren.
P/B-frames (Motion): In plaats van deze frames te decoderen, gebruikt het model de bewegingsvectoren (motion vectors) die inherent zijn aan de codec. Deze dienen als een lichtgewicht proxy voor optische flow.

B. Refined Motion Representation (RMR) Module

De ruwe bewegingsvectoren uit de codec zijn vaak ruisachtig, ruimtelijk grof en tijdelijk inconsistent.

Doel: Het transformeren van deze ruwe, blok-gebaseerde vectoren naar fijne, dichte bewegingsrepresentaties die lijken op optische flow.
Training: De module wordt vooraf getraind (pre-training) om ruwe vectoren te mappen naar dichte optische flow (gegenereerd door een model zoals Co-Tracker3) via een $L_2$ -verlies.
Functie: Tijdens fine-tuning fungeert de RMR als een feature-encoder die de ruis filtert en fijne dynamische details herstelt zonder de noodzaak van volledige frame-decoding.

C. Hierarchical Motion State Space (HMSS) Module

Om de extreme sequentielengte van lange video's te hanteren zonder de kwadratische complexiteit van attention, introduceert ReMoRa een hiërarchische aanpak die de codec-structuur nabootst:

Codec-bewust Selective Scan (Lokaal): Binnen elke GOP worden de I-frame-features en de verfijnde bewegingsfeatures gefuseerd met een bidirectionele Mamba-blok (een State Space Model). Dit creëert een compacte, bewegingsbewuste representatie per GOP.
Bidirectionele Token Mixer (Globaal): De samenvattende vectoren van alle GOP's worden vervolgens verwerkt door een tweede laag van Mamba-blokken. Dit modelleert lange-termijn tijdsafhankelijkheden over de hele video met lineaire complexiteit ( $O(N)$ ), in plaats van kwadratisch.

3. Belangrijkste Bijdragen

ReMoRa Architectuur: Een video-MLLM die direct gecomprimeerde videostreams verwerkt, gebruikmakend van I-frames en bewegingsrepresentaties in plaats van redundante RGB-frames. Dit maakt schaalbaar langdurig video-onderstanding mogelijk.
Nieuwe Modules:
- De RMR-module die ruisachtige, blok-gebaseerde bewegingsvectoren verfijnt tot dichte, hoogwaardige bewegingsfeatures.
- De HMSS-module die lange-termijn tijdsafhankelijkheden modelleert in lineaire tijd, gebruikmakend van State Space Models (SSM/Mamba).
State-of-the-Art Resultaten: Het model presteert beter dan bestaande baselines op meerdere uitdagende benchmarks voor langdurig video-onderstanding.

4. Resultaten

ReMoRa werd geëvalueerd op een uitgebreide reeks benchmarks, waaronder LongVideoBench, NExT-QA, MLVU, VideoMME en Perception Test.

Kwantitatieve Prestaties:
- ReMoRa behaalde de hoogste scores op LongVideoBench (60.8), NExT-QA (84.2) en MLVU (72.1).
- Het overtrof de tweede beste modellen met marges van 1.0 tot 1.3 punten op deze specifieke benchmarks.
- De gemiddelde score over alle benchmarks was 69.8, wat 0.9 punten hoger is dan de beste concurrenten.
- Op open-ended VideoQA-benchmarks (ActivityNet-QA en MSVD-QA) toonde het model eveneens superieure nauwkeurigheid en antwoordkwaliteit.
Efficiëntie:
- Hoewel ReMoRa extra componenten heeft, behoudt het een vergelijkbare doorvoer (samples/s en tokens/s) met efficiënte baselines zoals BIMBA.
- Het verbruikt aanzienlijk minder GPU-geheugen (10.59 GB) vergeleken met modellen die volledige frames verwerken zoals LLaVA-Video (23.21 GB).
Kwalitatieve Analyse:
- Case studies tonen aan dat ReMoRa beter in staat is om subtiele, sequentiële menselijke acties en objectbewegingen te traceren (bijv. het onderscheiden van een bal die stuitert versus een frisbee die wordt gegooid) dankzij de verfijnde bewegingsinformatie.

5. Betekenis en Impact

Dit werk is significant omdat het een paradigmaverschuiving biedt in de manier waarop MLLM's met lange video's omgaan:

Efficiëntie door Compressie: Het bewijst dat het werken in de gecomprimeerde domein (compressed domain) niet alleen rekenkundig efficiënter is, maar ook superieure prestaties kan leveren door het elimineren van visuele redundantie.
Beweging als Eerste Klasse Burger: Door bewegingsvectoren niet als bijproduct, maar als een centraal, verfijnd kenmerk te behandelen, kan het model tijdsdynamiek beter begrijpen dan modellen die alleen op visuele frames vertrouwen.
Toekomstgericht: De methode opent de deur voor toepassingen die lange-termijn context vereisen, zoals video-samenvatting, assistentie voor robots en hulpmiddelen voor visueel gehandicapten, zonder de beperkingen van kwadratische attention-mechanismen.

Kortom, ReMoRa lost het fundamentele probleem van schaalbaarheid in langdurig video-onderstanding op door slimme gebruikmaking van video-compressie-structuren en geavanceerde State Space Models.