MotionStream: Real-Time Video Generation with Interactive Motion Controls

MotionStream is een real-time video-generatiemodel dat via distillatie en een slimme sliding-window-attention-mechanisme interactieve bewegingscontrole mogelijk maakt met sub-seconde latentie en constante snelheid voor onbeperkt lange video's.

Joonghyuk Shin, Zhengqi Li, Richard Zhang, Jun-Yan Zhu, Jaesik Park, Eli Shechtman, Xun Huang

Gepubliceerd 2026-03-06
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een regisseur bent die een film draait, maar in plaats van dagenlang te wachten tot de computer de beelden "berekent", kun je direct zien wat er gebeurt terwijl je met je vinger over het scherm tekent. Dat is precies wat MotionStream doet.

Hier is een uitleg in gewone taal, met een paar leuke vergelijkingen:

1. Het oude probleem: De "Wachtrij"

Vroeger, als je een video wilde maken met een computer die een object liet bewegen (bijvoorbeeld een ballerina die dansde), moest je wachten.

  • De analogie: Het was alsof je een brief naar de maan stuurde. Je schrijft je instructies op, stuurt ze weg, en moet dan 12 minuten wachten voordat je antwoord krijgt. Pas dan zie je het resultaat. Als je de instructies wilt aanpassen, moet je opnieuw 12 minuten wachten.
  • Het probleem: De computer keek naar de hele film tegelijk (van begin tot eind) om te beslissen wat er moest gebeuren. Dat kostte veel tijd en je kon niet tussendoor ingrijpen.

2. De oplossing: MotionStream (De "Live Stream")

MotionStream verandert dit volledig. Het werkt niet als een brief, maar als een live televisie-uitzending.

  • De analogie: Stel je voor dat je een tekenaar hebt die direct naast je zit. Je zegt: "Beweeg de bal naar links," en direct zie je de bal bewegen. Je kunt de bal stoppen, laten versnellen of van richting laten veranderen, en de tekenaar volgt je elke seconde.
  • Het resultaat: De computer maakt de video niet in één keer, maar frame voor frame, direct terwijl jij kijkt. Het is zo snel dat het eruitziet als echt (ongeveer 30 beelden per seconde), net als een normaal filmpje op je telefoon.

3. Hoe werkt het? (De Magische Truc)

De onderzoekers hebben een slimme truc bedacht om dit zo snel te maken zonder dat de kwaliteit slecht wordt.

  • De Meester en de Leerling:

    • Eerst bouwden ze een "Meester" (een heel slimme, maar trage computer). Deze Meester kan prachtige video's maken die precies doen wat je vraagt, maar hij is traag en kijkt naar de hele toekomst voordat hij begint.
    • Vervolgens hebben ze een "Leerling" getraind. Deze Leerling is heel snel en werkt in real-time.
    • De lesmethode: De Meester heeft de Leerling niet gewoon verteld wat hij moet doen, maar heeft hem laten oefenen door zelf de video stukje bij beetje te maken (zoals een leerling die een meester observeert). De Leerling leert zo om de Meester na te bootsen, maar dan in "live mode".
  • Het "Anker" (De geheime saus):

    • Een groot probleem bij het maken van lange video's is dat computers vaak vergeten hoe het begon. Na een tijdje wordt de video wazig of verandert het onderwerp (een hond wordt plotseling een kat).
    • MotionStream gebruikt een trucje dat ze een "Anker" noemen. De computer houdt het allereerste beeld (het begin) vast in zijn geheugen, alsof het een anker is dat de boot op zijn plek houdt. Zelfs als de video urenlang doorgaat, blijft het anker zorgen dat de video consistent blijft en niet "dwaalt".

4. Wat kun je ermee doen?

Met MotionStream kun je nu dingen doen die voorheen onmogelijk waren:

  • Sleep-en-trek: Je kunt met je muis een lijn trekken over een object (bijvoorbeeld een auto) en de auto volgt die lijn direct, terwijl de achtergrond meebeweegt.
  • Camera besturen: Je kunt de camera laten draaien of zoomen alsof je een echte cameraman bent, direct in de video.
  • Oneindige video's: Omdat het in stukjes werkt, kun je theoretisch een video maken die nooit stopt, zolang je maar blijft sturen.

Samenvattend

MotionStream is als het verschil tussen het bestellen van een pizza (wachten tot hij klaar is) en het zelf pizza maken in je keuken terwijl je gasten erbij staan. Je hebt de controle, het gaat supersnel, en je ziet het resultaat direct. Het maakt het maken van video's niet langer een saaie wachtbeurt, maar een interactief spelletje waar je de regisseur bent.