StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation

Dit paper introduceert StreamDiffusionV2, een trainingsvrij systeem dat video-diffusiemodellen mogelijk maakt voor interactieve live-streaming door SLO-bewuste planning en schaalbare parallelle verwerking te combineren, waardoor real-time generatie met hoge framesnelheid en lage latentie op meerdere GPU's wordt bereikt.

Tianrui Feng, Zhi Li, Shuo Yang, Haocheng Xi, Muyang Li, Xiuyu Li, Lvmin Zhang, Keting Yang, Kelly Peng, Song Han, Maneesh Agrawala, Kurt Keutzer, Akio Kodaira, Chenfeng Xu

Gepubliceerd 2026-02-24
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een live-voorstelling geeft, zoals een toneelstuk of een concert, maar in plaats van echte acteurs, gebruik je een kunstmatige intelligentie (AI) die elke seconde een nieuw beeld creëert op basis van wat er gebeurt. Dit is de droom van StreamDiffusionV2: een systeem dat live video's in real-time kan herscheppen, alsof het een magische camera is die alles wat je ziet omtovert in een cyberpunk-film of een droomwereld.

Maar tot nu toe was dit als proberen een auto te besturen met een rem die vastzit. De oude systemen waren traag, haperend en de beelden "dronken" (ze trilden en veranderden vreemd van vorm).

Hier is hoe StreamDiffusionV2 dit probleem oplost, vertaald in alledaagse termen:

1. Het Probleem: De "Bakfiets" vs. De "Formule 1"

Vroeger maakten AI-systemen video's alsof ze een bakfiets vol met dozen (beelden) naar de klant sturen. Ze maakten eerst een hele grote stapel beelden (bijvoorbeeld 81 beelden tegelijk) en stuurden die pas op als de bakfiets vol zat.

  • Het nadeel: Als je in een live stream wilt kijken, moet je wachten tot die bakfiets vol is. Dat duurt te lang. Bovendien, als de bakfiets een keer stopt, moet je wachten tot de volgende grote lading arriveert. Dit zorgt voor haperingen en een slechte ervaring.

StreamDiffusionV2 is de Formule 1-auto. Hij levert beelden één voor één, direct en razendsnel. Er is geen wachten op een "volle bak". Zodra je een commando geeft, is het eerste beeld er binnen een halve seconde (dat is sneller dan het knipperen van je oog).

2. De Magische Tricks (Hoe het werkt)

Het systeem gebruikt vier slimme trucs om dit snelle, soepele ritje mogelijk te maken:

A. De Slimme Chef-kok (SLO-aware Batching)

Stel je een restaurant voor waar de chef-kok (de computer) bestellingen moet afhandelen.

  • Oude manier: De chef wacht tot er 50 bestellingen binnen zijn voordat hij begint te koken. De eerste klant moet 10 minuten wachten.
  • StreamDiffusionV2: De chef kijkt naar de drukte. Als er maar één klant is, kookt hij direct voor die ene persoon. Als er 50 klanten zijn, kookt hij voor 50, maar hij doet het zo slim dat niemand wacht. Hij past de "grootte van de pan" (de batchgrootte) continu aan aan de snelheid van de keuken. Zo blijft de eerste plaat (het eerste beeld) altijd snel op tafel.

B. De Onzichtbare Regisseur (Sink Tokens & RoPE Refresh)

Bij live video's duurt het soms uren. Oude systemen vergeten na een tijdje wat er aan het begin van de film gebeurde. De personages veranderen van kleding, de achtergrond wordt vaag, of de beweging wordt raar.

  • De oplossing: StreamDiffusionV2 heeft een onzichtbare regisseur die constant naar de camera kijkt. Deze regisseur zegt: "Hé, we zijn nu 10 minuten verder, maar de hoofdpersoon moet er nog steeds uitzien als een futuristische bokser." Hij herinnert zich de stijl en de beweging en corrigeert de AI direct als deze begint te "drijven" (drift). Hierdoor blijft de video urenlang consistent en stabiel.

C. De Snelheidsmeter voor Beweging (Motion-Aware Noise)

Stel je voor dat je een tekening maakt van een rennende hond.

  • Als de hond stilstaat, kun je heel gedetailleerd tekenen.
  • Als de hond razendsnel rent, moet je snelle, ruwe lijnen gebruiken, anders wordt de tekening wazig of "gescheurd".
  • De truc: Het systeem heeft een snelheidsmeter die meet hoe snel de dingen in beeld bewegen. Als er veel actie is (snelle beweging), maakt het systeem de "ruis" (de willekeurige details die de AI moet wegwerken) zachter, zodat de beweging niet vervormt. Bij rustige scènes mag de AI juist heel gedetailleerd werken. Dit voorkomt dat snelle beelden eruitzien alsof ze door een wasmachine zijn gegaan.

D. Het Orkest van Computers (Pipeline Orchestration)

Meestal gebruiken ze één grote, dure computer (GPU) om dit te doen. Maar wat als je 4 van die computers hebt?

  • Oude manier: De computers werken als een rij mensen die een emmer water doorgeven. Als de eerste persoon traag is, wachten de anderen.
  • StreamDiffusionV2: Het verdeelt het werk als een symfonieorkest. De ene computer doet de basnoten, de andere de viool, de derde de fluit. Ze spelen allemaal tegelijk, maar in een perfect gecoördineerd ritme. Zelfs als je verschillende soorten computers (soms sneller, soms langzamer) gebruikt, zorgt dit systeem ervoor dat ze allemaal even hard werken en dat er geen stilte ontstaat in de muziek (de video).

3. Wat betekent dit voor jou?

Dit is niet alleen voor grote bedrijven.

  • Voor de individuele maker: Je kunt nu live streamen waarbij je achtergrond verandert in een droomwereld, zonder dat het beeld hapt of vertraagt. Het voelt net zo natuurlijk als een gewone camera.
  • Voor grote bedrijven: Ze kunnen duizenden mensen tegelijk bedienen met deze technologie, zonder dat de servers in de war raken.

Kortom: StreamDiffusionV2 is de brug tussen "wachten tot de AI een video maakt" en "live kijken naar een AI die direct reageert". Het maakt de toekomst van interactieve video's niet alleen mogelijk, maar ook snel, soepel en toegankelijk voor iedereen.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →