Accelerating Video Generation Inference with Sequential-Parallel 3D Positional Encoding Using a Global Time Index

Dit paper introduceert een geoptimaliseerde inferentiepijplijn voor video-generatie met Diffusion Transformers, die door middel van sequentieel-parallelle 3D-positional encoding en een globale tijdsindex de geheugenconsumptie en latentie aanzienlijk verlaagt, waardoor bijna real-time generatie van lange video's mogelijk wordt.

Chao Yuan, Pan Li

Gepubliceerd 2026-03-10
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een filmregisseur bent die een langere film moet maken met een heel slimme, maar soms wat trage robot. Deze robot (een AI-model genaamd Diffusion Transformer) is geweldig in het bedenken van prachtige beelden, maar hij heeft een groot probleem: hij werkt als een perfectionist die alles tegelijk moet bekijken voordat hij één frame kan tekenen.

Als je hem vraagt om een film van 5 seconden te maken, moet hij eerst de hele film in zijn hoofd "zien" om te weten hoe het begint, midden en eindigt. Dit is als proberen een boek te schrijven door eerst alle 300 pagina's tegelijk op je bureau te leggen, ze allemaal te lezen, en pas dan de eerste zin te schrijven. Het kost enorm veel ruimte (geheugen) en tijd, vooral als de film lang wordt.

Dit artikel beschrijft hoe de auteurs (Chao Yuan en Pan Li) deze robot hebben getransformeerd van een trage perfectionist in een snelle, slimme verteller die in echt-tijd kan werken. Hier is hoe ze dat deden, vertaald naar alledaagse taal:

1. Het Probleem: De "Alles-Tegelijk" Manier

De oude robot werkte met volledige spatiotemporele aandacht. Dat klinkt ingewikkeld, maar het betekent simpelweg: "Ik kijk naar elk pixel op elk moment in de film om te zien hoe het past."

  • Het nadeel: Als de film langer wordt, explodeert de hoeveelheid werk. Het is alsof je een groep vrienden vraagt om een gesprek te voeren, maar iedereen moet naar iedereen luisteren voordat iemand iets kan zeggen. De ruimte die nodig is om dit te onthouden, groeit zo snel dat zelfs de krachtigste computers (zoals de A800 GPU's) het niet meer kunnen bijhouden voor lange video's.

2. De Oplossing: De "Stroomlijn" Methode (Self-Forcing)

De auteurs gebruiken een nieuwe aanpak genaamd Self-Forcing. In plaats van de hele film tegelijk te bekijken, leert de robot om de film frame voor frame te maken, net zoals een mens een verhaal vertelt.

  • De analogie: Stel je voor dat je een lange trein maakt. De oude robot probeerde de hele trein in één keer te bouwen. De nieuwe robot bouwt de trein wagon per wagon. Zodra de eerste wagon klaar is, kan hij die alvast uitsturen, terwijl hij aan de tweede werkt. Dit noemen ze causale autoregressie.

3. De Grote Uitdaging: De "Vertaal" Probleem

Hoewel de robot nu frame voor frame werkt, was er nog een probleem als ze hem op meerdere computers (GPU's) lieten werken om het sneller te maken.

  • Het probleem: De robot had een speciale "tijdscode" nodig (3D Positional Encoding) om te weten waar hij in de film zat. In de oude versie moest elke computer wachten tot alle andere computers hun stukjes van de film hadden opgestuurd, voordat ze hun eigen tijdcodes konden berekenen.
  • De analogie: Het is alsof een orkest op 8 verschillende plekken speelt. Iedereen moet wachten tot de dirigent (de centrale computer) iedereen heeft gehoord voordat ze mogen spelen. Dat kost veel tijd en communicatie.

4. De Innovatie: "Causal-RoPE SP" (De Slimme Locatie)

De auteurs bedachten een slimme truc: Causal-RoPE SP.

  • Hoe het werkt: In plaats van te wachten op de dirigent, krijgt elke computer in het orkest een globale starttijd mee. Ze weten precies welk stukje van de film ze moeten spelen en kunnen hun eigen "tijdscode" direct berekenen zonder te wachten.
  • De analogie: Het is alsof elke muzikant een eigen partituur krijgt met de exacte tijd in de muziek aangegeven. Ze hoeven niet meer te wachten op de rest van het orkest om te weten wanneer ze moeten spelen. Ze spelen direct en synchroon. Dit noemen ze lokale berekening.

5. De Versnelling: Alles in één Beweging

Daarnaast hebben ze de communicatie tussen de computers versneld.

  • De oude manier: De computers stuurden eerst hun vragen, dan hun antwoorden, dan hun herinneringen... in drie aparte rondes.
  • De nieuwe manier: Ze hebben deze stappen samengevoegd tot één grote, snelle rit. Het is alsof je in plaats van drie brieven te posten, één pakketje stuurt dat alles bevat. Dit heet operator fusion.

Het Resultaat: Een Snellere Film

Door deze verbeteringen hebben ze de volgende resultaten behaald:

  • Snelheid: Het maken van een 5-seconden video (in 480P kwaliteit) gaat 1,58 keer sneller.
  • Echt-tijd: De eerste beelden verschijnen in minder dan één seconde. Je kunt dus bijna direct zien wat er gebeurt, in plaats van minutenlang te wachten.
  • Kwaliteit: De video ziet er net zo mooi uit als voorheen, alleen gaat het nu veel soepeler.

Kortom:
De auteurs hebben een trage, geheugenverslindende AI omgebouwd tot een efficiënte, snelle verteller. Door de robot te leren om in stukjes te werken (in plaats van alles tegelijk) en hem slimme hulpmiddelen te geven om zijn eigen plek in de tijd te vinden zonder te wachten op anderen, maken ze het mogelijk om lange video's in real-time te genereren. Dit opent de deur voor interactieve toepassingen, zoals het maken van video's terwijl je er live naar kijkt of speelt.