SPIRAL: A Closed-Loop Framework for Self-Improving Action World Models via Reflective Planning Agents

Deze paper introduceert SPIRAL, een gesloten-lusframework dat door middel van reflectieve planningsagenten en iteratieve verbetering controllable video-generatie op lange termijn mogelijk maakt, waardoor de beperkingen van bestaande open-lusmodellen worden overwonnen.

Yu Yang, Yue Liao, Jianbiao Mei, Baisen Wang, Xuemeng Yang, Licheng Wen, Jiangning Zhang, Xiangtai Li, Hanlin Chen, Botian Shi, Yong Liu, Shuicheng Yan, Gim Hee Lee

Gepubliceerd 2026-03-10
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een film wilt maken met een kunstmatige intelligentie (AI). Je geeft de AI een opdracht: "Laat een speler de bal dribbelen, een tegenstander passeren en vervolgens een doelpunt maken."

Bij de oude manier van werken (de "open-loop" methode) was het alsof je de AI een script gaf en zei: "Ga maar aan de slag." De AI probeerde dan in één keer de hele film te maken. Het resultaat? Vaak een ramp. De speler dribbelde misschien wel, maar verloor de bal halverwege, sprong ineens door de lucht (alsof hij zweeft), of de film stopte plotseling voordat het doelpunt viel. De AI "hallucineerde" gewoon dingen die niet logisch waren.

SPIRAL is de nieuwe, slimme oplossing uit dit paper. Het is als het verschil tussen een amateur die alles in één keer probeert te doen, en een professionele regisseur met een assistententeam die alles stap voor stap regelt.

Hier is hoe SPIRAL werkt, vertaald naar alledaagse taal:

1. De Regisseur (PlanAgent)

In plaats van de AI direct te laten filmen, hebben we eerst een Regisseur nodig.

  • Wat doet hij? Hij kijkt naar je opdracht en denkt na: "Oké, om die tegenstander te passeren, moet de speler eerst dribbelen, dan een trucje doen, en daarna hard rennen."
  • De analogie: Het is alsof je een kok bent die een complex gerecht wil maken. Je begint niet met het bakken van alles tegelijk. Je leest eerst het recept, schrijft de stappen op (snijden, bakken, kruiden) en zorgt dat je alle ingrediënten klaar hebt. De Regisseur breekt de grote taak op in kleine, haalbare stukjes.

2. De Acteur (World Model)

Dit is de AI die daadwerkelijk de video maakt.

  • Wat doet hij? Hij volgt de instructies van de Regisseur. Maar in plaats van de hele film in één keer te maken, maakt hij één scène per keer.
  • De analogie: Stel je een acteur voor die alleen de eerste scène speelt: "Dribbelen". Hij doet dat perfect. Dan stopt hij. De Regisseur zegt: "Goed, nu de volgende scène: de tegenstander passeren." De acteur doet dat ook. Zo bouwen ze de film stap voor stap op, zonder dat ze de draad kwijtraken.

3. De Kijkcijfer-Expert (CriticAgent)

Dit is het meest belangrijke nieuwe onderdeel. Tussen elke scène komt er een Kijkcijfer-Expert kijken.

  • Wat doet hij? Hij kijkt naar de net gemaakte scène en vraagt zich af: "Is dit wat de Regisseur wilde? Is het logisch? Ziet het eruit alsof de bal echt raakt?"
  • De analogie: Stel je een filmset voor waar een strenge regisseur (de Expert) elke take controleert. Als de acteur de bal laat vallen of door de vloer zakt, zegt de Expert: "Stop! Dat klopt niet. De bal viel door de grond. Doe het opnieuw, maar zorg dat de bal op de grond blijft."
  • Het resultaat: Als de scène goed is, gaan ze verder. Als hij fout is, wordt hij direct gecorrigeerd voordat de volgende scène begint. Hierdoor ontstaat er geen "opstapeling" van fouten.

4. De Leerling die zichzelf verbetert (GRPO / Self-Improving)

Naast het controleren tijdens het maken, leert het systeem ook van zijn eigen fouten om in de toekomst beter te worden.

  • Wat doet hij? Het systeem probeert een taak meerdere keren. De versies die het beste scoren bij de Expert, worden beloond. De versies die fouten maken, worden "gestraft".
  • De analogie: Het is als een sporter die traint. Hij probeert een beweging 10 keer. De eerste 5 keer valt hij. De Expert zegt: "Je buigt je knieën niet genoeg." De sporter luistert, past zijn techniek aan, en probeert het opnieuw. Na veel trainingen (zogenoemde "GRPO") wordt de sporter zo goed dat hij de beweging perfect uitvoert, zelfs zonder dat de Expert erbij staat.

Waarom is dit zo'n grote doorbraak?

Vroeger maakten AI's video's alsof ze in een droom leefden: alles was vaag, onlogisch en stopte te vroeg.
Met SPIRAL hebben we een gesloten kringloop (closed-loop) gecreëerd:

  1. Denken: De Regisseur plant het.
  2. Doen: De Acteur voert het uit.
  3. Reflecteren: De Expert controleert en corrigeert.

Dit zorgt ervoor dat AI's nu complexe, lange video's kunnen maken waarin dingen echt gebeuren zoals in het echte leven. Een speler kan een hele wedstrijd spelen, een kok kan een heel recept koken, en de AI vergeet niet hoe de bal eruitzag toen hij begon.

Kortom: SPIRAL is de slimme regisseur die zorgt dat de AI niet meer "in de war raakt" tijdens het maken van lange video's, maar juist stap voor stap, met controle en verbetering, een perfect resultaat levert.