Flowception: Temporally Expansive Flow Matching for Video Generation

Flowception is een nieuw niet-autoregressief framework voor het genereren van video's van variabele lengte dat door het combineren van discrete frame-insertie en continue frame-denoising foutopbouw vermindert, de rekenefficiëntie verbetert en diverse taken zoals beeld-naar-video en video-interpolatie naadloos integreert.

Tariq Berrada Ifriqi, John Nguyen, Karteek Alahari, Jakob Verbeek, Ricky T. Q. Chen

Gepubliceerd 2026-03-24
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Flowception: De slimme regisseur die video's in stukjes bouwt

Stel je voor dat je een lange film moet maken. Er zijn tot nu toe twee hoofdmanieren om dit te doen met kunstmatige intelligentie:

  1. De "Alles-in-één" methode (Full-Sequence): De computer probeert het hele filmpje tegelijk te dromen. Het is alsof je een hele film in één keer uit je hoofd probeert te tekenen. Dit geeft vaak heel mooie resultaten, maar het is extreem zwaar voor de computer en kan geen lange films maken zonder vast te lopen.
  2. De "Stap-voor-stap" methode (Autoregressive): De computer tekent eerst het eerste beeldje, dan het tweede, dan het derde, enzovoort. Dit is lichter voor de computer, maar als de computer bij het eerste beeldje een klein foutje maakt, wordt dat foutje bij elk volgend beeldje erger. Het is alsof je een verhaal vertelt waarbij je bij elke zin een foutje maakt; tegen het einde is het verhaal onherkenbaar.

Flowception is een nieuwe, slimme manier die het beste van beide werelden combineert. Het werkt als een slimme regisseur die een film in stukjes bouwt, maar wel in willekeurige volgorde.

Hier is hoe het werkt, vertaald in alledaagse termen:

1. De "Insteek- en Schuur"-techniek

Stel je voor dat je een muur moet bouwen.

  • De oude methoden: Ofwel bouw je de hele muur tegelijk (zwaar werk), ofwel leg je één baksteen, dan de volgende, dan de volgende (langzaam en foutgevoelig).
  • Flowception: Flowception begint met een paar losse bakstenen. Dan doet het twee dingen tegelijk:
    1. Het schuurt de bestaande bakstenen glad (het maakt de beelden scherper en duidelijker).
    2. Het plaatst nieuwe, ruwe bakstenen op willekeurige plekken in de muur.

Het mooie is: Flowception beslist zelf waar die nieuwe bakstenen moeten komen. Soms plaatst het er eentje halverwege, soms twee aan het einde. Het bouwt de film niet van links naar rechts, maar vult de gaten op waar het nodig is.

2. Waarom is dit zo slim? (De "Gatenvuller")

In de oude "stap-voor-stap" methode moet je wachten tot de eerste baksteen perfect is voordat je aan de tweede begint. Als de eerste scheef staat, staat de hele muur scheef.

Flowception is anders. Omdat het nieuwe bakstenen (beelden) op willekeurige plekken kan toevoegen, kan het de "gaten" in het verhaal opvullen.

  • Voorbeeld: Stel je maakt een video van een auto die rijdt. Flowception tekent eerst de auto en de achtergrond (de grote lijnen). Dan ziet het dat er een gat is tussen de auto en de horizon, en voegt het daar een nieuwe beelden toe om de beweging soepel te maken.
  • Het resultaat: Als er een foutje in een vroeg beeldje zit, kan Flowception later een nieuw beeldje toevoegen dat dat foutje "corrigeert" of er omheen bouwt. Het hoeft niet vast te zitten aan de volgorde.

3. De "Magische Koffer" (Variabele Lengte)

Stel je hebt een koffer.

  • Bij de oude methoden moet je van tevoren weten hoe groot de koffer is. Als je te veel spullen hebt, past het niet. Als je te weinig hebt, is de koffer half leeg.
  • Flowception is een magische koffer. Je kunt er 10 spullen in doen, of 100. De kolder past zich aan. Flowception leert zelf hoeveel beelden er nodig zijn voor een bepaalde video. Het bepaalt niet alleen wat er in de video zit, maar ook hoe lang de video is.

4. Waarom is dit sneller en goedkoper?

Stel je voor dat je een hele klas leerlingen moet leren.

  • De "Alles-in-één" methode: Je moet met de hele klas tegelijk oefenen. Dat is chaos en kost veel energie.
  • Flowception: Je begint met een paar leerlingen. Zodra die iets begrijpen, voeg je er een paar nieuwe aan toe. Je hoeft niet de hele klas tegelijk te onderwijzen, maar alleen de groep die er op dat moment is.
  • Het voordeel: Omdat de computer niet constant naar alle beelden hoeft te kijken (alleen naar de beelden die er op dat moment zijn), is het veel minder zwaar voor de rekenkracht. Het is alsof je een lange reis maakt met een auto die brandstof bespaart door alleen te rijden als er passagiers in zitten.

Wat kan Flowception allemaal doen?

Omdat het zo flexibel is, kan het verschillende taken uitvoeren zonder dat je de software hoeft te veranderen:

  • Foto naar Video: Je geeft één foto, en Flowception bouwt de rest van de film eromheen.
  • Video tussenvoegsel: Je geeft de eerste en de laatste foto van een beweging, en Flowception vult het midden in (zoals een animatie die tussen twee tekeningen in zit).
  • Video verlengen: Je kunt een kort filmpje nemen en Flowception kan er nieuwe scènes aan toevoegen die er perfect bij passen.

Kortom: Flowception is als een slimme timmerman die niet alleen planken zagen, maar ook zelf beslist waar de nieuwe planken moeten komen om het huis (de video) stevig, soepel en precies zo groot te maken als nodig is. Het voorkomt dat de hele constructie scheef groeit door kleine foutjes, en het doet dit allemaal veel sneller dan de oude methoden.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →