PropFly: Learning to Propagate via On-the-Fly Supervision from Pre-trained Video Diffusion Models

PropFly is een trainingspipeline voor videobewerking die gebruikmaakt van vooraf getrainde videodiffusiemodellen om direct gepaarde 'bron' en 'bewerkte' latenten te genereren, waardoor het mogelijk wordt om hoogwaardige, consistent bewerkte video's te produceren zonder de noodzaak van kostbare, handmatig samengestelde datasets.

Wonyong Seo, Jaeho Moon, Jaehyup Lee, Soo Ye Kim, Munchurl Kim

Gepubliceerd 2026-02-25
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een video hebt van een paard dat door een veld galoppeert. Je wilt dat het paard verandert in een eenhoorn, maar je wilt ook dat de beweging, de achtergrond en de sfeer precies hetzelfde blijven.

Vroeger was dit een enorme uitdaging voor computers. Ofwel moest je de hele video opnieuw laten genereren (wat vaak resulteerde in een vreemde, dansende eenhoorn die niet meer op het paard leek), ofwel moest je handmatig elke frame bewerken (wat uren duurt).

Deze paper introduceert PropFly, een slimme nieuwe manier om video's te bewerken. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Paar-Data" Dilemma

Om een computer te leren video's te bewerken, hebben onderzoekers normaal gesproken duizenden voorbeelden nodig van "voor" en "na". Denk aan een video van een hond, en daarnaast exact dezelfde video maar dan met een hond die een hoed draagt.

  • Het probleem: Het verzamelen van deze perfecte paren is duur, moeilijk en tijdrovend. Het is alsof je een kok moet leren koken door hem duizenden recepten te geven, terwijl je eigenlijk maar één ingrediënt wilt vervangen.

2. De Oplossing: PropFly (De "Live-Leraar")

PropFly heeft een geniale truc bedacht: ze hebben geen vooraf verzamelde voorbeelden nodig. In plaats daarvan leren ze de computer direct tijdens het trainen, "live" (on-the-fly).

Hoe doen ze dat? Ze gebruiken een bestaande, zeer slimme video-generator (een "Pre-trained Video Diffusion Model") als een meesterkok.

De Analogie van de Magische Rem

Stel je voor dat die bestaande video-generator een magische rem heeft (in de tech-taal heet dit CFG of Classifier-Free Guidance).

  • Als je de rem licht trekt, blijft de video eruitzien zoals hij was (het paard blijft een paard).
  • Als je de rem hard trekt, verandert de video drastisch volgens een beschrijving (het paard wordt een eenhoorn).

PropFly gebruikt deze rem op een slimme manier:

  1. Ze nemen een willekeurige video (het paard).
  2. Ze laten de computer een paar stappen in de "ruis" (de onduidelijke fase van het genereren) zetten.
  3. Vervolgens vragen ze de computer twee dingen tegelijk:
    • "Wat zou dit zijn als ik de rem zacht trek?" (Dit is de Bron: het paard).
    • "Wat zou dit zijn als ik de rem hard trek?" (Dit is het Doel: de eenhoorn).

Omdat beide antwoorden uit hetzelfde moment in de "ruis" komen, bewegen ze precies hetzelfde! Het paard galoppeert op dezelfde manier als de eenhoorn. De computer ziet dit paar (paard vs. eenhoorn) en leert: "Ah, als ik dit frame zie, moet ik die beweging behouden, maar het uiterlijk veranderen."

3. De Leerling: De "Adapter"

De grote video-generator (de meesterkok) wordt niet aangepast; die blijft staan. PropFly plakt er een klein, trainbaar stukje bij, een Adapter.

  • Deze adapter is als een stagiair die naar de meesterkok kijkt.
  • De stagiair krijgt het "paard" te zien en de eerste frame van de "eenhoorn".
  • De stagiair moet dan de rest van de video maken, waarbij hij de beweging van het paard overneemt, maar het uiterlijk van de eenhoorn toepast.

De stagiair wordt beloofd of gestraft (via een speciale rekenmethode genaamd GMFM) op basis van hoe goed hij de meesterkopie nabootst. Na veel oefening wordt de stagiair zo goed dat hij elke video kan bewerken, van het vervangen van objecten tot het veranderen van het weer of de stijl.

4. Waarom is dit zo speciaal?

  • Geen dure datasets: Je hoeft geen duizenden voorbeelden te verzamelen. De computer maakt zijn eigen oefenmateriaal terwijl het leert.
  • Perfecte beweging: Omdat de "bron" en het "doel" uit dezelfde wiskundige berekening komen, blijft de beweging (het galopperen, het lopen) perfect consistent. Geen dansende eenhoorns meer!
  • Alles kan: Of je nu een auto in een robot wilt veranderen, een park in een ruïne wilt omtoveren, of de sfeer wilt veranderen naar "cyberpunk", PropFly doet het allemaal zonder dat de video uit elkaar valt.

Samenvattend

PropFly is als het geven van een magische bril aan een computer. In plaats van duizenden voorbeelden te laten zien, laat je de computer zien hoe het zelfde moment eruit zou zien in twee verschillende werelden (bijvoorbeeld: "sneeuw" vs. "zon"). De computer leert dan het patroon van de verandering en past dat toe op elke video die je hem geeft, terwijl hij de originele beweging perfect behoudt.

Het is een enorme stap voorwaarts: video bewerken wordt niet langer een zware, dure klus, maar een slimme, dynamische leerervaring die direct in de computer wordt opgebouwd.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →