PropFly: Learning to Propagate via On-the-Fly Supervision from Pre-trained Video Diffusion Models

Die Arbeit stellt PropFly vor, einen Trainingsansatz für videobasierte Bearbeitungen, der mithilfe von Pre-trained Video Diffusion Models und Guidance-Modulated Flow Matching auf die Notwendigkeit großer, gepaarter Datensätze verzichtet, indem er Trainingspaare direkt während des Trainings aus latenten Darstellungen mit unterschiedlichen CFG-Skalen synthetisiert.

Wonyong Seo, Jaeho Moon, Jaehyup Lee, Soo Ye Kim, Munchurl Kim

Veröffentlicht 2026-02-25
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der mühsame Kochkurs

Stell dir vor, du möchtest einen Videoclip bearbeiten. Vielleicht soll ein schwarzes Auto im Video plötzlich rot sein, oder ein sonniger Tag soll in einen stürmischen Winter verwandelt werden.

Bisher gab es zwei Wege, das zu tun:

  1. Der Text-Koch: Du sagst dem Computer: „Mach das Auto rot." Aber der Computer ist wie ein Koch, der deine Anweisungen oft missversteht. Vielleicht wird das Auto pink, oder der Hintergrund ändert sich auch noch. Es ist schwer, genau das zu bekommen, was man im Kopf hat.
  2. Der Nachahmer: Du zeigst dem Computer ein einzelnes Bild, auf dem das Auto schon rot ist, und sagst: „Mach den Rest des Videos genauso." Das ist viel präziser. Aber hier liegt das Problem: Um einen Computer so zu trainieren, dass er das kann, braucht man tausende von Videopärchen. Man braucht das Originalvideo und dazu das perfekt bearbeitete Gegenstück.

Das ist wie ein Kochkurs, bei dem man 10.000 Rezepte braucht, um zu lernen, wie man einen Kuchen backt. Diese Rezepte (die Videopärchen) zu finden oder zu erstellen, ist extrem teuer, zeitaufwendig und oft unmöglich.

Die Lösung: PropFly – Der „On-the-Fly"-Lehrmeister

Die Forscher von PropFly haben eine geniale Idee entwickelt, die diesen riesigen Aufwand umgeht. Sie brauchen keine fertigen Rezepte. Stattdessen nutzen sie einen intelligenten Koch, der schon alles kann, und lassen ihn die Rezepte während des Trainings selbst erfinden.

Hier ist die Analogie:

1. Der erfahrene Koch (Das vortrainierte Modell)

Stell dir vor, du hast einen Weltklasse-Koch (ein großes KI-Modell), der schon Millionen von Videos gesehen hat. Er weiß genau, wie ein Video aussieht, wie sich Dinge bewegen und wie Farben funktionieren. Aber er hat noch nie gelernt, wie man ein Video speziell bearbeitet.

2. Der Trick mit dem „Gewürz" (CFG-Skalen)

Normalerweise gibt dieser Koch ein Gericht aus, das genau dem Rezept entspricht. Aber die Forscher haben einen Zaubertrick entdeckt: Sie können dem Koch einen „Gewürz-Regler" (im Fachjargon CFG-Skala) geben.

  • Wenig Gewürz (Niedrige Skala): Der Koch macht das Gericht fast so, wie es ursprünglich war (das Originalvideo).
  • Viel Gewürz (Hohe Skala): Der Koch macht das Gericht extrem intensiv und verändert den Stil (z. B. macht er aus dem sonnigen Tag einen stürmischen Winter).

Das Geniale ist: Weil der Koch dasselbe Gericht auf dieselbe Art zubereitet, nur mit unterschiedlichem Gewürz, bewegen sich die Zutaten (die Objekte im Video) immer noch exakt gleich. Nur das Aussehen ändert sich.

3. Die „On-the-Fly"-Supervision (Das Lernen in Echtzeit)

Anstatt 10.000 fertige Videopärchen zu sammeln, tut PropFly folgendes:

  1. Es nimmt ein normales Video.
  2. Es fragt den Weltklasse-Koch: „Wie sieht das aus, wenn ich wenig Gewürz nehme?" (Das ist das Original).
  3. Es fragt denselben Koch sofort danach: „Wie sieht es aus, wenn ich viel Gewürz nehme?" (Das ist das Bearbeitete).
  4. Das passiert sofort („On-the-Fly"), während das Training läuft.

Der Computer lernt nun: „Aha! Wenn ich vom Zustand 'wenig Gewürz' zum Zustand 'viel Gewürz' wechsle, passiert genau diese Veränderung." Er lernt die Transformation, ohne dass jemand ihm vorher ein fertiges Beispiel gezeigt hat.

Warum ist das so cool?

  • Keine mühsame Datensammlung: Man braucht keine riesige Datenbank mit bearbeiteten Videos. Das System generiert seine eigenen Trainingsbeispiele in Echtzeit.
  • Präzision: Da beide Versionen (Original und Bearbeitet) aus demselben „Gedanken" des Kochs stammen, bewegen sich die Dinge im Video perfekt synchron. Das Auto fährt immer noch genau so, wie es vorher fuhr – nur dass es jetzt rot ist.
  • Vielseitigkeit: Es funktioniert nicht nur für kleine Änderungen (wie eine Farbe), sondern auch für große Umwandlungen (wie einen ganzen Wald in eine Cyberpunk-Stadt zu verwandeln).

Zusammenfassung in einem Satz

PropFly ist wie ein Schüler, der nicht 10.000 fertige Beispiele auswendig lernt, sondern einen genialen Lehrer hat, der ihm in Echtzeit zeigt, wie eine Veränderung aussieht, indem er nur den „Stil-Regler" an einem einzigen Video dreht – und der Schüler lernt daraus, jede beliebige Veränderung präzise zu übernehmen.

Das Ergebnis: Hochwertige Videobearbeitung, die genau das tut, was man sich vorstellt, ohne dass man jahrelang Daten sammeln muss.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →