Improving Motion in Image-to-Video Models via Adaptive Low-Pass Guidance

Die Arbeit stellt die adaptive Low-Pass-Guidance (ALG) vor, eine trainingsfreie Methode, die durch die gezielte Dämpfung hochfrequenter Details im Eingabebild während der frühen Denoisingschritte die Bewegungsqualität von Image-to-Video-Modellen signifikant verbessert, ohne dabei die Bildqualität oder die Textausrichtung zu beeinträchtigen.

June Suk Choi, Kyungmin Lee, Sihyun Yu, Yisol Choi, Jinwoo Shin, Kimin Lee

Veröffentlicht 2026-02-25
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr talentierten, aber etwas sturen Künstler. Dieser Künstler kann aus einer Textbeschreibung (z. B. "Ein Hund rennt über eine Wiese") wunderschöne, lebendige Videos malen. Das ist das Text-zu-Video-Modell.

Jetzt sagst du zu ihm: "Nein, ich will nicht, dass du dir etwas ausdenkst. Hier ist ein Foto von meinem Hund. Mach daraus ein Video, in dem er rennt." Das ist das Bild-zu-Video-Modell.

Das Problem? Wenn der Künstler das Foto sieht, wird er panisch und starr. Er denkt: "Oh nein, ich muss dieses Foto perfekt kopieren! Jedes Haar, jeder Schatten muss genau so aussehen!" In seiner Angst, das Original zu verzerren, bewegt er den Hund gar nicht mehr. Das Ergebnis ist ein Video, das wie ein stehendes Bild aussieht – der Hund ist zwar da, aber er rennt nicht. Er ist wie in Stein gemeißelt.

Die Forscher von KAIST haben herausgefunden, warum das passiert und wie man den Künstler wieder zum Leben erweckt, ohne dass er das Original vergisst.

Das Problem: Der "Zu-feste-Griff"

Stell dir vor, das Foto, das du dem Künstler gibst, ist extrem scharf und detailliert. Es hat tausende kleine Linien und feine Strukturen (in der Fachsprache: hochfrequente Details).

Wenn der Künstler beginnt, das Video zu malen, starrt er sofort auf diese feinen Details. Er verkrampft sich. Er denkt: "Ich muss diese feine Linie hier sofort perfekt setzen!" Weil er so sehr auf das "Jetzt" und die "Details" fixiert ist, vergisst er den großen Plan: "Wie bewegt sich der Hund eigentlich?"

Er fällt in eine Abkürzung (ein "Shortcut"): Er malt das Bild sofort fertig, anstatt den Bewegungsprozess zu simulieren. Das Ergebnis? Ein statisches, lebloses Video.

Die Lösung: Adaptive Low-Pass Guidance (ALG)

Die Forscher haben eine geniale, einfache Idee entwickelt, die sie ALG nennen. Man kann es sich wie einen Kunst-Koch vorstellen, der einen neuen Trick anwendet:

  1. Der Anfang (Das "Verwischen"):
    Zu Beginn des Malprozesses gibt der Koch dem Künstler das Foto, aber er macht es erst einmal unscharf (wie wenn man durch eine Milchglas-Scheibe schaut).

    • Warum? Weil die feinen Details jetzt verschwunden sind, muss der Künstler nicht mehr auf jedes einzelne Haar achten. Er ist gezwungen, sich auf die großen Bewegungen zu konzentrieren: "Ah, der Hund bewegt sich nach rechts! Der Wind weht!"
    • Durch dieses "Verwischen" wird der Künstler gezwungen, eine dynamische Bewegung zu planen, anstatt sich in Details zu verbeißen.
  2. Das Ende (Das "Scharfstellen"):
    Sobald die Bewegung feststeht und der grobe Ablauf des Videos steht, nimmt der Koch das Milchglas weg. Plötzlich sieht der Künstler das scharfe, originale Foto wieder.

    • Warum? Jetzt, wo die Bewegung schon da ist, kann der Künstler die feinen Details (das Fell, die Augen) wieder perfekt in das bewegte Bild einfügen, ohne die Bewegung zu zerstören.

Warum ist das so genial?

Früher gab es nur zwei Möglichkeiten:

  • Option A: Das scharfe Foto nehmen -> Das Video ist statisch und langweilig (weil der Künstler sich verkrampft).
  • Option B: Das unscharfe Foto nehmen -> Das Video bewegt sich gut, sieht aber am Ende aus wie ein verschwommener Matsch (weil die Details nie wieder hinzugefügt wurden).

ALG ist wie ein Dance-Teacher, der sagt: "Zuerst tanzen wir nur die groben Schritte (unscharf), damit wir den Rhythmus finden. Wenn wir den Rhythmus draufhaben, schauen wir uns das Original an und fügen die coolen Tanzschritte und Details hinzu."

Das Ergebnis

Dank dieser Methode passieren zwei Wunder:

  1. Die Videos bewegen sich viel lebendiger (die "Tanzschritte" sind dynamisch).
  2. Das Video sieht am Ende trotzdem gestochen scharf aus und dem Originalfoto sehr ähnlich (die "Details" sind perfekt).

Die Forscher haben getestet, dass sich die Bewegung in den Videos um durchschnittlich 33 % verbessert, ohne dass die Bildqualität leidet. Es ist ein einfacher Trick, der keine neue Schulung des Künstlers erfordert, sondern nur eine kleine Anpassung während des Malvorgangs.

Kurz gesagt: ALG verhindert, dass der Künstler zu früh in die Details verstrickt wird, und gibt ihm erst die Freiheit, sich zu bewegen, bevor er die perfekte Schärfe wiederherstellt. Ein kleiner Trick für große Bewegungen!

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →