Improving Motion in Image-to-Video Models via Adaptive Low-Pass Guidance

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr talentierten, aber etwas sturen Künstler. Dieser Künstler kann aus einer Textbeschreibung (z. B. "Ein Hund rennt über eine Wiese") wunderschöne, lebendige Videos malen. Das ist das Text-zu-Video-Modell.

Jetzt sagst du zu ihm: "Nein, ich will nicht, dass du dir etwas ausdenkst. Hier ist ein Foto von meinem Hund. Mach daraus ein Video, in dem er rennt." Das ist das Bild-zu-Video-Modell.

Das Problem? Wenn der Künstler das Foto sieht, wird er panisch und starr. Er denkt: "Oh nein, ich muss dieses Foto perfekt kopieren! Jedes Haar, jeder Schatten muss genau so aussehen!" In seiner Angst, das Original zu verzerren, bewegt er den Hund gar nicht mehr. Das Ergebnis ist ein Video, das wie ein stehendes Bild aussieht – der Hund ist zwar da, aber er rennt nicht. Er ist wie in Stein gemeißelt.

Die Forscher von KAIST haben herausgefunden, warum das passiert und wie man den Künstler wieder zum Leben erweckt, ohne dass er das Original vergisst.

Das Problem: Der "Zu-feste-Griff"

Stell dir vor, das Foto, das du dem Künstler gibst, ist extrem scharf und detailliert. Es hat tausende kleine Linien und feine Strukturen (in der Fachsprache: hochfrequente Details).

Wenn der Künstler beginnt, das Video zu malen, starrt er sofort auf diese feinen Details. Er verkrampft sich. Er denkt: "Ich muss diese feine Linie hier sofort perfekt setzen!" Weil er so sehr auf das "Jetzt" und die "Details" fixiert ist, vergisst er den großen Plan: "Wie bewegt sich der Hund eigentlich?"

Er fällt in eine Abkürzung (ein "Shortcut"): Er malt das Bild sofort fertig, anstatt den Bewegungsprozess zu simulieren. Das Ergebnis? Ein statisches, lebloses Video.

Die Lösung: Adaptive Low-Pass Guidance (ALG)

Die Forscher haben eine geniale, einfache Idee entwickelt, die sie ALG nennen. Man kann es sich wie einen Kunst-Koch vorstellen, der einen neuen Trick anwendet:

Der Anfang (Das "Verwischen"):
Zu Beginn des Malprozesses gibt der Koch dem Künstler das Foto, aber er macht es erst einmal unscharf (wie wenn man durch eine Milchglas-Scheibe schaut).
- Warum? Weil die feinen Details jetzt verschwunden sind, muss der Künstler nicht mehr auf jedes einzelne Haar achten. Er ist gezwungen, sich auf die großen Bewegungen zu konzentrieren: "Ah, der Hund bewegt sich nach rechts! Der Wind weht!"
- Durch dieses "Verwischen" wird der Künstler gezwungen, eine dynamische Bewegung zu planen, anstatt sich in Details zu verbeißen.
Das Ende (Das "Scharfstellen"):
Sobald die Bewegung feststeht und der grobe Ablauf des Videos steht, nimmt der Koch das Milchglas weg. Plötzlich sieht der Künstler das scharfe, originale Foto wieder.
- Warum? Jetzt, wo die Bewegung schon da ist, kann der Künstler die feinen Details (das Fell, die Augen) wieder perfekt in das bewegte Bild einfügen, ohne die Bewegung zu zerstören.

Warum ist das so genial?

Früher gab es nur zwei Möglichkeiten:

Option A: Das scharfe Foto nehmen -> Das Video ist statisch und langweilig (weil der Künstler sich verkrampft).
Option B: Das unscharfe Foto nehmen -> Das Video bewegt sich gut, sieht aber am Ende aus wie ein verschwommener Matsch (weil die Details nie wieder hinzugefügt wurden).

ALG ist wie ein Dance-Teacher, der sagt: "Zuerst tanzen wir nur die groben Schritte (unscharf), damit wir den Rhythmus finden. Wenn wir den Rhythmus draufhaben, schauen wir uns das Original an und fügen die coolen Tanzschritte und Details hinzu."

Das Ergebnis

Dank dieser Methode passieren zwei Wunder:

Die Videos bewegen sich viel lebendiger (die "Tanzschritte" sind dynamisch).
Das Video sieht am Ende trotzdem gestochen scharf aus und dem Originalfoto sehr ähnlich (die "Details" sind perfekt).

Die Forscher haben getestet, dass sich die Bewegung in den Videos um durchschnittlich 33 % verbessert, ohne dass die Bildqualität leidet. Es ist ein einfacher Trick, der keine neue Schulung des Künstlers erfordert, sondern nur eine kleine Anpassung während des Malvorgangs.

Kurz gesagt: ALG verhindert, dass der Künstler zu früh in die Details verstrickt wird, und gibt ihm erst die Freiheit, sich zu bewegen, bevor er die perfekte Schärfe wiederherstellt. Ein kleiner Trick für große Bewegungen!

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung: Unterdrückte Bewegungsdynamik in I2V-Modellen

Trotz der Fortschritte bei Text-zu-Video-Modellen (T2V) leiden neuere Bild-zu-Video-Modelle (Image-to-Video, I2V) häufig unter einem signifikanten Mangel an Bewegungsdynamik. Während T2V-Modelle oft lebendige und dynamische Videos generieren, neigen I2V-Modelle dazu, statische Outputs zu produzieren, die sich zu stark an das Referenzbild anlehnen.

Die Autoren identifizieren die Ursache dieses Phänomens als eine vorzeitige Exposition gegenüber hochfrequenten Details des Eingabebildes.

Der „Shortcut"-Effekt: Während des Denoising-Prozesses (Entrauschung) „verriegeln" sich I2V-Modelle zu früh auf die feinen Details (hohe Frequenzen) des Referenzbildes. Dies führt dazu, dass der Generierungspfad in eine „Shortcut"-Lösung (einen Pfad, der die statische Erscheinung des Bildes sofort übernimmt) abdriftet.
Folge: Da die groben Strukturen und Bewegungen erst später im Prozess entstehen sollten, wird die Möglichkeit für großflächige, zeitliche Variationen unterdrückt, sobald die feinen Details fixiert sind. Das Ergebnis sind Videos mit geringer Dynamik, aber hoher Bildtreue.

2. Methodik: Adaptive Low-Pass Guidance (ALG)

Um dieses Problem zu lösen, ohne das Modell neu trainieren zu müssen, schlagen die Autoren Adaptive Low-Pass Guidance (ALG) vor. Dies ist eine inference-basierte Technik, die den Sampling-Prozess modifiziert.

Kernidee:
Die Methode passt die Frequenzinhalte des Konditionierungsbildes (des Eingabebildes) dynamisch während der verschiedenen Zeitstufen ( $t$ ) des Denoising-Prozesses an.

Frühe Phasen ( $t \approx 0$ ): Zu Beginn des Generierungsprozesses wird das Eingabebild durch einen Tiefpassfilter (Low-Pass Filter) geleitet (z. B. durch Downsampling und anschließendes Upsampling oder Gauß-Weichzeichnen). Dies entfernt hochfrequente Details und zwingt das Modell, sich auf grobe Strukturen und Bewegungsrichtungen zu konzentrieren, anstatt sich sofort in feinen Details zu verlieren.
Späte Phasen ( $t \approx 1$ ): Im weiteren Verlauf des Prozesses wird die Filterstärke schrittweise reduziert, bis zum Ende das originale, ungefilterte Bild verwendet wird. Dies ermöglicht dem Modell, die feinen Details und die hohe Bildqualität des Referenzbildes in den späteren Schritten wiederherzustellen.

Mathematische Formulierung:
ALG integriert diese adaptive Bedingung in die Formel für Classifier-Free Guidance (CFG). Anstatt das originale Bild $x_{init}$ durchgehend zu verwenden, wird für die bedingten Terme ein gefiltertes Bild $x^{(t)}_{init}$ verwendet, dessen Filterstärke $\kappa(t)$ mit der Zeit abnimmt.

Die Geschwindigkeitsvorhersage $v_{ALG}$ lautet:
$v_{ALG}(x_t, t) = v_\theta(x_t, x_{init}, t, \emptyset) + w \left( v_\theta(x_t, x^{(t)}_{init}, t, c) - v_\theta(x_t, x^{(t)}_{init}, t, \emptyset) \right)$

Wichtig ist hier die Designentscheidung: Der unbedingte Term (der erste Teil der Gleichung) bleibt beim originalen Bild $x_{init}$ , während die bedingten Terme das gefilterte Bild nutzen. Dies sorgt für einen Ausgleich zwischen Bewegungsverbesserung (durch den Filter) und der Erhaltung der Bildtreue (durch das originale Bild im unbedingten Pfad).

3. Schlüsselbeiträge

Analyse des Bewegungsunterdrückungs-Effekts: Die Autoren quantifizieren den Unterschied zwischen T2V- und I2V-Modellen und beweisen, dass hochfrequente Details im Eingabebild die Hauptursache für statische Videos sind.
Entwicklung von ALG: Präsentation einer einfachen, training-freien Methode, die die Dynamik von I2V-Modellen signifikant verbessert, indem sie hochfrequente Signale nur in den kritischen frühen Phasen des Denoising unterdrückt.
Umfassende Validierung: Die Methode wurde auf mehreren State-of-the-Art-Modellen (Wan 2.1, Wan 2.2, LTX-Video) und verschiedenen Benchmarks getestet und zeigt konsistente Verbesserungen ohne Qualitätsverlust.

4. Ergebnisse

Die Experimente wurden auf den Benchmarks VBench, PVD und VidProM durchgeführt.

Verbesserung der Dynamik: ALG führt zu einer durchschnittlichen Steigerung des Dynamic Degree (einem VBench-Metrik für Beweglichkeit) um 33 % über verschiedene Modelle hinweg.
- Beispiel: Beim Wan 2.2-Modell stieg der Dynamic Degree von 31,7 (Baseline/CFG) auf 39,0 (ALG).
Erhalt der Bildqualität: Im Gegensatz zu einer naiven Anwendung eines Tiefpassfilters (die zwar Bewegung erhöht, aber die Bildqualität verschlechtert), erhält ALG die Bildtreue und die visuelle Qualität. Metriken wie Aesthetic Quality, Imaging Quality und Subject Consistency bleiben stabil oder verbessern sich sogar leicht.
Effizienz: Die Methode erfordert kein zusätzliches Training und fügt nur einen marginalen Rechenoverhead hinzu (ca. 11 % längere Inferenzzeit in einigen Fällen), da der Filter nur in den ersten Schritten angewendet wird.

5. Bedeutung und Fazit

Die Arbeit adressiert ein fundamentales Problem bei der Feinabstimmung von T2V-Modellen für I2V-Aufgaben: den Kompromiss zwischen Bildtreue und Bewegungsfreiheit.

Technische Einsicht: Die Studie zeigt, dass die „Über-Konditionierung" auf hochfrequente Details in den frühen Phasen des Generierungsprozesses die Entstehung von Bewegung verhindert.
Praktischer Nutzen: ALG bietet eine sofort anwendbare Lösung für Entwickler und Nutzer von Video-Generierungsmodellen. Sie ermöglicht die Erstellung von Videos, die nicht nur das Eingabebild genau nachahmen, sondern auch lebendige, komplexe Bewegungen ausführen, ohne dass das Modell neu trainiert werden muss.
Zukunftsausblick: Der Ansatz der adaptiven Frequenzmodulation während des Sampling-Prozesses könnte als generelles Prinzip für die Verbesserung der Kontrolle in anderen generativen Aufgaben (z. B. Audio oder 3D-Generierung) dienen.

Zusammenfassend stellt ALG einen effizienten und effektiven Weg dar, um die statische Natur aktueller I2V-Modelle zu überwinden und hochwertige, dynamische Videos zu generieren.

Improving Motion in Image-to-Video Models via Adaptive Low-Pass Guidance

Das Problem: Der "Zu-feste-Griff"

Die Lösung: Adaptive Low-Pass Guidance (ALG)

Warum ist das so genial?

Das Ergebnis

1. Problemstellung: Unterdrückte Bewegungsdynamik in I2V-Modellen

2. Methodik: Adaptive Low-Pass Guidance (ALG)

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation