Improving Motion in Image-to-Video Models via Adaptive Low-Pass Guidance

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een magische kunstenaar hebt die video's kan maken. Als je hem een tekst geeft (bijvoorbeeld: "een hond rent door het park"), maakt hij een prachtige, levendige video. Dit noemen we Text-to-Video (Tekst-naar-Video).

Maar wat als je diezelfde kunstenaar een foto geeft en zegt: "Maak hier een video van"? Dit heet Image-to-Video (Afbeelding-naar-Video). Helaas is er een groot probleem: de video's die uit deze foto's komen, zijn vaak saai en stilstaand. Het lijkt alsof de hond op de foto bevroren is in de tijd, terwijl hij eigenlijk zou moeten rennen.

De onderzoekers van dit paper hebben ontdekt waarom dit gebeurt en hebben een slimme, simpele oplossing bedacht die ze ALG noemen.

Hier is de uitleg, vertaald naar alledaagse taal:

Het Probleem: De "Te Gedetailleerde" Foto

Waarom maken deze modellen saaie video's?
Stel je voor dat je een schilderij hebt met ontzettend veel fijne details: elke haartje van de hond, elke steen op de weg. Als je de kunstenaar dit schilderij laat zien en vraagt om een video te maken, kijkt hij zo lang naar die fijne details dat hij bang wordt om iets te veranderen. Hij denkt: "Ik moet dit haartje perfect houden, dus ik laat de hond maar stil staan."

In technische termen noemen ze dit "high-frequency details" (hoogfrequente details). De kunstenaar raakt zo gefocust op de scherpe randen en details van de startfoto, dat hij de grote beweging (de hond die rent) vergeet. Hij loopt in een "kortste pad" (een shortcut) en blijft hangen in de statische afbeelding.

De Eerste Oplossing: De "Wazige" Foto

De onderzoekers dachten: "Wat als we de fijne details weglaten?"
Ze maakten de startfoto wazig (ze gebruikten een laagdoorlaatfilter, ofwel een low-pass filter).

Het resultaat: De video werd veel levendiger! Omdat de kunstenaar niet meer kon kijken naar de fijne haartjes, durfde hij de hond wel te laten rennen.
Het nadeel: De video zag er nu wazig uit. De hond leek niet meer op de originele foto. Het was alsof je een wazige foto gebruikt om een scherpe video van te maken.

De Geniale Oplossing: ALG (Adaptieve Laagdoorlaatgeleiding)

De onderzoekers wilden het beste van twee werelden: een levendige video én een scherpe, herkenbare foto.

Hun oplossing is als een regisseur die een acteur begeleidt:

Het begin van de film (De eerste seconden):
De regisseur geeft de acteur een wazige foto te zien. Omdat de details wazig zijn, hoeft de acteur niet bang te zijn om grootse bewegingen te maken. Hij kan vrijuit rennen, springen en dansen. De kunstenaar (het AI-model) bouwt nu de beweging op zonder vast te komen zitten in de details.
- Analogie: Het is alsof je een danser laat oefenen op een vloer waar je alleen de grote lijnen ziet, zodat hij zijn armen en benen vrij kan zwaaien.
Het einde van de film (De laatste seconden):
Zodra de danser (de beweging) op gang is, geeft de regisseur plotseling de scherpe, originele foto terug.
- Analogie: Nu de danser al in beweging is, zegt de regisseur: "Oké, nu pas kijken naar de details! Zorg dat je jas er perfect uitziet en dat je haar netjes blijft."

Omdat de beweging al is vastgelegd in de eerste fase, durft de kunstenaar nu de fijne details toe te voegen zonder dat de beweging stopt.

Wat levert dit op?

Met deze methode (ALG) krijgen ze:

Meer beweging: De video's zijn veel dynamischer (de "hond" rent echt).
Beter beeld: De video's zien er nog steeds scherp en trouw uit aan de originele foto.
Geen extra training: Ze hoeven de kunstenaar niet opnieuw te leren; ze passen alleen de instructies tijdens het maken van de video aan.

Samenvatting in één zin

De onderzoekers hebben ontdekt dat AI-modellen te bang zijn om te bewegen als ze te veel naar de fijne details van een foto kijken; hun oplossing is om de AI eerst een wazige versie te geven om de beweging te starten, en pas later de scherpe foto te tonen om de details perfect te maken.

Het is alsof je eerst een ruwe schets tekent om de actie vast te leggen, en pas daarna de verf en details toevoegt, in plaats van direct te proberen een perfect schilderij te maken terwijl je probeert te dansen.

Each language version is independently generated for its own context, not a direct translation.

Titel: Verbetering van Beweging in Image-to-Video Modellen via Adaptieve Low-Pass Guidance

1. Het Probleem: Onderdrukte Bewegingsdynamiek

Recente Text-to-Video (T2V) generatiemodellen (gebaseerd op diffusion of flow-matching) tonen sterke prestaties in het maken van dynamische en kwalitatief hoogwaardige video's. Om de visuele controle te vergroten, zijn Image-to-Video (I2V) modellen ontwikkeld die video's genereren op basis van een referentiebeeld. Deze worden meestal gemaakt door bestaande T2V-modellen te fine-tunen.

Echter, een significant probleem is geconstateerd: I2V-modellen produceren vaak veel statischere video's dan hun T2V-tegenhangers. Hoewel ze de afbeelding van het inputbeeld nauwkeurig nabootsen (hoge beeldkwaliteit), missen ze vaak grote, coherente bewegingen.

Oorzaak: De auteurs identificeren dat dit komt door de "premature blootstelling" aan hoogfrequente details (fijne randen, texturen) van het inputbeeld tijdens de vroege fasen van het generatieproces.
Mechanisme: Dit leidt tot een "shortcut"-effect waarbij het model te snel vastloopt in de fijne details van het statische beeld. Hierdoor wordt de generatietrajectoïde te vroeg beïnvloed, waardoor er geen ruimte is voor het ontwikkelen van grootschalige, coarse bewegingen. Het resultaat is een video die visueel trouw is aan het inputbeeld, maar dynamisch dood.

2. Methodologie: Adaptive Low-Pass Guidance (ALG)

Om dit probleem op te lossen zonder het model opnieuw te hoeven trainen, stellen de auteurs Adaptive Low-Pass Guidance (ALG) voor. Dit is een inferentie-techniek die de sampling-procedure van I2V-modellen aanpast.

Kernprincipes van ALG:

Adaptieve Conditionering: In plaats van het originele inputbeeld constant te gebruiken als conditionering, past ALG een low-pass filter (bijv. bilineaire downsampling gevolgd door upsampling) toe op het inputbeeld, maar alleen tijdens de vroege stappen van het denoising-proces.
Tijdsafhankelijke Strategie:
- Vroege stappen ( $t \approx 0$ ): Het model wordt geconditioneerd op een gefilterde (blurry/laagfrequente) versie van het inputbeeld. Dit voorkomt dat het model te snel vastloopt in de "shortcut" van fijne details en stimuleert de vorming van grove bewegingspatronen.
- Late stappen ( $t \approx 1$ ): Het model schakelt terug naar het originele, ongefilterde inputbeeld. Hierdoor kan het model de fijne details en hoge frequenties herstellen, wat zorgt voor hoge beeldkwaliteit en trouw aan het inputbeeld.
Formulering:
De methode past de Classifier-Free Guidance (CFG) formule aan. De snelheidsvoorspelling $v_{ALG}$ wordt berekend als:
$v_{ALG}(x_t, t) = v_\theta(x_t, x_{init}, t, \emptyset) + w \left( v_\theta(x_t, x^{(t)}_{init}, t, c) - v_\theta(x_t, x^{(t)}_{init}, t, \emptyset) \right)$
Waarbij $x^{(t)}_{init}$ het gefilterde beeld is dat afhangt van de tijdstap $t$ . Belangrijk is dat het eerste, onvoorwaardelijke term ( $v_\theta(x_t, x_{init}, t, \emptyset)$ ) nog steeds het originele beeld gebruikt. Dit zorgt voor een balans: de beweging wordt gestimuleerd door het gefilterde beeld, maar de stabiliteit en beeldtrouw worden gewaarborgd door het originele beeld in de onvoorwaardelijke term.

3. Belangrijkste Bijdragen

Analyse van Bewegingsonderdrukking: Het paper biedt een diepgaande analyse van waarom I2V-modellen statischer zijn dan T2V-modellen, attribuerend aan de overmatige blootstelling aan hoogfrequente informatie in de vroege generatiefasen.
ALG (Adaptive Low-Pass Guidance): Een eenvoudige, training-vrije methode die de dynamiek van I2V-generatie significant verbetert door adaptief de frequentie-inhoud van het conditionele beeld te moduleren.
Empirische Validatie: Uitgebreide experimenten tonen aan dat ALG de bewegingskwaliteit verbetert zonder in te leveren op beeldkwaliteit of tekst-alignement.

4. Resultaten

De auteurs hebben ALG getest op diverse state-of-the-art open-source I2V-modellen, waaronder Wan 2.1, Wan 2.2 en LTX-Video, gebruikmakend van benchmarks zoals VBench, PVD en VidProM.

Verbetering in Dynamiek: Op de VBench-testsuite boekte ALG een gemiddelde verbetering van 33% in de "Dynamic Degree" (een maatstaf voor bewegingsintensiteit) over verschillende modellen.
Behoud van Kwaliteit: In tegenstelling tot het simpelweg toepassen van een low-pass filter op het hele proces (wat de beeldkwaliteit verlaagt), behoudt ALG de beeldkwaliteit. Metrieken zoals Aesthetic Quality, Imaging Quality en Subject Consistency blijven gelijk of verbeteren zelfs licht.
Efficiëntie: De methode introduceert slechts een marginaal extra inferentie- overhead (maximaal ~11% extra rekentijd voor sommige modellen), wat acceptabel is gezien de winst in dynamiek.
Visuele Vergelijking: Kwalitatieve resultaten tonen duidelijk dat video's gegenereerd met ALG complexere achtergrondbewegingen, actievere menselijke/animalische bewegingen en soepelere overgangen vertonen vergeleken met de standaard CFG-baselines.

5. Betekenis en Impact

Deze studie is significant voor het veld van generatieve videomodellen omdat het een fundamenteel tekort in de huidige I2V-architecturen aanpakt zonder de noodzaak van kostbare hertraining.

Praktische Toepassing: ALG biedt een directe, plug-and-play oplossing voor ontwikkelaars en gebruikers van bestaande I2V-modellen om statische output te vermijden.
Inzicht in Generatieprocessen: Het paper verrijkt het theoretische begrip van hoe diffusion/flow-matching modellen omgaan met conditionering en hoe de timing van informatie-injectie (hoogfrequente vs. laagfrequente details) de uitkomst van de generatie bepaalt.
Toekomstige Richting: Het benadrukt dat het beheersen van de frequentie-inhoud tijdens het generatieproces een krachtige heuristiek is voor het sturen van generatieve modellen, wat inspiratie kan bieden voor toekomstige methoden in video- en beeldgeneratie.

Kortom, ALG lost het compromis op tussen beeldtrouw en bewegingsdynamiek, waardoor I2V-modellen eindelijk kunnen concurreren met T2V-modellen in termen van levendigheid, terwijl ze hun unieke kracht (controle via inputbeelden) behouden.

Improving Motion in Image-to-Video Models via Adaptive Low-Pass Guidance

Het Probleem: De "Te Gedetailleerde" Foto

De Eerste Oplossing: De "Wazige" Foto

De Geniale Oplossing: ALG (Adaptieve Laagdoorlaatgeleiding)

Wat levert dit op?

Samenvatting in één zin

Titel: Verbetering van Beweging in Image-to-Video Modellen via Adaptieve Low-Pass Guidance

1. Het Probleem: Onderdrukte Bewegingsdynamiek

2. Methodologie: Adaptive Low-Pass Guidance (ALG)

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Impact

Meer zoals dit

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation