Improving Motion in Image-to-Video Models via Adaptive Low-Pass Guidance

Deze paper introduceert Adaptive Low-Pass Guidance (ALG), een trainingsvrije methode die de dynamiek van gegenereerde video's in image-to-video-modellen verbetert door de frequentie-inhoud van het invoerbeeld in de vroege fasen van het denoising-proces te filteren, waardoor statische output wordt voorkomen zonder in te leveren op beeldkwaliteit.

June Suk Choi, Kyungmin Lee, Sihyun Yu, Yisol Choi, Jinwoo Shin, Kimin Lee

Gepubliceerd 2026-02-25
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een magische kunstenaar hebt die video's kan maken. Als je hem een tekst geeft (bijvoorbeeld: "een hond rent door het park"), maakt hij een prachtige, levendige video. Dit noemen we Text-to-Video (Tekst-naar-Video).

Maar wat als je diezelfde kunstenaar een foto geeft en zegt: "Maak hier een video van"? Dit heet Image-to-Video (Afbeelding-naar-Video). Helaas is er een groot probleem: de video's die uit deze foto's komen, zijn vaak saai en stilstaand. Het lijkt alsof de hond op de foto bevroren is in de tijd, terwijl hij eigenlijk zou moeten rennen.

De onderzoekers van dit paper hebben ontdekt waarom dit gebeurt en hebben een slimme, simpele oplossing bedacht die ze ALG noemen.

Hier is de uitleg, vertaald naar alledaagse taal:

Het Probleem: De "Te Gedetailleerde" Foto

Waarom maken deze modellen saaie video's?
Stel je voor dat je een schilderij hebt met ontzettend veel fijne details: elke haartje van de hond, elke steen op de weg. Als je de kunstenaar dit schilderij laat zien en vraagt om een video te maken, kijkt hij zo lang naar die fijne details dat hij bang wordt om iets te veranderen. Hij denkt: "Ik moet dit haartje perfect houden, dus ik laat de hond maar stil staan."

In technische termen noemen ze dit "high-frequency details" (hoogfrequente details). De kunstenaar raakt zo gefocust op de scherpe randen en details van de startfoto, dat hij de grote beweging (de hond die rent) vergeet. Hij loopt in een "kortste pad" (een shortcut) en blijft hangen in de statische afbeelding.

De Eerste Oplossing: De "Wazige" Foto

De onderzoekers dachten: "Wat als we de fijne details weglaten?"
Ze maakten de startfoto wazig (ze gebruikten een laagdoorlaatfilter, ofwel een low-pass filter).

  • Het resultaat: De video werd veel levendiger! Omdat de kunstenaar niet meer kon kijken naar de fijne haartjes, durfde hij de hond wel te laten rennen.
  • Het nadeel: De video zag er nu wazig uit. De hond leek niet meer op de originele foto. Het was alsof je een wazige foto gebruikt om een scherpe video van te maken.

De Geniale Oplossing: ALG (Adaptieve Laagdoorlaatgeleiding)

De onderzoekers wilden het beste van twee werelden: een levendige video én een scherpe, herkenbare foto.

Hun oplossing is als een regisseur die een acteur begeleidt:

  1. Het begin van de film (De eerste seconden):
    De regisseur geeft de acteur een wazige foto te zien. Omdat de details wazig zijn, hoeft de acteur niet bang te zijn om grootse bewegingen te maken. Hij kan vrijuit rennen, springen en dansen. De kunstenaar (het AI-model) bouwt nu de beweging op zonder vast te komen zitten in de details.

    • Analogie: Het is alsof je een danser laat oefenen op een vloer waar je alleen de grote lijnen ziet, zodat hij zijn armen en benen vrij kan zwaaien.
  2. Het einde van de film (De laatste seconden):
    Zodra de danser (de beweging) op gang is, geeft de regisseur plotseling de scherpe, originele foto terug.

    • Analogie: Nu de danser al in beweging is, zegt de regisseur: "Oké, nu pas kijken naar de details! Zorg dat je jas er perfect uitziet en dat je haar netjes blijft."

Omdat de beweging al is vastgelegd in de eerste fase, durft de kunstenaar nu de fijne details toe te voegen zonder dat de beweging stopt.

Wat levert dit op?

Met deze methode (ALG) krijgen ze:

  • Meer beweging: De video's zijn veel dynamischer (de "hond" rent echt).
  • Beter beeld: De video's zien er nog steeds scherp en trouw uit aan de originele foto.
  • Geen extra training: Ze hoeven de kunstenaar niet opnieuw te leren; ze passen alleen de instructies tijdens het maken van de video aan.

Samenvatting in één zin

De onderzoekers hebben ontdekt dat AI-modellen te bang zijn om te bewegen als ze te veel naar de fijne details van een foto kijken; hun oplossing is om de AI eerst een wazige versie te geven om de beweging te starten, en pas later de scherpe foto te tonen om de details perfect te maken.

Het is alsof je eerst een ruwe schets tekent om de actie vast te leggen, en pas daarna de verf en details toevoegt, in plaats van direct te proberen een perfect schilderij te maken terwijl je probeert te dansen.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →