Mode Seeking meets Mean Seeking for Fast Long Video Generation

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een film wilt maken. Je hebt twee grote uitdagingen:

De kwaliteit: Elke scène moet er haarscherp en realistisch uitzien (zoals een goede foto).
Het verhaal: Het verhaal moet logisch blijven lopen van begin tot eind, zonder dat de personages veranderen of de achtergrond verdwijnt.

Tot nu toe was het heel moeilijk om dit tegelijk te doen voor lange video's. Korte filmpjes (van een paar seconden) zijn makkelijk te maken en zien er geweldig uit. Maar als je die uitbreidt naar minutenlange video's, wordt het beeld vaak wazig, vervormd of stopt het verhaal.

Dit nieuwe onderzoek, getiteld "Mode Seeking meets Mean Seeking", lost dit op met een slimme truc. Ze noemen het een "twee-in-één" trainingsparadigma. Laten we het uitleggen met een simpele analogie.

De Probleemstelling: De "Interpolatie" vs. "Extrapolatie" Valstrik

Stel je voor dat je een schilderij maakt.

Korte video's zijn als het vergroten van een klein stukje van dat schilderij. Je kijkt naar een detail (een oog, een boom) en maakt het groter. De details blijven hetzelfde, alleen de resolutie gaat omhoog. Dit is makkelijk.
Lange video's zijn echter niet zomaar een "grotere versie" van een kort filmpje. Het is meer als het schilderen van een panorama. Je moet niet alleen het detail schilderen, maar ook nieuwe dingen bedenken: wat gebeurt er na 10 seconden? Wat gebeurt er na een minuut? Het verhaal moet zich ontwikkelen.

De oude manier van werken was alsof je probeerde een panorama te maken door simpelweg het kleine detail steeds maar groter te trekken. Het resultaat? Een wazige, saaie, onrealistische lange video.

De Oplossing: De Meester en de Regisseur

De auteurs van dit paper hebben een nieuw systeem bedacht dat werkt met twee verschillende hoofden (twee "denkers") die samenwerken, maar elk hun eigen taak hebben. Ze gebruiken een Decoupled Diffusion Transformer (DDT).

Stel je dit voor als een filmproductie met twee sleutelfiguren:

1. De Meester (De "Mode Seeker") – Voor de Scherpte

Stel je een meester-acteur voor die alleen korte scènes speelt. Hij is de beste ter wereld in het spelen van een korte scène van 5 seconden. Hij weet precies hoe een huid eruit moet zien, hoe haar in de wind moet wapperen en hoe een glimlach eruit moet zien. Hij is een "Mode Seeker": hij zoekt de beste, meest realistische manier om iets te doen.

Hoe werkt het in de AI? Dit is de "Teacher". De AI kijkt naar deze meester-acteur voor elk klein stukje (elk venster van 5 seconden) van de lange video.
De taak: Zorgen dat elke individuele scène er haarscherp en levendig uitziet. Geen wazige beelden!

2. De Regisseur (De "Mean Seeker") – Voor het Verhaal

Stel je nu een regisseur voor die een heel lang verhaal moet regisseren. Deze regisseur heeft niet de details van de huidporens in zijn hoofd, maar hij heeft wel een goed verhaal. Hij weet dat als een persoon linksom loopt, hij niet ineens rechtsom moet lopen zonder reden. Hij zorgt voor de samenhang.

Hoe werkt het in de AI? Dit is de "Student" die getraind wordt op de zeldzame, lange video's die er zijn. Hij is een "Mean Seeker": hij zoekt de gemiddelde, logische route door het verhaal.
De taak: Zorgen dat het verhaal logisch blijft, dat de camera soepel beweegt en dat de actie consistent is over de hele minuut.

Het Geniale: Ze werken samen, maar niet door elkaar

In het verleden probeerden ze één persoon te zijn die alles moest doen: zowel de regisseur als de meester-acteur. Dat werkte niet goed. Als je te veel focust op het verhaal, wordt de kwaliteit wazig. Als je te veel focust op de details, raak je het verhaal kwijt.

De oplossing van dit paper:
Ze splitsen het werk op in twee aparte hoofden die dezelfde "hersenen" (de encoder) gebruiken, maar verschillende taken hebben:

Het Regisseur-hoofd: Kijkt naar de lange video's en leert het verhaal. Het zorgt dat de video 60 seconden lang logisch blijft.
Het Meester-hoofd: Kijkt naar de korte, perfecte video's van de "meester-acteur". Het zorgt dat elk klein stukje van 5 seconden er haarsnel en realistisch uitziet.

De magie:
Tijdens het maken van de video (inference) gebruiken ze alleen het Meester-hoofd. Maar omdat dit hoofd getraind is met de "regisseur" in de achtergrond, weet het niet alleen hoe het eruit moet zien, maar ook wat er moet gebeuren.

Het is alsof je een acteur hebt die getraind is door de beste regisseur ter wereld. Hij weet precies wat hij moet doen in elke scène (kwaliteit), maar hij weet ook precies hoe zijn acteerpartij past in het hele toneelstuk (verhaal).

Waarom is dit zo snel?

Omdat het systeem niet hoeft te "gissen" of te wachten op de vorige seconde om de volgende te maken (zoals oude methodes deden), kan het de video in weinig stappen genereren. Het is alsof je een film niet frame-voor-frame tekent, maar direct het complete plaatje kunt "voorspellen" omdat je de regels van het verhaal en de regels van de realiteit perfect kent.

Samenvatting in één zin

Dit onderzoek combineert de perfecte details van een korte video-expert met de logische verhaalstructuur van een lange video-regisseur, zodat we binnenkort minutenlange, haarscherpe en logische video's kunnen maken die eruitzien alsof ze echt bestaan.

Het is de perfecte balans tussen "Kijk hoe mooi dit detail is" (Mode Seeking) en "Kijk hoe dit past in het grote plaatje" (Mean Seeking).

Each language version is independently generated for its own context, not a direct translation.

1. Het Probleem: De Schaalbarrière bij Videogeneratie

Het genereren van video's met behulp van diffusion-modellen is succesvol gebleken voor korte clips (enkele seconden), maar het uitbreiden naar lange video's (minuten) stuit op een kritieke bottleneck:

Data-tekort: Er is een overvloed aan hoogwaardige korte video-data, maar coherent lange video-data (met doorlopende gebeurtenissen en context) is schaars, heterogeen en duur om te cureren.
Foutieve Aannames: Bestaande methoden proberen vaak een enkel model te trainen op een "soep" van video's met verschillende lengtes, in de hoop dat het model net als bij afbeeldingen (waar hogere resolutie een interpolatie is) ook in de tijd kan interpoleren.
Interpolatie vs. Extrapolatie: De auteurs betogen dat tijdsuitbreiding fundamenteel anders is dan resolutieverhoging. Een lange video is geen interpolatie van een korte clip, maar een extrapolatie die nieuwe gebeurtenissen, causale ketens en narratieve structuren vereist.
Het Fidelity-Horizon Gap: Modellen die op lange video's worden getraind, verliezen vaak de scherpe lokale dynamiek en realisme van experts voor korte video's. Het resultaat is vaak wazig, minder gedetailleerd en "dood".

2. Methodologie: "Mode Seeking" ontmoet "Mean Seeking"

De kern van de oplossing is een trainingsparadigma dat lokale trouw (fidelity) ontkoppelt van lange-termijn coherentie, gebruikmakend van een Decoupled Diffusion Transformer (DDT).

A. Architectuur: Decoupled Diffusion Transformer (DDT)

Het model bestaat uit een gedeelde encoder en twee aparte, lichtgewicht "heads" (koppen) die verschillende doelen nastreven:

Shared Encoder: Een video diffusion transformer die een ruimtetijds-kenmerkrepresentatie ( $h_t$ ) genereert uit een ruisende lange video.
Flow Matching Head (Mean Seeking):
- Doel: Leren van globale, minutenlange narratieve structuren.
- Methode: Supervised Flow Matching (SFT) op beperkte sets echte lange video's.
- Principe: Dit is een "mean-seeking" proces dat probeert de gemiddelde dynamiek van lange trajecten te modelleren, wat essentieel is voor consistentie over de tijd.
Distribution Matching Head (Mode Seeking):
- Doel: Behoud van lokale realisme en scherpte.
- Methode: Alignering van elk schuifvenster (sliding window) van de student met een bevroren, expert korte-video leraar (teacher).
- Principe: Dit gebruikt een reverse-KL-divergentie (mode-seeking). In plaats van te middelen, dwingt dit de student om zich te concentreren op de hoogwaardige "modes" (modi) van de leraar, waardoor lokale details en bewegingen scherp blijven.

B. Trainingsproces

De training combineert twee signalen:

Globale Coherentie: De Flow Matching head wordt getraind op volledige lange video's om de globale structuur te leren.
Lokale Realiteit: De Distribution Matching head wordt getraind via een Sliding Window DMD (Distribution Matching Distillation) methode. Hierbij wordt de student gedwongen om elke gegenereerde korte segment te laten overeenkomen met de verdeling van de expert leraar, zonder dat de leraar zelf lange context moet begrijpen.
Gradient Separatie: De twee heads updaten de gedeelde encoder, maar ontvangen elk hun eigen specifieke signaal, wat gradient-interferentie voorkomt.

C. Inferentie

Tijdens het genereren (inference) wordt de Flow Matching head verworpen. De lange video wordt gegenereerd met alleen de Distribution Matching head. Omdat deze head is getraind om lokale vensters direct te aligneren met de leraar, kan het in weinig stappen (few-step) snelle, hoge-kwaliteit lange video's genereren zonder de noodzaak voor dure autoregressieve rollouts.

3. Belangrijkste Bijdragen

Ontkoppeling van Doelen: Een nieuwe trainingstijl die lokale realisme (via mode-seeking reverse-KL) en lange-termijn coherentie (via mean-seeking flow matching) succesvol combineert zonder ze te laten interfereren.
Geen Extra Korte Data: Het model aligneert met een bevroren korte-video leraar zonder extra korte video-data te vereisen; het gebruikt alleen de gegenereerde rollouts van de student voor de distillatie.
Snelle Generatie: Door gebruik te maken van de Distribution Matching head voor inferentie, wordt lange video-generatie mogelijk gemaakt in slechts een paar stappen, wat een groot voordeel is ten opzichte van langzame autoregressieve methoden.
Decoupled Diffusion Transformer: Het bewijs dat het gebruik van gescheiden heads voor verschillende objectieven (globaal vs. lokaal) binnen een gedeelde encoder essentieel is voor het oplossen van het fidelity-horizon probleem.

4. Resultaten

De methode werd geëvalueerd op de Wan 1.3B en 14B modellen en vergeleken met state-of-the-art baselines zoals Long-context SFT, Mixed-length SFT, CausVid, Self-Forcing en InfinityRoPE.

Kwantitatief: Het model scoort het hoogst in een breed scala aan metrics, waaronder onderwerpconsistentie, achtergrondconsistentie, bewegingsscherpte, dynamiek en esthetische kwaliteit. Het overtreft zowel SFT-only methoden (die vaak wazig zijn) als teacher-only methoden (die vaak drift vertonen of statisch worden).
Kwalitatief: De gegenereerde video's behouden scherpe texturen en realistische bewegingen (lokaal) terwijl ze consistente scènes en narratieven behouden over minutenlange duur (globaal).
Ablatie Studies: Experimenten tonen aan dat het verwijderen van de dubbele heads, de sliding-window DMD, of de SFT op lange video's allemaal leiden tot significante prestatiedalingen, wat de noodzaak van alle componenten bevestigt.

5. Betekenis en Impact

Dit paper biedt een fundamenteel nieuw perspectief op het uitbreiden van videomodellen:

Oplossing voor Schaarste: Het maakt het mogelijk om minutenlange video's te genereren met hoge kwaliteit, zelfs met zeer beperkte datasets van lange video's, door slim gebruik te maken van de overvloed aan korte video-data.
Efficiëntie: Het elimineert de noodzaak voor multi-stap training en dure autoregressieve inferentie, waardoor lange video's in real-time of bijna real-time gegenereerd kunnen worden.
Toepassingen: Dit opent de deur voor toepassingen zoals interactieve wereldmodellen voor embodied agents, het genereren van lange verhalen/films met consistente karakters, en geavanceerde video-editing tools die consistentie over lange tijdsperioden garanderen.

Kortom, "Mode Seeking meets Mean Seeking" overbrugt de kloof tussen lokale scherpte en lange-termijn coherentie, waardoor het mogelijk wordt om realistische, minutenlange video's te genereren met een snelheid en kwaliteit die eerder onbereikbaar was.