Lumos-1: On Autoregressive Video Generation with Discrete Diffusion from a Unified Model Perspective

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een film wilt maken, maar in plaats van een camera te gebruiken, heb je een super slimme robot die alleen maar tekst begrijpt. Je geeft hem een verhaal, en hij moet de beelden "dromen" en één voor één tekenen. Dat is in feite wat Lumos-1 doet.

Deze wetenschappelijke paper introduceert Lumos-1, een nieuw model dat video's kan maken op basis van tekst of een startbeeld. Het is een doorbraak omdat het probeert de technologie van grote taalmodellen (zoals die slimme chatbots die we allemaal kennen) te gebruiken om video's te maken, maar dan op een manier die veel sneller en slimmer is dan wat we tot nu toe zagen.

Hier is de uitleg, vertaald naar alledaagse taal met een paar creatieve vergelijkingen:

1. Het Probleem: De "Tekst-Bril" op Video's

Stel je voor dat je een taalmodel (zoals een robot die boeken leest) probeert te laten kijken naar een video. Het probleem is dat video's heel anders zijn dan tekst.

Tekst is een lange rij: woord, woord, woord.
Video is een 3D-ruimte: links/rechts, boven/onder, en vooruit/achteruit in de tijd.

De auteurs ontdekten dat de standaard "GPS" (de positie-encoding) die taalmodellen gebruiken, niet werkt voor video's. Het is alsof je probeert een driedimensionaal gebouw te beschrijven met alleen een platte lijn. De robot raakt de weg kwijt en weet niet meer waar "links" is in relatie tot "rechts" of "nu" in relatie tot "straks".

De Oplossing: MM-RoPE (De Nieuwe GPS)
De onderzoekers hebben een nieuwe soort GPS bedacht, genaamd MM-RoPE.

Vergelijking: Stel je voor dat de oude GPS alleen westerse en oosterse coördinaten had. Lumos-1 heeft nu een GPS die ook hoogte, breedte én tijd meet, en dat allemaal tegelijk en perfect op elkaar afgestemd. Het zorgt ervoor dat de robot precies weet hoe een object zich verplaatst door de ruimte en de tijd, zonder dat het de draad kwijtraakt.

2. Het Geniale Trucje: Niet "Woord voor Woord", maar "Gedeeltelijk Verborgen"

Normaal gesproken maken deze robots video's door één pixel (of blokje) tegelijk te tekenen, net als hoe je een zin schrijft: eerst het eerste woord, dan het tweede, enzovoort. Bij video's is dit echter te traag en leidt het tot vervelende foutjes. Als de robot de eerste seconde van een video fout tekent, wordt de hele rest van de video rot.

De Oplossing: Autoregressive Discrete Diffusion Forcing (AR-DF)
In plaats van één klein blokje tegelijk te tekenen, gebruikt Lumos-1 een truc die lijkt op het oplossen van een raadsel.

Vergelijking: Stel je voor dat je een foto van een landschap moet tekenen, maar je mag niet één voor één lijnen trekken. In plaats daarvan krijg je een blanco vel papier en mag je allebei de randen en het midden tegelijk invullen, maar dan met een twist: je mag op sommige plekken nog niets zien (die zijn bedekt met een deksel).
De robot kijkt naar de plekken die hij wel ziet en vult de "bedekte" plekken in.
Het geheim: De onderzoekers ontdekten dat als je de robot alleen de eerste frame laat zien, hij de latere frames te makkelijk kan kopiëren. Daarom gebruiken ze een truc genaamd "Temporale Buizenmaskering".
- Vergelijking: Stel je voor dat je een filmrol hebt. In plaats van dat de robot de hele film van links naar rechts leest, wordt er een reeks "luikjes" in de filmrol geplaatst die over de tijd heen bewegen. Als de robot een stukje in frame 10 moet invullen, mag hij niet kijken naar frame 9 op diezelfde plek. Hij moet echt begrijpen hoe de beweging werkt, in plaats van gewoon te kopiëren. Dit dwingt de robot om echt te "leren" hoe beweging werkt.

3. Het Resultaat: Een Slimme, Snelle Video-maker

Door deze twee innovaties (de nieuwe GPS en het slimme maskeringsspel) kan Lumos-1:

Tekst naar Video: "Teken een robot die dansend over een regenboog loopt." -> Bam, een video.
Afbeelding naar Video: Geef een foto van een kat, en de robot laat de kat bewegen.
Snelheid: Omdat het niet één pixel per seconde hoeft te tekenen, maar in grote stappen werkt, is het veel sneller dan oudere methoden.

Waarom is dit belangrijk?

Vroeger waren video-modellen ofwel enorm traag, ofwel hadden ze enorme externe hersenen nodig om tekst te begrijpen. Lumos-1 is als een alles-in-één keukenmachine. Het is gebouwd op dezelfde basis als de slimme chatbots (LLMs), maar is speciaal aangepast om video's te "dromen".

Het is alsof we een robot hebben die niet alleen kan lezen en schrijven, maar nu ook kan filmen, en dat allemaal met minder energie en minder rekenkracht dan de concurrentie. Het is een grote stap richting een toekomst waarin één enkele AI zowel een verhaal kan vertellen, een plaatje kan maken, én een hele film kan regisseren.

Kortom: Lumos-1 is de eerste die het "dichtst" bij een echte, alles-kunnende video-maker komt, door slimme wiskundige trucjes te gebruiken om de robot te leren hoe de wereld beweegt, in plaats van hem alleen maar te laten kopiëren.

Each language version is independently generated for its own context, not a direct translation.

Titel: Lumos-1: Autoregressieve Video-Generatie met Discrete Diffusie vanuit een Unificerend Modelperspectief

Auteurs: Hangjie Yuan et al. (DAMO Academy, Alibaba Group, Hupan Lab, Zhejiang University, Tsinghua University)

1. Het Probleem

Autoregressieve (AR) grote taalmodellen (LLM's) hebben diverse taakgebieden in taal succesvol verenigd, wat inspiratie heeft gegeven voor AR-video-generatie. Echter, bestaande AR-video-generatoren kampen met drie fundamentele beperkingen die hen ongeschikt maken voor een echt unificerend model:

Architecturale Incompatibiliteit: Veel modellen wijken af van de standaard LLM-architectuur of vertrouwen op zware externe tekst-encoders.
Onduidelijke Positie-encoding: Standaard 1D Rotary Position Embeddings (RoPE), ontworpen voor sequentiële tekst, zijn niet optimaal voor de complexe 3D spatiotemporele correlaties van video. Bestaande 3D RoPE-varianten vertonen vaak een onbalans in frequentiespectra.
Inefficiëntie: De standaard "next-token prediction" (volgende-token voorspelling) is te traag voor visuele data en faalt in het modelleren van de unieke eigenschappen van video: bidirectionaliteit binnen een frame en causale afhankelijkheid tussen frames. Dit leidt tot hoge latentie en kwaliteitsverlies bij langere video's.

2. Methodologie

Lumos-1 is een LLM-gebaseerd unificerend model dat AR-video-generatie realiseert door gebruik te maken van efficiënte discrete diffusie. De kerninnovaties zijn:

A. MM-RoPE (Multi-Modal Rotary Position Embedding)

Om video-data aan te passen aan LLM's, introduceert Lumos-1 een nieuwe variant van RoPE:

Probleem: Naïeve 3D RoPE-toepassingen leiden tot een onbalans in frequentiespectra; tijdsdimensies domineren vaak de hoge frequenties, terwijl ruimtelijke dimensies (hoogte/breedte) naar de lage frequenties worden geduwd, wat de modellering van details beperkt.
Oplossing: MM-RoPE behoudt de originele tekst-RoPE voor taaltokens maar introduceert voor visuele tokens een gedistribueerde en geschaalde 3D RoPE.
- Gedistribueerde frequentie-allokatie: In plaats van één groot blok kanalen voor tijd en één voor ruimte, worden kanalen geïnterleaveerd (tijd, hoogte, breedte) over het volledige frequentiespectrum. Dit zorgt voor een betere modellering van zowel lokale als globale afhankelijkheden.
- Strategische schaling: De 3D-posities worden geschaald met de compressieverhouding van de tokenizer. Dit balanceert de leerkracht tussen tekst (vaak lange beschrijvingen) en visuele data (lage latent-resolutie), waardoor de modaliiteiten beter op elkaar worden afgestemd.

B. Autoregressive Discrete Diffusion Forcing (AR-DF)

Om de inefficiëntie van next-token decoding te omzeilen en de aard van video (ruimtelijke bidirectionaliteit + temporele causaliteit) te respecteren, gebruikt Lumos-1 een parallelle, mask-gebaseerde discrete diffusie.

Het Probleem van Loss-Imbalans: Bij naïeve maskering (willekeurig maskeren over alle frames) leert het model te makkelijk: latere frames kunnen gemaskerde tokens voorspellen door simpelweg niet-gemaskerde tokens uit eerdere frames te kopiëren (informatielekkage). Dit leidt tot een verwaarlozing van temporele dynamiek.
Oplossing - Training (Temporal Tube Masking): Tijdens het training wordt een willekeurig maskpatroon gegenereerd voor het eerste frame en dit exacte patroon wordt herhaald over de tijdsas voor alle volgende frames. Dit dwingt het model om informatie door de tijd te propagëren in plaats van te kopiëren, omdat gemaskerde tokens in latere frames niet direct door hun tegenhangers in eerdere frames kunnen worden opgelost.
Oplossing - Inferentie (Strategische Maskering): Om kwaliteitsverlies te voorkomen tijdens generatie, wordt tijdens de inferentie een deel van de gegenereerde tokens in een frame opnieuw gemaskerd (met een ratio $\rho_{inf}$ ). Dit zorgt ervoor dat het model tijdens de inferentie consistent is met de trainingsconditie (gedeeltelijke observatie van geschiedenis), wat artefacten en flickering voorkomt.

C. Architectuur en Training

Het model is gebaseerd op de Llama-architectuur (met QK-Norm voor stabiliteit).
Het maakt gebruik van een discrete tokenizer (Cosmos Tokenizer) met een codebook van ~129k tokens (65k tekst, 64k visueel).
Stage-wise Training: Het model wordt getraind in fasen: eerst tekst-naar-afbeelding, daarna gezamenlijk beeld-video training, en tot slot fijnafstemming (SFT) op hoogwaardige data.

3. Belangrijkste Resultaten

Ondanks het gebruik van beperkte middelen (48 GPU's voor pre-training en fine-tuning) en een discrete tokenizer, presteert Lumos-1 opvallend goed:

GenEval (Tekst-naar-Afbeelding): Lumos-1 (3.6B parameters) behaalt een score van 0.791, wat beter is dan Show-o2 (0.76) en significantly beter dan EMU3 (0.66) en OpenSoraPlan. Het toont uitstekende vermogen in het binden van attributen en posities.
VBench-I2V (Afbeelding-naar-Video): Presteert op niveau met COSMOS-Video2World, ondanks dat COSMOS 10x meer data en 200x meer GPU-kracht gebruikt.
VBench-T2V (Tekst-naar-Video): Presteert vergelijkbaar met OpenSoraPlan en overtreft andere autoregressieve modellen zoals EMU3 en NOVA.
Efficiëntie: Door het gebruik van mask-based diffusie en KV-cache is de inferentie aanzienlijk sneller dan traditionele next-token predictie voor video's (bijv. 77.8s vs 960s voor een video van 25 frames).

4. Bijdragen

Lumos-1: Een puur LLM-gebaseerd unificerend model voor AR-video-generatie dat discrete diffusie integreert.
MM-RoPE: Een nieuwe positie-encoding techniek die de onbalans in 3D RoPE oplost door gedistribueerde frequentie-allokatie en strategische schaling, waardoor spatiotemporele modellering en modale balans worden verbeterd.
AR-DF: Een trainings- en inferentiestrategie die loss-imbalans oplost door "temporal tube masking" en inferentie-tijd maskering, wat zorgt voor stabiele temporele dynamiek zonder kwaliteitsverlies.
Efficiëntie: Bewijs dat hoge kwaliteit video-generatie mogelijk is met beperkte compute-resources en een discrete tokenizer, zonder zware externe encoders.

5. Betekenis en Impact

Lumos-1 is een belangrijke stap richting een fundamenteel unificerend model dat zowel visuele generatie als begrip kan uitvoeren binnen één enkele architectuur.

Het toont aan dat LLM-architecturen, aangepast met de juiste positieschaling en trainingsparadigma's, concurrerend kunnen zijn met gespecialiseerde diffusion-modellen.
Het lost het "drifting"-probleem op in video-generatie door de afhankelijkheid van latere frames van eerdere frames te forceren via specifieke maskeringstechnieken.
Het biedt een schaalbare en efficiënte route voor toekomstige multimodale AI-systemen, waarbij taal en visie naadloos samensmelten.

De code en modellen zijn openbaar beschikbaar via de GitHub-repository van Alibaba DAMO Academy.