Mirai: Autoregressive Visual Generation Needs Foresight

✨

Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

Mirai: De Kunst van het Voorspellen in Beeldgeneratie

Stel je voor dat je een enorm puzzelplaatje moet maken, maar je mag alleen één stukje tegelijk leggen. En het gekke is: je mag niet naar het volledige plaatje kijken, en je mag ook niet naar de stukjes kijken die nog na het huidige stukje komen. Je moet elk stukje leggen puur op basis van wat er al ligt.

Dit is precies hoe de huidige generatoren voor kunstmatige beelden (zoals AI die foto's maakt) werken. Ze heten Autoregressieve (AR) modellen. Ze bouwen een plaatje op, letterlijk van links naar rechts, van boven naar beneden, alsof ze een tekst schrijven. Het probleem? Omdat ze niet kunnen "vooruitkijken", raken ze vaak de grote lijn kwijt. Ze maken misschien een perfecte neus, maar de oren staan op de verkeerde plek, of de achtergrond is een rommelige brij. Het is alsof je een huis bouwt zonder blauwdruk: elke baksteen zit goed, maar het hele huis staat scheef.

De auteurs van dit paper, Mirai (wat in het Japans "Toekomst" betekent), zeggen: "Dit werkt niet goed genoeg. Deze modellen hebben voorkennis nodig."

Hier is hoe ze dat oplossen, vertaald naar alledaagse taal:

1. Het Probleem: Blind Vliegen

Normaal gesproken leert een AI: "Ik heb nu een blauwe lucht, dus het volgende stukje moet ook blauw zijn." Maar de AI weet niet dat er over tien stukjes een berg komt. Omdat ze niet weten wat er later komt, maken ze vaak fouten in de structuur. Het is alsof je een verhaal schrijft zonder te weten hoe het eindigt; je loopt vast of maakt onlogische keuzes.

2. De Oplossing: De "Voorspeller"

Mirai geeft de AI tijdens het leren een geheime hint: "Kijk even naar wat er later komt."

Ze hebben twee manieren bedacht om deze hint te geven, zonder dat de AI tijdens het maken van het plaatje (het 'gebruik') trager wordt of meer werk heeft.

Manier A: Mirai-E (De "Spiegel")

Stel je voor dat je een spiegel hebt die je eigen toekomst weerspiegelt.

Hoe het werkt: De AI maakt een kopie van zichzelf (een 'EMA', een soort gemiddelde versie). Deze kopie kijkt een stukje vooruit in de tijd. De echte AI mag dan naar die kopie kijken en zeggen: "Ah, ik zie dat mijn toekomstige versie hier een boom tekent. Dan moet ik nu al zorgen dat mijn huidige lijnen daar naartoe leiden."
Het effect: De AI leert plannen. Ze weten dat er straks een boom komt, dus ze bouwen de grond nu al stevig.

Manier B: Mirai-I (De "Wijze Ouder")

Stel je voor dat je een kind bent dat puzzelt, en een wijze ouder (een andere, zeer slimme AI) staat erbij.

Hoe het werkt: Deze "wijze ouder" heeft het hele plaatje al gezien. Hij kan niet praten, maar hij wijst met zijn vinger naar het stukje dat jij nu doet en zegt: "Kijk, dit stukje hoort bij dat stukje daar, en dat stukje daar hoort bij de berg."
Het effect: De AI leert de samenhang van het hele plaatje, niet alleen de directe buurman.

3. Het Grote Geheim: Het 2D-Netwerk

De onderzoekers ontdekten iets heel belangrijks. Als je de hint geeft alsof het een lange rij is (1D), werkt het niet goed. Je moet de hint geven alsof het een raster is (2D), zoals een schaakbord.

Vergelijking: Als je een muur bouwt, is het niet genoeg om te weten wat er direct naast je ligt. Je moet ook weten wat er boven en diagonaal ligt. Mirai zorgt ervoor dat de AI de ruimtelijke structuur (links, rechts, boven, onder) begrijpt, niet alleen de volgorde van de rij.

4. Het Resultaat: Snelheid en Kwaliteit

Wat levert dit op?

Snelheid: Normaal gesproken moet een AI 400 keer over dezelfde lesstof gaan om het goed te doen. Met Mirai is het al na 40 of 80 keer klaar. Dat is 5 tot 10 keer sneller.
Kwaliteit: De plaatjes zijn niet alleen sneller klaar, ze zijn ook beter. Geen scheve neuzen meer, geen zwevende objecten. Alles past perfect in elkaar.

Samenvatting in één zin

Mirai geeft een kunstmatige intelligentie die plaatjes maakt een "glazen bol" tijdens het oefenen, zodat ze de grote lijn begrijpt en niet vastloopt in de details, waardoor ze veel sneller en slimmer plaatjes kan maken zonder dat het gebruik daar last van heeft.

Het is alsof je een student toelaat om tijdens het examen te studeren naar de antwoorden van de volgende vraag, zodat ze tijdens het examen zelf de logica beter begrijpen. Zodra ze het examen doen, hebben ze die antwoorden niet meer nodig, maar zijn ze wel slimmer geworden.

Each language version is independently generated for its own context, not a direct translation.

Titel: Mirai: Autoregressive Visual Generation Needs Foresight

Auteurs: Yonghao Yu, Lang Huang, Zerun Wang, Runyi Li, Toshihiko Yamasaki (Universiteit van Tokio, NII, Peking Universiteit).

1. Het Probleem

Autoregressieve (AR) visuele generators modelleren afbeeldingen als sequenties van discrete tokens en worden getraind met een doelstelling voor de waarschijnlijkheid van de "volgende token" (Next-Token Prediction, NTP). Dit paradigma kent een strikt causale supervisie: elke stap wordt geoptimaliseerd op basis van alleen de onmiddellijk voorgaande tokens.

Deze aanpak heeft twee fundamentele beperkingen bij visuele data:

Gebrek aan globale coherentie: Omdat tokens sequentieel worden gegenereerd (vaak in raster-volgorde), verspreiden globale cues zich pas na vele stappen. Dit leidt vaak tot afbeeldingen die lokaal consistent zijn, maar globaal misaligneren (bijvoorbeeld een losgekoppeld hoofd bij een dier of misvormde structuren).
Trage convergentie: Het model moet veel stappen doorlopen om de volledige structuur van een afbeelding te "begrijpen", wat het trainingsproces vertraagt.

In taalkundige modellen werkt dit goed, maar visuele tokens zijn afhankelijk van bidirectionele en lange-afstand context. Het paper stelt de hypothese dat het ontbreken van voorkennis (foresight) – signalen die afgeleid zijn van toekomstige tokens tijdens het trainen – de oorzaak is van deze inefficiëntie en gebrekkige kwaliteit.

2. Methodologie: Het Mirai Framework

De auteurs introduceren Mirai (Japans voor "toekomst"), een generiek trainingsframework dat toekomstige informatie injecteert in AR-modellen zonder de architectuur of de inferentie (generatie) te veranderen. Het doel is om de interne representaties van het AR-model te aligneren met "foresight" signalen.

Kerninzichten uit Diagnostische Experimenten

Voordat Mirai werd ontwikkeld, onderzochten de auteurs drie dimensies om de beste manier van injectie te vinden:

Injectieniveau: Het injecteren van foresight op het output-niveau (het voorspellen van toekomstige tokens) werkt slecht omdat het leidt tot concurrerende gradiënten. Het is effectiever om foresight te gebruiken om de interne representaties (hidden states) van het model te regulariseren.
Ruimtelijke Lay-out: Het aligneren van foresight in een 2D-rooster (gebaseerd op ruimtelijke nabijheid) werkt aanzienlijk beter dan in een 1D-scan (raster-volgorde). Dit respecteert de geometrie van afbeeldingen en zorgt voor betere lokale consistentie.
Bron van Foresight: Foresight kan expliciet (van een unidirectioneel model) of impliciet (van een bidirectioneel model) zijn. Beide werken, maar vereisen verschillende implementaties.

De Twee Instantiaties van Mirai

Mirai voegt een extra verliesfunctie toe aan de standaard NTP-loss:
$L_{Mirai} = L_{NTP} + \lambda L_{Foresight}$

Mirai-E (Explicit Foresight):
- Gebruikt een unidirectionele EMA (Exponential Moving Average) van het AR-model zelf als foresight-encoder.
- Het aligneert de interne staat van het model met de representaties van een klein aantal toekomstige posities in het 2D-rooster.
- Dit biedt expliciete, positie-geïndexeerde kijk naar de toekomst die compatibel is met causale decoding.
Mirai-I (Implicit Foresight):
- Gebruikt een bevroren, vooraf getrainde bidirectionele encoder (zoals DINOv2) als foresight-encoder.
- Omdat de encoder de volledige afbeelding ziet, bevat elke token in zijn output impliciete informatie over de hele afbeelding (globale context).
- Het AR-model aligneert zijn interne staat met deze globale, context-rijke features op dezelfde ruimtelijke locatie.

Belangrijk: Tijdens de inferentie (het genereren van beelden) worden de foresight-encoders en projectiekoppen verwijderd. De decoding blijft strikt token-per-token en causaal, met dezelfde rekentijd als een standaard AR-model.

3. Belangrijkste Bijdragen

Systematisch Onderzoek naar Foresight: Het paper toont aan dat het projecteren van foresight naar het niveau van interne representaties (in plaats van output) superieur is voor visuele AR-modellen.
Het Mirai Framework: Een eenvoudige maar effectieve methode om visuele AR-modellen te aligneren met 2D-latente toekomstinformatie, zonder de inferentie te beïnvloeden.
Significante Prestatieverbetering: Mirai versnelt de training aanzienlijk en verbetert de gegenereerde kwaliteit, wat bewijst dat visuele autoregressieve modellen "voorkennis" nodig hebben om goed te functioneren.

4. Resultaten

De experimenten zijn uitgevoerd op het ImageNet-dataset (256x256) met verschillende schalen van het LlamaGen-model (B, L, XL).

Versnelling van Convergentie:
- Mirai-I versnelt de convergentie van LlamaGen-B met tot wel 10x. Een model getraind met Mirai-I gedurende 40 epochen bereikt een vergelijkbare FID als het basismodel getraind gedurende 400 epochen.
- Mirai-E versnelt de convergentie met ongeveer 5x.
Verbetering van Kwaliteit (FID):
- Voor LlamaGen-B daalt de FID-50K van 5.34 (baseline) naar 4.34 (Mirai-I) en 4.49 (Mirai-E).
- Voor de grotere LlamaGen-XL bereikt Mirai-I een FID van 2.59, wat beter is dan alle bestaande AR-methoden en vergelijkbaar met de beste diffusion-modellen.
Visuele Coherentie:
- Visualisaties van interne representaties (via t-SNE) tonen aan dat Mirai-modellen veel gladdere, ruimtelijk coherente kleurvelden genereren, wat wijst op een betere 2D-organisatie van features. Baseline-modellen vertonen vaak abrupte veranderingen die leiden tot structurele fouten (zoals de "misaligneerde rook" in de voorbeelden).
Efficiëntie: Ondanks de extra trainingskosten per afbeelding (6.6% voor Mirai-I, 38.2% voor Mirai-E), leidt de snellere convergentie tot een totale reductie in trainingskosten (FLOPs) van 9.4x voor Mirai-I om een bepaalde kwaliteit te bereiken.

5. Significantie en Conclusie

Dit paper daagt de conventionele wijsheid uit dat strikt causale training (alleen kijken naar het verleden) de enige juiste manier is voor autoregressieve generatie. De auteurs bewijzen dat het introduceren van voorkennis tijdens het trainen de causaliteit niet breekt, maar juist versterkt door het model te helpen globale structuren sneller te leren.

Mirai biedt een praktische, plug-and-play oplossing die de kloof tussen autoregressieve modellen en diffusion-modellen in termen van kwaliteit en trainingsefficiëntie aanzienlijk verkleint. Het benadrukt dat voor visuele data, waar ruimtelijke relaties cruciaal zijn, het vermogen om "vooruit te kijken" (zelfs alleen tijdens de trainingsfase) essentieel is voor het produceren van hoogwaardige, coherent afbeeldingen.