Image Generation Models: A Technical History

Each language version is independently generated for its own context, not a direct translation.

De Reis van de Digitale Kunstenaar: Een Verhaal over Hoe Computers Beelden Creëren

Stel je voor dat je een enorme bibliotheek hebt met miljarden foto's: van katten op zolder tot zonsondergangen in Parijs. In de afgelopen tien jaar hebben onderzoekers geprobeerd een computer te leren niet alleen deze foto's te bekijken, maar er ook nieuwe te bedenken die er net zo echt uitzien. Dit is het verhaal van "Image Generation Models" (beeldgeneratiemodellen), verteld als een reis van de ene technologie naar de andere.

Hier is hoe dit verhaal zich heeft ontwikkeld, stap voor stap:

1. De Beginjaren: De "Drukkers" en de "Vervalsers" (VAE's en GAN's)

In het begin (rond 2014) hadden we twee hoofdacteurs:

De VAE (Variational Autoencoder): Stel je een kunstenaar voor die een foto bekijkt en probeert hem te onthouden door hem in te drukken tot een klein, samengeperst briefje (de "latent space"). Vervolgens probeert hij het briefje weer uit te vouwen om de foto te reconstructeren.
- Het probleem: De kunstenaar was vaak te voorzichtig. Hij probeerde alles "gemiddeld" te maken. Als hij een foto van een hond en een kat moest samenvoegen, tekende hij een dier dat eruitzag als een vage, wazige mix van beide. De details waren vaak wazig.
De GAN (Generative Adversarial Network): Dit was een revolutionair idee. Stel je een vervalser (de Generator) voor die probeert valse biljetten te maken, en een politieagent (de Discriminator) die probeert de vervalsingen te ontdekken.
- De dynamiek: De vervalser wordt steeds slimmer om de agent te misleiden, en de agent wordt steeds scherper in het opsporen van fouten. Uiteindelijk wordt de vervalser zo goed dat de agent niets meer kan zien.
- Het nadeel: Dit spelletje was erg instabiel. Soms werd de vervalser te zelfverzekerd en maakte hij steeds dezelfde saaie foto's (een "mode collapse"), of de agent gaf de vervalser geen nuttige feedback, waardoor het proces vastliep.

2. De Tussenstap: De "Omkeerbare Trappen" (Normalizing Flows)

Tussen de VAE's en GAN's kwamen de Normalizing Flows.

De analogie: Stel je voor dat je een knikker op een helling rolt. Bij deze modellen is het alsof je de knikker (de data) via een reeks van perfecte, omkeerbare trappen naar een eenvoudige plek (witte ruis) brengt, en je kunt de trappen ook weer teruglopen om de knikker precies terug te krijgen.
Voordeel: Je weet precies hoe waarschijnlijk iets is (geen gokken).
Nadeel: De trappen moesten perfect passen. Als de foto te complex was, werden de trappen te ingewikkeld om te bouwen, en het werd traag en duur.

3. De Woord-Geleerden: De "Volgorde-Meesters" (Autoregressive & Transformers)

Vervolgens keken onderzoekers naar hoe we taal leren. We leren woorden één voor één: "De" -> "hond" -> "loopt".

De analogie: Computers leerden foto's te maken alsof het een lange zin was. Ze voorspelden het eerste pixel (of blokje), dan het tweede, dan het derde, enzovoort.
Voordeel: Ze konden heel goed begrijpen wat er in een foto hoort te gebeuren (context). Als je "een kat" zegt, weten ze dat er waarschijnlijk een staart en oren bij horen.
Nadeel: Het was extreem traag. Het maken van één foto was alsof je een heel boek handmatig moet typen, letter voor letter.

4. De Grootse Doorbraak: De "Ontsmettingsmachine" (Diffusion Models)

Dit is de technologie die we nu kennen van Midjourney, DALL-E en Stable Diffusion.

De analogie: Stel je een glas helder water voor (de echte foto). Je gooit er geleidelijk aan modder in totdat het glas volledig troebel is (ruis).
- Diffusion-modellen leren het omgekeerde: ze kijken naar het modderige glas en proberen stap voor stap de modder weer weg te halen, totdat er weer een heldere foto overblijft.
Waarom is dit zo goed? In plaats van te proberen de hele foto in één keer te tekenen, beginnen ze met een willekeurige "vlek" en maken ze die langzaam scherp. Het is alsof je een beeld uit een droom haalt en het langzaam in focus brengt.
De evolutie: Eerst deden ze dit op de pixel-niveau (heel traag). Later leerden ze dit in een "droomwereld" (latent space), wat veel sneller is. Vandaag de dag gebruiken ze ook "Transformers" (de woord-geleerden) om te begrijpen wat je schrijft, zodat ze precies weten welke modder ze moeten verwijderen om jouw specifieke idee te maken.

5. De Nieuwe Trend: De "Rechte Lijn" (Flow Matching & Rectified Flow)

De nieuwste generatie (2024-2026) probeert het proces nog efficiënter te maken.

De analogie: Bij de oude methoden (Diffusion) moest je soms een bochtige, kronkelige weg afleggen om van ruis naar foto te komen. De nieuwe methoden (Flow Matching) proberen een rechte lijn te tekenen tussen de ruis en de foto.
Resultaat: Je hebt veel minder stappen nodig om een perfecte foto te maken. Het is alsof je van een wandeling door een doolhof overschakelt op een sneltrein die je rechtstreeks naar je bestemming brengt.

6. Van Foto naar Film (Video Generatie)

Nu proberen we dit ook toe te passen op video.

De uitdaging: Een foto statisch maken is al moeilijk, maar een video moet ook bewegen en consistent zijn. Als een persoon in beeld loopt, moet die persoon in de volgende frame op de juiste plek zijn, niet plotseling verdwijnen of van kleur veranderen.
De oplossing: De modellen leren nu niet alleen beelden te maken, maar ook de "tijdslijn" te begrijpen. Ze gebruiken dezelfde "ontsmettingsmachine", maar dan voor een reeks frames die samen een vloeiend verhaal vormen.

7. De Donkere Kant: De "Diepe Vervalsingen" (Deepfakes & Veiligheid)

Met deze kracht komt ook gevaar.

Het risico: Mensen kunnen nu foto's en video's maken van politici die dingen zeggen die ze nooit gezegd hebben, of van mensen die nooit bestaan. Dit kan gebruikt worden voor nepnieuws, oplichting of het schaden van iemands reputatie.
De verdediging: Onderzoekers werken aan twee dingen:
1. Detectie: Zoeken naar onzichtbare "foutjes" in de foto's (zoals rare patronen in de pixels of onnatuurlijke knipogen) die aangeven dat een AI het gemaakt heeft.
2. Watermerken: Het onzichtbaar "stempelen" van AI-gegenereerde beelden, zodat je later kunt zien dat het niet echt is.

Conclusie

We zijn in tien jaar tijd gegroeid van wazige, saaie vlekjes naar foto's en video's die zo realistisch zijn dat je ze nauwelijks van de werkelijkheid kunt onderscheiden. Het is een wonder van wiskunde en creativiteit, maar het vraagt ook om grote verantwoordelijkheid. Net als bij vuur: het kan je warm houden en eten koken, maar als je niet oppast, kan het ook alles verbranden. De toekomst ligt in het vinden van de juiste balans tussen deze ongelooflijke creativiteit en de veiligheid van onze samenleving.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Image Generation Models: A Technical History" van Rouzbeh Shirvani, vertaald en samengevat in het Nederlands.

Titel: Image Generation Models: A Technical History

Auteur: Rouzbeh Shirvani
Doel: Een uitgebreid technisch overzicht bieden van de evolutie van beeldgeneratiemodellen, hun onderliggende wiskunde, trainingsmethodieken, beperkingen en de impact op de samenleving.

1. Het Probleem

Het genereren van realistische en diverse beelden is een fundamenteel probleem in computer vision en machine learning. Hoewel er de afgelopen tien jaar enorme vooruitgang is geboekt, blijft de literatuur gefragmenteerd over verschillende modeltypen (VAE, GAN, Diffusion, etc.), trainingsdoelen en toepassingsdomeinen. Deze versnippering maakt het moeilijk voor onderzoekers en nieuwkomers om een coherent begrip te ontwikkelen van:

Waarom bepaalde benaderingen werken.
Hoe deze modellen in de praktijk worden getraind.
Waar de beperkingen en foutmodi vandaan komen.
De overgang van statische beelden naar video en de bijbehorende veiligheidsrisico's (zoals deepfakes).

2. Methodologie en Technische Overzicht

Het artikel volgt een chronologische en thematische opbouw, waarbij elke generatie van modellen wordt geanalyseerd op basis van architectuur, trainingsdoelstellingen en optimalisatietechnieken.

A. Variational Autoencoders (VAEs)

Principe: VAEs comprimeren data in een latente ruimte ( $z$ ) en reconstrueren deze. Ze introduceren een probabilistische structuur door de latente ruimte te regulariseren met een Kullback-Leibler (KL) divergentie term, zodat deze een specifieke verdeling (bijv. Gaussisch) volgt.
Technische Kern: Maximalisatie van de Evidence Lower Bound (ELBO), bestaande uit een reconstructie-term en een regularisatie-term. De "reparameterization trick" maakt backpropagatie door stochastische lagen mogelijk.
Beperkingen: Neiging tot "posterior collapse" (waarbij de decoder de latente variabele negeert) en wazige reconstructies door het gebruik van een Gaussische decoder die naar het gemiddelde convergeert.
Evolutie: VQ-VAE (Vector Quantized VAE) introduceerde discrete codes en een geleerde prior, wat een cruciale stap was voor latere diffusion-modellen.

B. Generative Adversarial Networks (GANs)

Principe: Een adversariele game tussen een generator ( $G$ ) en een discriminator ( $D$ ). $G$ probeert valse beelden te maken die $D$ niet kan onderscheiden van echte data.
Technische Kern: Minimax-verliesfunctie. DCGAN introduceerde convolutielagen voor stabiliteit.
Evolutie:
- Conditional GANs (CGANs/AC-GANs): Generatie gestuurd door labels of tekst.
- StyleGAN-serie: Introduceerde een mapping van latente ruimte naar een intermediaire ruimte ( $w$ ) voor betere controle over stijl en structuur, en later anti-aliasing technieken (StyleGAN3) om "texture sticking" te voorkomen.
Beperkingen: Instabiel trainen, mode collapse (diversiteitsverlies) en gevoeligheid voor hyperparameters.

C. Normalizing Flows

Principe: Leer een omkeerbare transformatie van een eenvoudige verdeling (bijv. Gaussisch) naar de data-verdeling.
Technische Kern: Gebruik van de verandering-van-variabelen formule om de exacte log-likelihood te berekenen. Belangrijke varianten zijn RealNVP, Glow en Neural Spline Flows.
Voordelen: Exacte likelihood berekening en snelle, één-staps sampling.
Beperkingen: De omkeerbaarheid beperkt de modelarchitectuur en training op hoge resoluties is duur. De interesse nam af ten gunste van Diffusion-modellen rond 2022.

D. Autoregressive en Transformer-modellen

Principe: Beelden worden sequentieel gegenereerd (pixel voor pixel of token voor token) door de conditionele waarschijnlijkheid $p(x_t | x_{<t})$ te modelleren.
Evolutie: Van PixelCNN/CNN naar Transformer-architecturen (zoals iGPT, DALL-E 1, Parti).
Technische Kern: Beelden worden vaak eerst omgezet in discrete tokens via een VQ-VAE, waarna een Transformer de volgorde van deze tokens leert.
Beperkingen: $O(n^2)$ complexiteit door self-attention en trage generatie door de sequentiële aard.

E. Diffusion-Based Models

Principe: Geïnspireerd op thermodynamica. Een voorwaartse proces voegt geleidelijk ruis toe aan data tot het puur Gaussisch is. Het model leert het omgekeerde proces: ruis verwijderen om data te reconstrueren.
Technische Kern: Training via het voorspellen van de toegevoegde ruis ( $\epsilon$ ) met een MSE-verlies.
Evolutie:
- DDPM: Verbeterde kwaliteit, maar traag (duizenden stappen).
- DDIM & Distillation: Versnelling door minder stappen of kennisdistillatie.
- Latent Diffusion (LDM/Stable Diffusion): Diffusie in de latente ruimte van een VAE in plaats van pixelruimte, wat rekenkracht bespaart.
- Conditioning: Integratie van tekst via CLIP of T5 encoders (DALL-E 2, Imagen, SDXL).
Resultaat: State-of-the-art kwaliteit en diversiteit, vaak superieur aan GANs.

F. Recentste Ontwikkelingen: Flow Matching & Rectified Flow

Principe: Deze methoden gebruiken continue tijds-dynamica (ODEs) om een vectorveld te leren dat ruis direct naar data transporteert.
Verschil met Diffusion: Ze proberen rechte trajecten te leren tussen ruis en data, wat minder integratiestappen vereist voor hoge kwaliteit.
Resultaat: Snellere inferentie en stabielere training dan traditionele diffusion-modellen.

G. Video Generatie

Aanpak: Uitbreiding van beeldmodellen met temporele consistentie.
Methoden:
- GANs: Twee-stream architecturen (foreground/background) of temporele discriminators.
- Diffusion: 3D-UNet architecturen die ruimte en tijd tegelijkertijd modelleren (Stable Video Diffusion, Imagen Video, Lumiere).
- Architectuur-trends: Van cascades van modellen naar "Space-Time UNets" die de volledige video in één keer genereren voor betere globale coherentie.

3. Belangrijkste Bijdragen

Gedetailleerde Technische Formulering: Het artikel biedt een diepgaande wiskundige uitleg van de loss-functies, architecturale blokken en trainingsalgoritmen voor elke modelklasse.
Identificatie van Foutmodi: Het analyseert systematisch waarom modellen falen (bijv. posterior collapse bij VAEs, mode collapse bij GANs, trage sampling bij autoregressive modellen).
Overgang naar Video: Een overzicht van hoe beeldgeneratie is geëvolueerd naar video, met aandacht voor temporele consistentie en motion control.
Sociale en Veiligheidsimplicaties: Een apart hoofdstuk gewijd aan de risico's van synthetische media, inclusief deepfakes, auteursrecht, bias en privacy. Het bespreekt ook detectiemethoden (zoals PRNU, blink-detectie, spectrale artefacten) en watermerkingstechnieken (zoals DIRE en Stable Signature).

4. Resultaten en Vergelijkingen

Het artikel presenteert diverse vergelijkingen op basis van metrics zoals FID (Fréchet Inception Distance), IS (Inception Score) en bits/dim:

Diffusion vs. GAN: Diffusion-modellen hebben de kwaliteit van GANs overtroffen op benchmarks zoals ImageNet en MS-COCO, met name in diversiteit en realisme.
Latent Space: De verschuiving van pixel-ruimte naar latente ruimte (LDM) heeft de haalbaarheid van hoge-resolutie generatie (1024x1024) mogelijk gemaakt zonder onbeperkte rekenkracht.
Efficiëntie: Flow Matching en Rectified Flow tonen aan dat het mogelijk is om hoge kwaliteit te bereiken met aanzienlijk minder sampling-stappen (NFE) dan traditionele diffusion-modellen.
Video: Modellen zoals Imagen Video en Lumiere tonen aan dat het genereren van HD-video's met consistente beweging mogelijk is, hoewel dit nog steeds grote rekenkracht vereist.

5. Betekenis en Conclusie

Dit artikel is een cruciale referentie voor het begrijpen van de huidige staat van de kunst in beeldgeneratie.

Technologische Evolutie: Het documenteert de verschuiving van probabilistische modellen (VAE) naar adversariële (GAN), likelihood-gebaseerde (Flow) en uiteindelijk naar score-gebaseerde diffusion-modellen en flow-matching.
Sociële Impact: Het benadrukt dat de technische vooruitgang gepaard gaat met ernstige risico's (desinformatie, manipulatie). De auteurs pleiten voor een combinatie van technische oplossingen (watermerking, detectie) en maatschappelijke maatregelen om deze technologie verantwoord in te zetten.
Toekomstperspectief: De toekomst ligt in efficiëntere generatie (minder stappen), betere 3D- en temporele consistentie, en robuuste veiligheidsmaatregelen om misbruik te voorkomen.

Samenvattend biedt dit paper een compleet technisch landschap van hoe we van wazige, beperkte generaties zijn gekomen tot de huidige generatie van fotorealistische, tekst-gestuurde beeld- en videomodellen, en wat de uitdagingen zijn voor de toekomst.