Image Generation Models: A Technical History

Dit paper biedt een uitgebreid technisch overzicht van de evolutie van beeldgeneratiemodellen, variërend van VAEs en GANs tot diffusiemodellen, inclusief hun architectuur, trainingsmethoden, beperkingen, recente doorbraken in videogenereatie en de noodzaak van verantwoord gebruik.

Rouzbeh Shirvani

Gepubliceerd Tue, 10 Ma
📖 6 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

De Reis van de Digitale Kunstenaar: Een Verhaal over Hoe Computers Beelden Creëren

Stel je voor dat je een enorme bibliotheek hebt met miljarden foto's: van katten op zolder tot zonsondergangen in Parijs. In de afgelopen tien jaar hebben onderzoekers geprobeerd een computer te leren niet alleen deze foto's te bekijken, maar er ook nieuwe te bedenken die er net zo echt uitzien. Dit is het verhaal van "Image Generation Models" (beeldgeneratiemodellen), verteld als een reis van de ene technologie naar de andere.

Hier is hoe dit verhaal zich heeft ontwikkeld, stap voor stap:

1. De Beginjaren: De "Drukkers" en de "Vervalsers" (VAE's en GAN's)

In het begin (rond 2014) hadden we twee hoofdacteurs:

  • De VAE (Variational Autoencoder): Stel je een kunstenaar voor die een foto bekijkt en probeert hem te onthouden door hem in te drukken tot een klein, samengeperst briefje (de "latent space"). Vervolgens probeert hij het briefje weer uit te vouwen om de foto te reconstructeren.
    • Het probleem: De kunstenaar was vaak te voorzichtig. Hij probeerde alles "gemiddeld" te maken. Als hij een foto van een hond en een kat moest samenvoegen, tekende hij een dier dat eruitzag als een vage, wazige mix van beide. De details waren vaak wazig.
  • De GAN (Generative Adversarial Network): Dit was een revolutionair idee. Stel je een vervalser (de Generator) voor die probeert valse biljetten te maken, en een politieagent (de Discriminator) die probeert de vervalsingen te ontdekken.
    • De dynamiek: De vervalser wordt steeds slimmer om de agent te misleiden, en de agent wordt steeds scherper in het opsporen van fouten. Uiteindelijk wordt de vervalser zo goed dat de agent niets meer kan zien.
    • Het nadeel: Dit spelletje was erg instabiel. Soms werd de vervalser te zelfverzekerd en maakte hij steeds dezelfde saaie foto's (een "mode collapse"), of de agent gaf de vervalser geen nuttige feedback, waardoor het proces vastliep.

2. De Tussenstap: De "Omkeerbare Trappen" (Normalizing Flows)

Tussen de VAE's en GAN's kwamen de Normalizing Flows.

  • De analogie: Stel je voor dat je een knikker op een helling rolt. Bij deze modellen is het alsof je de knikker (de data) via een reeks van perfecte, omkeerbare trappen naar een eenvoudige plek (witte ruis) brengt, en je kunt de trappen ook weer teruglopen om de knikker precies terug te krijgen.
  • Voordeel: Je weet precies hoe waarschijnlijk iets is (geen gokken).
  • Nadeel: De trappen moesten perfect passen. Als de foto te complex was, werden de trappen te ingewikkeld om te bouwen, en het werd traag en duur.

3. De Woord-Geleerden: De "Volgorde-Meesters" (Autoregressive & Transformers)

Vervolgens keken onderzoekers naar hoe we taal leren. We leren woorden één voor één: "De" -> "hond" -> "loopt".

  • De analogie: Computers leerden foto's te maken alsof het een lange zin was. Ze voorspelden het eerste pixel (of blokje), dan het tweede, dan het derde, enzovoort.
  • Voordeel: Ze konden heel goed begrijpen wat er in een foto hoort te gebeuren (context). Als je "een kat" zegt, weten ze dat er waarschijnlijk een staart en oren bij horen.
  • Nadeel: Het was extreem traag. Het maken van één foto was alsof je een heel boek handmatig moet typen, letter voor letter.

4. De Grootse Doorbraak: De "Ontsmettingsmachine" (Diffusion Models)

Dit is de technologie die we nu kennen van Midjourney, DALL-E en Stable Diffusion.

  • De analogie: Stel je een glas helder water voor (de echte foto). Je gooit er geleidelijk aan modder in totdat het glas volledig troebel is (ruis).
    • Diffusion-modellen leren het omgekeerde: ze kijken naar het modderige glas en proberen stap voor stap de modder weer weg te halen, totdat er weer een heldere foto overblijft.
  • Waarom is dit zo goed? In plaats van te proberen de hele foto in één keer te tekenen, beginnen ze met een willekeurige "vlek" en maken ze die langzaam scherp. Het is alsof je een beeld uit een droom haalt en het langzaam in focus brengt.
  • De evolutie: Eerst deden ze dit op de pixel-niveau (heel traag). Later leerden ze dit in een "droomwereld" (latent space), wat veel sneller is. Vandaag de dag gebruiken ze ook "Transformers" (de woord-geleerden) om te begrijpen wat je schrijft, zodat ze precies weten welke modder ze moeten verwijderen om jouw specifieke idee te maken.

5. De Nieuwe Trend: De "Rechte Lijn" (Flow Matching & Rectified Flow)

De nieuwste generatie (2024-2026) probeert het proces nog efficiënter te maken.

  • De analogie: Bij de oude methoden (Diffusion) moest je soms een bochtige, kronkelige weg afleggen om van ruis naar foto te komen. De nieuwe methoden (Flow Matching) proberen een rechte lijn te tekenen tussen de ruis en de foto.
  • Resultaat: Je hebt veel minder stappen nodig om een perfecte foto te maken. Het is alsof je van een wandeling door een doolhof overschakelt op een sneltrein die je rechtstreeks naar je bestemming brengt.

6. Van Foto naar Film (Video Generatie)

Nu proberen we dit ook toe te passen op video.

  • De uitdaging: Een foto statisch maken is al moeilijk, maar een video moet ook bewegen en consistent zijn. Als een persoon in beeld loopt, moet die persoon in de volgende frame op de juiste plek zijn, niet plotseling verdwijnen of van kleur veranderen.
  • De oplossing: De modellen leren nu niet alleen beelden te maken, maar ook de "tijdslijn" te begrijpen. Ze gebruiken dezelfde "ontsmettingsmachine", maar dan voor een reeks frames die samen een vloeiend verhaal vormen.

7. De Donkere Kant: De "Diepe Vervalsingen" (Deepfakes & Veiligheid)

Met deze kracht komt ook gevaar.

  • Het risico: Mensen kunnen nu foto's en video's maken van politici die dingen zeggen die ze nooit gezegd hebben, of van mensen die nooit bestaan. Dit kan gebruikt worden voor nepnieuws, oplichting of het schaden van iemands reputatie.
  • De verdediging: Onderzoekers werken aan twee dingen:
    1. Detectie: Zoeken naar onzichtbare "foutjes" in de foto's (zoals rare patronen in de pixels of onnatuurlijke knipogen) die aangeven dat een AI het gemaakt heeft.
    2. Watermerken: Het onzichtbaar "stempelen" van AI-gegenereerde beelden, zodat je later kunt zien dat het niet echt is.

Conclusie

We zijn in tien jaar tijd gegroeid van wazige, saaie vlekjes naar foto's en video's die zo realistisch zijn dat je ze nauwelijks van de werkelijkheid kunt onderscheiden. Het is een wonder van wiskunde en creativiteit, maar het vraagt ook om grote verantwoordelijkheid. Net als bij vuur: het kan je warm houden en eten koken, maar als je niet oppast, kan het ook alles verbranden. De toekomst ligt in het vinden van de juiste balans tussen deze ongelooflijke creativiteit en de veiligheid van onze samenleving.