Generative Models in Decision Making: A Survey

Each language version is independently generated for its own context, not a direct translation.

Generatieve Modellen in Besluitvorming: Een Simpele Uitleg

Stel je voor dat je een robot wilt leren om een taak uit te voeren, zoals een kopje koffie zetten of een auto besturen. In de oude wereld van kunstmatige intelligentie (AI) werd dit gedaan met Reinforcement Learning (Versterkend Leren).

Het Oude Manier: De "Pijnlijke" Leerling

Stel je een robot voor die leert door te proberen en te falen. Hij probeert een beweging, krijgt een puntje als het goed gaat, en een straf als het misgaat.

Het probleem: Deze robot leert vaak maar één manier om iets te doen. Als hij leert om een beker vast te pakken, leert hij misschien alleen maar de "perfecte" grijp. Als de beker een beetje verschuift, raakt hij in paniek omdat hij geen andere opties kent.
De analogie: Het is alsof je een kind leert fietsen door alleen maar één specifieke route te laten rijden. Als er een boom op die route staat, weet het kind niet wat hij moet doen. Hij is te star.

De Nieuwe Manier: De "Kunstzinnige" Leerling

Deze nieuwe survey (een groot overzicht van onderzoek) zegt: "Laten we stoppen met het jagen op één perfecte score, en in plaats daarvan leren we de robot om alle mogelijke goede manieren te zien."

Dit noemen ze Generatieve Modellen. In plaats van te vragen: "Wat is het beste antwoord?", vragen ze: "Wat zijn alle mogelijke goede antwoorden, en hoe lijken die op elkaar?"

De auteurs van dit paper hebben een nieuw systeem bedacht om al deze verschillende AI-methoden te begrijpen. Ze vergelijken het met een groot orkest dat samen een symfonie speelt. Elk instrument heeft een specifieke rol, maar ze spelen allemaal samen om een mooi plaatje te maken.

Hier zijn de vier rollen in dit orkest:

1. De Dirigent (De Controller)

Wat doet hij? Hij bepaalt direct welke beweging de robot moet maken.
De analogie: Stel je voor dat je een danser bent. De Dirigent is de dansleraar die direct zegt: "Nu een sprong!" of "Nu een draai!".
Het voordeel: Oude methoden waren als een robot die maar één danspas kon. Deze nieuwe Dirigent kan zeggen: "Je kunt linksom dansen, rechtsom, of zelfs op één been springen." Hij ziet alle mogelijkheden.

2. De Dromer (De Modeler)

Wat doet hij? Hij simuleert de wereld in zijn hoofd. Hij denkt: "Als ik dit doe, wat gebeurt er dan?"
De analogie: Dit is als een architect die een huis bouwt in een droom voordat hij echt begint met bouwen. Hij ziet hoe de muren vallen als hij te hard duwt.
Het voordeel: De robot hoeft niet in het echt te vallen om te leren. Hij kan "dromen" van duizenden situaties in een seconde en alleen de beste plannen uitvoeren.

3. De Planner (De Optimizer)

Wat doet hij? Hij werkt aan een plan en verbetert het steeds, net als een schilder die een schilderij steeds fijner maakt.
De analogie: Stel je voor dat je een schets maakt van een auto. Eerst is het een vage lijn. Dan voeg je details toe, dan verf je de wielen, dan maak je de koplampen scherp. De Planner doet dit met een bewegingsplan. Hij begint met een ruwe idee en "ontstoort" het tot een perfect plan.
Het voordeel: Hij kan complexe routes vinden die een simpele robot nooit zou bedenken.

4. De Keurmeester (De Evaluator)

Wat doet hij? Hij kijkt naar het plan en zegt: "Dit is veilig" of "Dit is gevaarlijk".
De analogie: Dit is de strenge leraar of de veiligheidsinspecteur. Hij kijkt niet alleen naar het eindresultaat, maar zegt ook: "Hé, die route gaat door een muur, dat mag niet!" of "Die beweging is te raar voor een mens."
Het voordeel: Hij zorgt dat de robot niet doet wat hij wil, maar wat veilig en logisch is.

Waar wordt dit voor gebruikt?

De auteurs kijken naar drie belangrijke gebieden waar dit nu al gebeurt:

Robotica (Embodied AI): Robots die echt dingen doen in de echte wereld. Denk aan robots die in een fabriek werken of in je huis helpen. Ze moeten flexibel zijn, want de wereld is chaotisch.
Autonoom Rijden: Een zelfrijdende auto moet niet alleen weten hoe hij op een rechte weg rijdt, maar ook hoe hij moet reageren als er plotseling een kind de weg op rent. De "Dromer" kan duizenden scenario's bedenken om klaar te zijn voor het onvoorspelbare.
Wetenschap: Het vinden van nieuwe medicijnen of materialen. Hier zoekt de AI niet naar een route, maar naar een nieuw molecuul dat ziektes kan genezen. De "Planner" zoekt door een enorm universum van mogelijke chemische structuren.

De Grote Uitdagingen

Hoewel dit geweldig klinkt, zijn er nog problemen:

Hallucinaties: Soms "droomt" de robot iets wat er niet is. Hij denkt dat hij door een muur kan lopen omdat zijn droom dat suggereert, maar in het echt botst hij er tegenaan.
Snelheid: Het "dromen" en "plannen" kost tijd. Een robot die in een auto zit, moet beslissingen nemen in milliseconden.
Veiligheid: Wat als de AI een medicijn bedenkt dat ziektes geneest, maar ook als gif werkt? We moeten zorgen dat de "Keurmeester" streng genoeg is.

Conclusie

Kortom: Dit paper zegt dat we stoppen met AI's te trainen als starre rekenmachines die één antwoord zoeken. In plaats daarvan trainen we ze als creatieve kunstenaars die een heel palet aan mogelijkheden zien. Ze leren niet alleen wat ze moeten doen, maar ook hoe de wereld werkt, zodat ze veilig en slim kunnen handelen in onze complexe, echte wereld.

Het is de stap van "Doe precies wat ik zeg" naar "Begrijp de wereld en bedenk zelf de beste manier om het te doen."

Each language version is independently generated for its own context, not a direct translation.

Titel: Generatieve Modellen in Besluitvorming: Een Overzicht

Auteurs: Xinyu Shao, Jianping Zhang, et al.
Publicatie: arXiv:2502.17100v4 (Maart 2026)

1. Het Probleem

Traditionele Reinforcement Learning (RL) en optimalisatie-algoritmen zijn gedomineerd door het maximaliseren van een scalair cumulatief beloningssignaal. Hoewel dit effectief is in goed gedefinieerde simulaties, stuiten deze methoden op fundamentele beperkingen bij schaalvergroting naar open wereldtaken met hoge dimensionaliteit:

Beperkte Expressiviteit: Standaard RL-politieke (zoals unimodale Gaussische verdelingen in PPO) kunnen de complexe, multi-modale aard van menselijk gedrag in diverse datasets (bijv. D4RL) niet adequaat modelleren. Dit leidt tot "mode collapse" (het verliezen van diversiteit in strategieën).
Sample Inefficiëntie: De verstrengeling van dynamische modellering en politieke optimalisatie in model-vrije RL vereist vaak enorme hoeveelheden interactie met de werkelijkheid.
Fragmentatie: Bestaande literatuur behandelt generatieve modellen (zoals Diffusiemodellen of Transformers) vaak als geïsoleerde architecturale verbeteringen, zonder een unificerend raamwerk dat hun functionele rol in de besluitvormingscyclus uitlegt.

2. Methodologie: Een Functioneel Taxonomie

De auteurs stellen een nieuw, principieel taxonomie voor dat gebaseerd is op het probabilistische raamwerk van "Control as Inference" (Besturing als Inferentie). In plaats van te classificeren op basis van architectuur (bijv. "Diffusie vs. Transformer"), analyseren ze modellen op basis van hun functionele rol binnen de factorisatie van de posterior-verdeling van een traject.

Door de posterior $p(\tau|O)$ (waarbij $\tau$ een traject is en $O$ optimaliteit aangeeft) te ontleden, identificeren ze vier fundamentele rollen:

Controller (De Politiek):
- Functie: Voert geamortiseerde inferentie uit door een parametrische kaart $\pi(a|s)$ te leren die de optimale posterior direct benadert.
- Voordeel: Kan complexe, multi-modale actie-distributies modelleren (in tegenstelling tot unimodale Gaussians), essentieel voor imitatie-leren.
- Voorbeelden: Diffusion Policies, GANs, VAEs, Autoregressive Transformers (Decision Transformer).
Modeler (De Dynamica):
- Functie: Benadert de overgangsdynamica $p(s'|s,a)$ en fungeert als een "World Model".
- Voordeel: Maakt plannen in een "droom" (imaginatie) mogelijk, wat de sample-efficiëntie verhoogt door fysiek trial-and-error te verminderen.
- Voorbeelden: Latent Space Models (RSSM, Dreamer), Autoregressive World Models (IRIS, Genie), Pixel-synthese (Diffusie).
Evaluator (De Critic):
- Functie: Benadert de optimaliteits-likelihood $p(O|\tau) \propto \exp(R(\tau))$ .
- Voordeel: Biedt dichte gradiëntsignalen (via Energy-Based Models) of veiligheidsfilters (via dichtheidschatting) in plaats van schaarse beloningen.
- Voorbeelden: Discriminatoren (GAIL), Energy-Based Models (EBMs), Conformal Prediction voor veiligheid.
Optimizer (De Planner):
- Functie: Voert de iteratieve inferentie uit om de posterior te maximaliseren. Het behandelt plannen als een generatief in-painting probleem.
- Voordeel: Biedt sterke mode-zoekcapaciteiten en lange-horizon consistentie door iteratieve verfijning (bijv. denoising) in plaats van stap-voor-stap rollouts.
- Voorbeelden: Diffuser, GFlowNets, Latent Space Search.

De paper analyseert ook vier generatieve inferentiemechanismen en hun trade-offs:

One-Step Mapping (VAE/GAN): Snel, maar risico op mode collapse.
Autoregressive: Schaalbaar en goed voor lange context, maar vatbaar voor cumulatieve fouten.
Iterative Refinement (Diffusie/Flow): Hoge fideliteit en diversiteit, maar trage inferentie.
Amortized Structural Inference (GFlowNets): Ideaal voor discrete/combinatorische ruimtes met hoge diversiteit.

3. Belangrijkste Bijdragen

Unificerend Raamwerk: De eerste survey die generatieve besluitvorming systematisch categoriseert via de "Control as Inference" lens, losgekoppeld van specifieke neurale netwerken.
Functionele Taxonomie: De definitie van de vier rollen (Controller, Modeler, Evaluator, Optimizer) biedt een gemeenschappelijke taal om diverse methoden te vergelijken en te combineren.
Kritische Synthese: Een diepgaande analyse van waarom specifieke generatieve mechanismen geschikt zijn voor specifieke besluitvormingsrollen, inclusief een overzicht van state-of-the-art algoritmen (zie Tabel 3 en 4 in de paper).
Veiligheids- en Risico-analyse: Een focus op systemische risico's in hoog-risico domeinen, zoals "dynamische hallucinaties" (fysiek onmogelijke overgangen) en "proxy-exploitatie" (het hacken van imperfecte beloningsfuncties).

4. Resultaten en Toepassingen

De survey identificeert drie kritieke toepassingsdomeinen waar generatieve modellen de staat van de kunst transformeren, maar ook specifieke risico's introduceren:

Embodied AI & Robotica:
- Resultaat: Generatieve controllers (vooral Diffusie) overtreffen traditionele methoden in het nabootsen van menselijk, multi-modaal gedrag.
- Risico: "High-confidence hallucinaties" bij distributiewisselingen (OOD).
- Mitigatie: Conformal prediction en onzekerheidsquantificatie.
Autonoom Rijden:
- Resultaat: Generatieve modellen kunnen zeldzame "corner cases" synthetiseren voor training en end-to-end planning mogelijk maken.
- Risico: Semantische adversariale aanvallen en sensor-inconsistenties.
- Mitigatie: Hiërarchische veiligheidsfilters (bijv. RSS of formele logica) die generatieve voorstellen filteren.
Wetenschappelijke Ontdekking & Materiaalontwerp:
- Resultaat: Modellen zoals RFdiffusion en GFlowNets versnellen de ontdekking van nieuwe eiwitten en moleculen door efficiënte zoektochten in combinatorische ruimtes.
- Risico: "Proxy exploitation" (het genereren van chemisch ongeldige structuren die de beloningsfunctie hacken) en bioveiligheidsrisico's (toxische pathogenen).
- Mitigatie: Latent space sanitization en mens-in-de-lus verificatie.

5. Betekenis en Toekomstperspectief

Deze survey markeert een paradigmaverschuiving van punt-optimalisatie (een enkele beste actie kiezen) naar distributie-matching (de volledige verdeling van optimale trajecten modelleren). Dit is cruciaal voor de ontwikkeling van Generalist Physical Intelligence (algemene fysieke intelligentie).

De auteurs schetsen de weg naar de volgende generatie agents, waarbij de volgende uitdagingen centraal staan:

Fysische Foundation Models: Het ontwikkelen van modellen die continu dynamica van de fysieke wereld natief modelleren, in plaats van discrete tekst-volledigheid.
Efficiëntie: Het overbruggen van het frequentie-gat tussen generatie (Hertz) en controle (Kilohertz) via distillatie en snellere stromingsmodellen.
Betrouwbaarheid: Het integreren van causale redenering en strikte veiligheidsgaranties om hallucinaties en misbruik te voorkomen.

Kortom, de paper positioneert generatieve AI niet langer als een hulpmiddel, maar als de fundamentele motor voor robuuste, veilige en veelzijdige besluitvorming in complexe fysieke omgevingen.