MDP Planning as Policy Inference

✨

Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een complexe puzzel moet oplossen, zoals een doolhof vinden of een strategie bedenken om een kaartspel te winnen. Meestal proberen computers dit te doen door één perfecte route te zoeken en die te onthouden. Maar wat als de wereld onvoorspelbaar is? Wat als er regen valt, of de weg blokkeert? Dan is één vaste route misschien niet genoeg.

Dit artikel van David Tolpin introduceert een nieuwe manier om voor computers na te denken over dit soort problemen. In plaats van te zoeken naar één perfecte oplossing, laten ze de computer een verzameling van mogelijke strategieën bedenken en daaruit kiezen.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Grote Idee: Een Raadsel in plaats van een Recept

Stel je voor dat je een kok bent die een nieuw gerecht moet bedenken.

De oude manier (traditionele planning): Je probeert één recept te vinden dat perfect is. Je kookt het, proeft het, en als het niet lekker is, gooi je het weg en probeer je een heel ander recept. Je bent vastbesloten om het beste recept te vinden.
De nieuwe manier (dit artikel): Je denkt: "Laten we 100 verschillende recepten bedenken." Je geeft elk recept een score op basis van hoe lekker het zou kunnen zijn. Sommige recepten zijn waarschijnlijk heel lekker, andere minder. In plaats van één recept te kiezen, houd je de hele lijst bij. Als je gaat koken, pakt je niet zomaar het eerste recept, maar je kijkt naar je lijst en kiest willekeurig een recept dat er goed uitziet.

In de wereld van computers (Markov Beslissingsprocessen) noemen ze dit Bayesiaanse inferentie. Ze behandelen een "strategie" (een plan) niet als een vast gegeven, maar als een geheim dat ze moeten raden. Ze maken een "waarschijnlijkheidskaart" van alle mogelijke plannen.

2. Hoe werkt het? (De "Gedachtenkracht" van de Computer)

De computer doet alsof hij een detective is die een mysterie oplost.

De Verdachten: Alle mogelijke strategieën zijn de verdachten.
Het Bewijs: De beloning (punten) die een strategie oplevert, is het bewijs.
De Oplossing: De computer berekent niet alleen wie de "schuldige" (de beste strategie) is, maar ook hoe zeker hij is.
- Als er één strategie is die duidelijk wint, wordt de kaart heel donker op die plek (hoge zekerheid).
- Als twee strategieën bijna even goed zijn, blijft de kaart vaag (hoge onzekerheid). De computer weet dan: "Ik weet het niet zeker, beide opties zijn goed."

Dit is belangrijk omdat het de computer onzekerheid laat voelen. In plaats van een robot die blindelings één route volgt, heeft deze robot een "gevoel" voor wat er kan gebeuren.

3. De Magische Truc: De "Gemeenschappelijke Droom"

Het moeilijkste deel is dat de wereld willekeurig is (bijvoorbeeld: je probeert linksaf te slaan, maar je glijdt uit en gaat rechtdoor). Als je computer 100 verschillende strategieën tegelijk test, kan het zijn dat strategie A faalt omdat hij "ongelukkig" was, en strategie B faalt omdat hij "ongelukkig" was, terwijl ze eigenlijk even goed zijn.

De auteurs bedachten een slimme truc: Gekoppelde Willekeur.
Stel je voor dat je 100 mensen in een doolhof zet om te testen welke route het snelst is.

Slecht idee: Je laat elke persoon een andere regenbui meemaken. Degene die in de storm loopt, faalt niet omdat hij slecht loopt, maar omdat het regende.
Het idee in dit artikel: Je zorgt dat iedereen exact dezelfde regenbui meemaakt. Als het regent, regent het voor iedereen. Als de weg glad is, zijn ze allemaal glad.

Zo kan de computer eerlijk vergelijken: "Strategie A faalde niet door het weer, maar omdat het een slecht plan was." Dit zorgt voor veel eerlijkere en betere resultaten.

4. Hoe kiest de computer wat hij moet doen? (Thompson Sampling)

Wanneer de computer nu echt moet handelen (bijvoorbeeld in een spel), doet hij iets heel slim:
Hij pakt één willekeurig plan uit zijn verzameling van mogelijke plannen en volgt dat plan voor die ene stap.

Als hij heel zeker is dat Plan A het beste is, zal hij bijna altijd Plan A kiezen.
Als hij twijfelt tussen Plan A en Plan B, zal hij soms Plan A kiezen en soms Plan B.

Dit heet Thompson Sampling. Het is alsof je een dobbelsteen gooit om te beslissen welke route je neemt, maar je gooit alleen met dobbelstenen die je hebt gemaakt op basis van je beste kennis. Het is geen "toeval" om te verkennen (zoals bij andere methoden), maar een bewuste keuze gebaseerd op onzekerheid.

5. Wat zeggen de experimenten?

De auteurs hebben dit getest in verschillende werelden:

Gordelwanden (Grid Worlds): Hier zagen ze dat hun methode beter omgaat met onzekerheid dan de standaardmethoden. De standaardmethode probeerde vaak de randen van het bord te gebruiken om "veel variatie" te tonen (alsof het probeert te verkennen), terwijl hun methode gewoon de veiligste weg koos die nog steeds kans van slagen had.
Blackjack: Bij dit kaartspel bleek dat hun methode soms slimmer was dan de standaardmethode, omdat het beter kon omgaan met de kans dat je "bust" gaat (te veel punten hebt).
Tireworld (Bandenwisselen): Hier was het spannend. Als de beloningen (punten) te groot waren, werd de computer te zeker van zichzelf en koos hij risicovolle routes. Door de punten kleiner te maken, werd de computer nuchterder en koos hij veiligere routes. Dit laat zien dat de "grootte" van de beloning de zekerheid van de computer beïnvloedt.

Conclusie: Waarom is dit cool?

Deze methode verandert de manier waarop we naar kunstmatige intelligentie kijken.

Oude manier: "Ik heb de perfecte oplossing gevonden, doe precies dit."
Nieuwe manier: "Ik heb een paar goede ideeën. Ik weet niet zeker welk idee het beste is, dus ik kies willekeurig uit de beste opties. Als ik zeker ben, kies ik één. Als ik twijfel, varieer ik."

Het maakt de computer menselijker in zijn onzekerheid. Hij weet wanneer hij het niet weet, en hij past zijn gedrag daarop aan, in plaats van blindelings een fout te maken omdat hij denkt dat hij alles weet.

Each language version is independently generated for its own context, not a direct translation.

Titel: MDP Planning als Bayesiaanse Inferentie over Policy's

Auteur: David Tolpin (Offtopia)
Datum: April 14, 2026

1. Probleemstelling

Traditionele methoden voor het plannen in Markov-beslissingsprocessen (MDP's) en versterkend leren (RL) hanteren vaak een objectief dat de verwachte opbrengst maximaliseert. Probabilistische benaderingen, zoals "Control-as-Inference" en "Maximum Entropy RL", passen dit objectief vaak aan door entropie-regulering of fictieve observaties (bijv. optimaliteitsvariabelen) in te voeren om het probleem te laten passen binnen een standaard latent-observatie model.

Deze aanpassingen hebben twee nadelen:

De stochasticiteit (willekeur) in het resultaat is vaak een artefact van de regularisatie of een exploratiemechanisme, en niet direct interpreteerbaar als onzekerheid over de oplossing van het oorspronkelijke probleem.
De onzekerheid over welke optimale policy het beste is, wordt niet expliciet gemodelleerd.

Dit artikel stelt een nieuwe formulering voor: het plannen van een episodische MDP als Bayesiaanse inferentie over policy's. Het doel is om de klassieke verwachte-opbrengst-optimaliteit te behouden, terwijl onzekerheid over het optimale gedrag expliciet wordt uitgedrukt als de spreiding (dispersie) van de posterior-verdeling.

2. Methodologie

2.1 Probabilistisch Model

De kern van de methode is het behandelen van de policy $\pi$ als een latente variabele. In plaats van acties of toestanden als Bayesiaanse variabelen te behandelen, wordt een ongenormaliseerde waarschijnlijkheid van optimaliteit toegewezen aan elke policy, die monotoon is met de verwachte opbrengst.

De ongenormaliseerde log-waarschijnlijkheid van een policy wordt gedefinieerd als:
$\log \tilde{p}(\pi) = \mathbb{E}_{\tau_\pi} \left[ \sum_{t=1}^H R(s_t, a_t, s_{t+1}) \right]$
Waarbij de verwachting wordt genomen over trajecten $\tau_\pi$ gegenereerd door de dynamica van de MDP. Dit resulteert in een Boltzmann-Gibbs verdeling over policy's. De modes van deze posterior corresponderen met de opbrengst-maximaliserende policy's, terwijl de spreiding de onzekerheid over het optimale gedrag weergeeft.

2.2 Inferentie-algoritme: VSMC voor Deterministische Policy's

Om deze posterior te benaderen in discrete MDP's met stochastische transities, past de auteur Variational Sequential Monte Carlo (VSMC) aan voor inferentie over deterministische policy's. Dit vereist twee cruciale aanpassingen aan het standaard SMC-algoritme:

Consistentie bij herbezoek (Deterministic Policy Consistency):
Voor elke deeltje (particle) wordt de actie voor een bepaalde staat slechts één keer bemonsterd (bij het eerste bezoek). Bij herbezoek aan dezelfde staat wordt dezelfde actie hergebruikt. Dit zorgt ervoor dat het deeltje een coherent, deterministisch beleid vertegenwoordigt, in plaats van een willekeurige reeks acties.
Gekoppelde transitiestochasticiteit (Coupled Transition Randomness):
Om te voorkomen dat de gewichten van de deeltjes worden beïnvloed door onafhankelijke realisaties van omgevingsruis (in plaats van verschillen in het beleid), wordt de transitiestochasticiteit gekoppeld over alle deeltjes binnen een sweep. Als twee deeltjes dezelfde staat en actie tegenkomen, worden ze gedwongen om naar dezelfde volgende staat te gaan. Dit wordt geïmplementeerd door een gedeelde random realisatie van de dynamica te gebruiken.

2.3 Actie-selectie: Posterior Predictive Sampling

Actie-selectie gebeurt door te bemonsteren uit de posterior predictieve verdeling. Dit komt neer op recurrent Thompson Sampling:

Op elk beslispunt wordt een deterministische policy getrokken uit de geschatte posterior.
De actie die door die policy wordt voorgeschreven, wordt uitgevoerd.
Dit resulteert in een stochastische controller die onzekerheid over het optimale gedrag weerspiegelt, in plaats van entropie te regulariseren.

3. Belangrijkste Bijdragen

Nieuwe Formulering: Een Bayesiaanse formulering van MDP-planning die de klassieke verwachte-opbrengst-criteria behoudt en een optimale stochastische policy oplevert onder onzekerheid over voorkeuren (via posterior predictive sampling).
Aangepast VSMC: Een adaptatie van VSMC voor inferentie over deterministische policy's in stochastische MDP's, inclusief mechanismen voor consistentie bij herbezoek en gekoppelde transities om de kwaliteit van de schatting te verbeteren.
Empirische Evaluatie: Een uitgebreide vergelijking met Discrete Soft Actor-Critic (SAC) (een entropie-geregulariseerde RL-methode) over diverse benchmarks, wat fundamentele verschillen in gedrag en onzekerheidsrepresentatie aantoont.

4. Resultaten en Experimenten

De methode is getest op vier domeinen: Grid Worlds, Blackjack, Triangle Tireworld en Academic Advising.

Grid Worlds:
- De inferentie levert multimodale policy-verdelingen op.
- In tegenstelling tot SAC, die acties naar de randen van het raster gebruikt om entropie te maximaliseren (wat de kans op het doel verkleint), vermijdt de VSMC-policy dergelijke acties tenzij ze logisch zijn binnen de deterministische policy's.
- De gedeelde dynamica is cruciaal: zonder deze koppeling leert de agent onnauwkeurige strategieën door omgevingsruis.
Blackjack:
- VSMC presteert beter dan SAC met standaard entropie-parameters.
- Om VSMC te benaderen, moet SAC een zeer lage entropie-regularisatie ( $\alpha = 0.01$ ) gebruiken en veel meer trainingstijd.
- VSMC heeft een lagere kans op een "draw" (gelijkspel) dan zowel de optimale policy als SAC.
Triangle Tireworld:
- Dit domein toont een beperking van de Bayesiaanse aanpak: de posterior is gevoelig voor de schaal van de beloningen.
- Bij hoge beloningsverschillen (risico vs. veiligheid) wordt de posterior te scherp (concentreren), wat de prestaties verlaagt.
- Door de beloningen te schalen (verkleinen), wordt de posterior diffuser en presteert VSMC vergelijkbaar met SAC. Dit suggereert dat de beloningschaal de "sterkte van voorkeuren" moet coderen, niet alleen de rangschikking.
Academic Advising:
- Een complex combinatorisch probleem met lange horizon.
- Zowel VSMC als SAC hebben moeite met de moeilijkste instanties, maar VSMC vertoont zwaardere staarten in de verdeling van de opbrengst (heavier tails), wat wijst op een bredere exploratie van mogelijke uitkomsten.

5. Betekenis en Discussie

De paper biedt een fundamenteel ander perspectief op versterkend leren:

Onzekerheid vs. Regularisatie: Stochasticiteit is hier geen kunstmatige regularisatie (zoals bij entropie-RL), maar een directe weerspiegeling van epistemische onzekerheid over welke deterministische policy het beste is.
Interpretatie: Actie-selectie wordt gezien als het kiezen tussen coherente gedragingen (Thompson sampling) in plaats van het uitvoeren van een enkele, geparametriseerde stochastische policy.
Toekomstige Richtingen: Hoewel de huidige implementatie zich richt op discrete ruimtes, zijn de concepten toepasbaar op continue domeinen via hashable state-abstractions of gemeenschappelijke random getallen.

Conclusie:
De auteur demonstreert dat het plannen als Bayesiaanse inferentie over policy's een krachtig alternatief is voor traditionele RL-methoden. Het biedt een expliciete manier om onzekerheid te kwantificeren en leidt tot gedrag dat fundamenteel verschilt van entropie-geregulariseerde methoden, vooral in situaties waar de interpretatie van onzekerheid en de schaal van beloningen kritiek zijn.