Learning in Markov Decision Processes with Exogenous Dynamics

Deze studie toont aan dat het benutten van exogene dynamiek in Markov-beslissingsprocessen leidt tot aanzienlijk betere leergaranties en steekproefefficiëntie, waarbij de regretgrenzen slechts afhankelijk zijn van de grootte van de exogene toestandsruimte.

Davide Maran, Davide Salaorni, Marcello Restelli

Gepubliceerd 2026-03-05
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Samenvatting: Hoe een slimme agent leert omgaan met wat hij niet kan controleren

Stel je voor dat je een taxi bestuurt in een drukke stad. Je hebt twee dingen onder controle:

  1. Je eigen auto: Je kunt sturen, gas geven, remmen en kiezen welke route je neemt.
  2. Het verkeer: Rode lichten, file, regen en andere bestuurders. Dit is niet iets wat jij kunt beïnvloeden. Het gebeurt gewoon, of je nu links of rechts draait.

In de wereld van kunstmatige intelligentie (AI) en robotica proberen computers vaak te leren door alles tegelijk te bestuderen. Ze denken: "Als ik links draai, gebeurt er X. Als ik rechts draai, gebeurt er Y." Maar als het verkeer (de exogene dynamiek) willekeurig is, raakt de computer in de war. Hij probeert patronen te vinden tussen zijn stuur en de file, terwijl die file niets met zijn sturen te maken heeft. Dit kost enorm veel tijd en data om te leren.

De auteurs van dit paper, Davide Maran en collega's, hebben een nieuwe manier bedacht om dit probleem op te lossen. Ze noemen dit PCMDP (Partially Controllable Markov Decision Process). Laten we het uitleggen met een paar simpele metaforen.

1. Het Probleem: De Verkeersagent die alles probeert te regelen

Stel je een beginnende taxi-chauffeur voor die denkt dat hij de file kan oplossen door harder te remmen. Hij probeert duizenden keren te remmen, linksaf te slaan of rechtsaf, en kijkt telkens of de file weg is.

  • Het resultaat: Hij leert heel langzaam. Hij ziet dat soms de file weggaat als hij remt, en soms niet. Hij kan het onderscheid niet maken tussen zijn eigen acties en het toeval.
  • De wiskundige naam: Dit is een standaard "Markov Decision Process" (MDP). De computer probeert de hele wereld te modelleren, inclusief de dingen die hij niet kan aanraken.

2. De Oplossing: De "Scheiding van Krachten"

De auteurs zeggen: "Wacht even! Waarom proberen we te leren dat we de file kunnen beïnvloeden? Dat kunnen we niet. We moeten alleen leren hoe we onze auto besturen, terwijl we accepteren dat het verkeer gewoon zijn gang gaat."

Ze splitsen de wereld in twee delen:

  • De "Interne" wereld (Endogeen): Alles wat je kunt aanraken (je auto, je budget, je waterreservoir). Dit is vaak voorspelbaar. Als je gas geeft, gaat je auto sneller.
  • De "Externe" wereld (Exogeen): Alles wat je niet kunt aanraken (het weer, de beurskoersen, het verkeer). Dit is willekeurig en onafhankelijk van jou.

3. De Nieuwe Algoritmes: EXAVI en EXAQ

De paper introduceert twee slimme methoden (algoritmes) die deze scheiding gebruiken om veel sneller te leren.

EXAVI (De Slimme Planningsmachine)

  • Hoe het werkt: Stel je voor dat je een kaart hebt van de stad. Je weet precies hoe je auto werkt (je kunt remmen, sturen). Maar je weet niet precies hoe het verkeer zich gedraagt.
  • De truc: In plaats van te proberen te raden hoe je auto en het verkeer samen werken, leert de machine alleen het verkeer.
  • De analogie: Een gewone AI probeert te leren: "Als ik linksaf sla, komt er een file op." (Dit is onzin, want de file komt er anyway).
    De nieuwe AI zegt: "Ik weet hoe mijn auto werkt. Ik hoef alleen maar te kijken: 'Hoe gedraagt het verkeer zich als ik linksaf sla?' en 'Hoe gedraagt het zich als ik rechtsaf sla?'"
    Omdat het verkeer niet verandert door je actie, hoeft de AI niet te "proberen" om het verkeer te zien. Hij kan gewoon rustig kijken hoe het verkeer zich gedraagt, ongeacht wat hij doet. Dit maakt het leren veel sneller.

EXAQ (De Slimme Leraar)

  • Hoe het werkt: Dit is een methode die niet eerst een kaart maakt, maar direct leert door ervaring (zoals een mens die rijdt).
  • De truc: Normaal gesproken leert een AI: "Ik deed A, en toen gebeurde B. Dus A leidt tot B."
    De nieuwe AI zegt: "Ik deed A, en het verkeer veranderde naar X. Nu weet ik dat voor elke mogelijke positie van mijn auto, als het verkeer X is, het resultaat hetzelfde zal zijn."
  • De analogie: Stel je voor dat je een leraar bent. Een gewone leraar leert één leerling per keer. Deze nieuwe leraar leert alle leerlingen tegelijk over hetzelfde onderwerp. Als hij ziet hoe het weer (exogeen) verandert, past hij zijn les direct toe op alle mogelijke situaties van de auto (endogeen). Hij "vermenigvuldigt" zijn kennis.

4. Waarom is dit zo belangrijk?

In de echte wereld zijn veel problemen zoals dit:

  • Handelen op de beurs: Jij kunt je portefeuille beheren (interne), maar je kunt de prijs van een aandeel niet bepalen (extern).
  • Waterreservoirs: Je kunt de sluizen openen (interne), maar je kunt de regen niet laten vallen (extern).
  • Energie: Je kunt batterijen laden, maar je kunt de zon niet laten schijnen.

De oude methoden proberen alles tegelijk te leren, wat als proberen is om een heel groot raadsel op te lossen terwijl je blinddoekt bent. De nieuwe methoden zeggen: "Oké, dit stukje van het raadsel (het weer/verkeer) is willekeurig. Laten we dat loslaten en ons alleen focussen op het stukje dat we wel kunnen oplossen."

Het Resultaat

De paper toont aan dat deze nieuwe methoden:

  1. Veel minder data nodig hebben: Ze leren in een paar minuten wat de oude methoden in uren of dagen doen.
  2. Beter presteren: Ze vinden sneller de beste strategie.
  3. Wiskundig bewezen: Ze hebben bewezen dat je niet sneller kunt leren dan dit; het is de theoretische limiet van wat mogelijk is.

Kortom: Door te erkennen wat je niet kunt controleren, word je veel slimmer in wat je wel kunt controleren. Het is alsof je stopt met proberen de wind te stoppen, en je gewoon leert hoe je het zeil het beste kunt zetten.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →