Ergodicity in reinforcement learning

Dit artikel bespreekt de impact van niet-ergodische beloningsprocessen op versterkingslering, legt uit waarom de verwachte waarde als optimalisatiedoel tekortschiet voor individuele agenten, en presenteert bestaande oplossingen om de langetermijnprestaties van individuele trajecten te maximaliseren.

Dominik Baumann, Erfaun Noorani, Arsenii Mustafin, Xinyi Sheng, Bert Verbruggen, Arne Vanhoyweghen, Vincent Ginis, Thomas B. Schön

Gepubliceerd 2026-03-12
📖 6 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Ergodiciteit in Reinforcement Learning: Waarom "gemiddelde" resultaten je kunnen bedriegen

Stel je voor dat je een speler bent in een enorm complex computerspel. Je doel is om zo veel mogelijk punten te verzamelen. Normaal gesproken kijken ontwikkelaars van leerprogramma's (AI) naar het gemiddelde resultaat van duizenden spellen. Als de gemiddelde score hoog is, denken ze: "Groot! Dit spel werkt perfect."

Maar wat als die gemiddelde score je een vals beeld geeft van wat er echt gebeurt met jou, de speler, in één langdurig spel? Dat is precies waar dit artikel over gaat. Het waarschuwt dat we in kunstmatige intelligentie (AI) vaak vergeten kijken naar een belangrijk concept: ergodiciteit.

Hier is een simpele uitleg, vol met metaforen, over wat dit betekent en waarom het belangrijk is.

1. Het Russisch Roulette-probleem (De "Gemiddelde" Leugen)

Stel je een robot voor die pakketjes moet bezorgen. Hij heeft twee routes:

  • Route A (Snel maar gevaarlijk): Hij rijdt door een drukke menigte. Soms wordt hij vernield (1% kans per ritje), maar als hij het overleeft, verdient hij veel punten.
  • Route B (Langzaam maar veilig): Hij rijdt een omweg, maar komt altijd veilig aan.

Als je kijkt naar het gemiddelde van 100 robots die Route A nemen, zie je dat ze gemiddeld meer punten scoren dan de robots op Route B. De wiskunde zegt: "Kies Route A!"

Maar wat gebeurt er met één enkele robot die Route A blijft nemen? Op den duur zal hij bijna zeker vernield worden. Zodra hij kapot is, stopt hij met punten verdienen. De "gemiddelde" robot bestaat niet; die is een fantasie van statistici. De echte robot die je in de stad hebt staan, zal kapot gaan.

Dit noemen we een niet-ergodisch proces.

  • Ergodisch: Het gemiddelde van alle mogelijke toekomstige paden is hetzelfde als het pad dat één persoon in de tijd aflegt. (Bijvoorbeeld: als je een dobbelsteen gooit, is de gemiddelde uitkomst na 1000 worpen hetzelfde als wat je zou zien als je 1000 mensen tegelijk een worp liet doen).
  • Niet-ergodisch: Het gemiddelde van alle mogelijke paden is anders dan wat één persoon in de tijd meemaakt. In het geval van de robot: het gemiddelde is hoog, maar jouw persoonlijke pad eindigt in een ramp.

2. Het Muntje dat je rijk maakt (of arm)

De auteurs gebruiken een ander voorbeeld uit de economie: een muntgooi-spel.

  • Je begint met €100.
  • Je gooit een munt.
  • Kop: Je wint 50% van je huidige geld.
  • Munt: Je verliest 40% van je huidige geld.

Wiskundig gezien is dit een winnend spel! Je wint gemiddeld 5% per beurt (50% winst - 40% verlies = +10%? Nee, het is een beetje complexer, maar de verwachte waarde groeit). Als je 1000 robots dit laat spelen, is het totale vermogen van de groep enorm gegroeid.

Maar kijk eens naar één persoon die dit spel 1000 keer speelt.
Omdat je verlies (40%) groter is dan je winst (50%) in termen van percentage, en omdat je verlies op een kleiner bedrag wordt berekend als je al verlies hebt geleden, zal je vermogen op de lange termijn naar nul zakken.

Het is alsof je een boot hebt die langzaam lekt. Als je 1000 boten hebt, is het totaal aantal liters water dat erin zit misschien niet zo erg. Maar voor jouw boot betekent die lek dat je zinkt. De "gemiddelde" boot zinkt niet, maar jij wel.

3. Waarom bestaande AI dit niet snapt

De meeste moderne AI-systemen (zoals die in zelfrijdende auto's of spelcomputers) zijn getraind om de verwachte waarde te maximaliseren. Ze kijken naar het gemiddelde van alle mogelijke uitkomsten.

In het muntje-voorbeeld zou een slimme AI zeggen: "Gooi altijd met je volledige geld!" (omdat de gemiddelde winst het hoogst is). Maar als je dit doet, ga je failliet. De AI heeft de "tijd" niet begrepen. Ze denkt dat ze een van de duizenden gelukkige robots is, terwijl ze in werkelijkheid één enkele robot is die door de tijd reist.

4. Hoe lossen we dit op? (De drie oplossingen)

De auteurs bespreken drie slimme manieren om AI-systemen te leren omgaan met deze valkuil:

  • Oplossing 1: De Transformatie (De "Vertaler")
    In plaats van te kijken naar het geld zelf, vertalen we het geld naar iets anders dat beter werkt. Stel je voor dat je in plaats van naar je bankrekening kijkt, naar het logaritme van je geld. Dan gedraagt het spel zich alsof het "ergodisch" is. De AI leert dan een strategie die werkt voor de lange termijn, in plaats van voor het gemiddelde. Het is alsof je een bril opzet die de wereld anders laat zien, zodat je de juiste beslissingen neemt.

  • Oplossing 2: De Geometrische Gemiddelde (De "Veilige Reiziger")
    In plaats van te kijken naar het gemiddelde van alle mogelijke uitkomsten, kijken we naar het geometrische gemiddelde. Dit is een wiskundige manier om te kijken naar de "typische" groei van één enkele reis. Het straalt extreme geluksgevallen (die het gemiddelde omhoog trekken) af en focust op wat er echt gebeurt met de reiziger. De AI leert dan om risico's te vermijden die je volledig kunnen vernietigen.

  • Oplossing 3: Tijd in het spel (De "Herhaling")
    Normaal gesproken leert een AI in één stap: "Als ik dit doe, krijg ik die beloning." Bij deze methode dwingen we de AI om te denken in lange reeksen. De AI moet dezelfde beslissingen keer op keer nemen in één trainingsessie, zodat ze echt voelt hoe een slechte beslissing op de lange termijn alles kan verpesten. Het is alsof je een speler niet één keer laat spelen, maar hem laat zien wat er gebeurt als hij 100 keer op dezelfde manier speelt.

Conclusie: Waarom dit belangrijk is

Dit artikel is een wake-up call voor de wereld van kunstmatige intelligentie. We bouwen systemen voor de echte wereld: medicijnen, financiën, robotica. In die werelden gaat het niet om het gemiddelde van duizenden hypothetische scenario's. Het gaat om één enkele, lange reis.

Als je een robot een medicijn laat toedienen, wil je niet dat hij "gemiddeld" goed werkt, terwijl hij in 50% van de gevallen de patiënt doodt. Als je een AI je geld laat beheren, wil je niet dat hij "gemiddeld" rijk wordt, terwijl jij failliet gaat.

De boodschap is simpel: Kijk niet alleen naar het gemiddelde van de menigte, maar kijk naar het pad van de individuele reiziger. Alleen dan bouwen we AI-systemen die echt veilig en betrouwbaar zijn voor de lange termijn.