Combining Tree-Search, Generative Models, and Nash Bargaining Concepts in Game-Theoretic Reinforcement Learning

Deze paper introduceert een schaalbaar, generatief reinforcement learning-framework dat Monte-Carlo Tree Search, diepe generatieve modellen en Nash-verhandelingsconcepten combineert om effectieve online en offline tegenstandersmodellen te ontwikkelen voor complexe spelletjes met imperfecte informatie, zoals aangetoond in onderhandelingsexperimenten met mensen.

Zun Li, Marc Lanctot, Kevin R. McKee, Luke Marris, Ian Gemp, Daniel Hennes, Paul Muller, Kate Larson, Yoram Bachrach, Michael P. Wellman

Gepubliceerd 2026-03-17
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je in een groot, druk café zit waar iedereen tegelijkertijd onderhandelt over wie wat krijgt. Je hebt geen idee wat de anderen willen, wat ze in hun zak hebben, of hoe ze denken. Je moet een deal sluiten, maar je kunt niet gewoon raden; je moet slimme strategieën bedenken.

Dit is precies het probleem waar deze wetenschappers van DeepMind een oplossing voor hebben bedacht. Ze hebben een nieuwe manier ontwikkeld om kunstmatige intelligentie (AI) te leren omgaan met onbekende tegenstanders in complexe spelletjes, zoals onderhandelen.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Blinde" Speler

Vroeger waren computerspelletjes slim, maar ze waren vaak "stom" als het ging om het begrijpen van een mens. Ze volgden strakke regels of probeerden alles uit te rekenen, wat in grote, chaotische situaties (waar je niet alles kunt zien) onmogelijk is.

  • De analogie: Het is alsof je probeert een spelletje poker te spelen, maar je mag niet naar de kaarten van je tegenstander kijken en je hebt geen idee of hij blufft of echt sterke kaarten heeft. De oude methodes waren als iemand die blindelings gokt op basis van een vast script.

2. De Oplossing: De "Droomende" Speler

De auteurs hebben een nieuwe methode bedacht die ze GenBR noemen. Dit is een combinatie van drie krachtige dingen:

  1. Zoeken (Search): Net als een schaker die vooruit denkt: "Als ik dit doe, doet hij dat, en dan doe ik weer dit..."
  2. Leren (Reinforcement Learning): Het spel zelf spelen en leren van winst en verlies.
  3. Genereren (Generative Models): Dit is het nieuwe en spannende deel. De AI leert een soort "droommachine" of "fantasie-apparaat".
  • De analogie: Stel je voor dat je in een donkere kamer zit met een onbekende tegenstander. In plaats van blind te spelen, gebruikt deze AI een magische projectie.
    • De AI zegt: "Oké, ik zie dat mijn tegenstander een boek wil. Laten we eens dromen: wat als hij ook een hoed wil? En wat als hij een basketbal wil?"
    • De AI "droomt" (genereert) duizenden mogelijke scenario's van wat de tegenstander zou kunnen willen.
    • Dan speelt de AI in al die dromen tegelijkertijd om te zien welke strategie het beste werkt.
    • Als de tegenstander een echte zet doet, past de AI haar dromen direct aan. "Oh, hij heeft een hoed gekozen? Dan was mijn droom over de basketbal fout. Laten we opnieuw dromen, maar dan met de hoed als uitgangspunt."

3. De Groepsdynamiek: De "Olympische Spelen"

Om deze AI zo goed mogelijk te maken, hebben ze hem niet alleen tegen zichzelf laten spelen. Ze hebben een systeem gebruikt dat PSRO heet.

  • De analogie: Denk aan een trainingskamp voor atleten. Je hebt niet maar één speler. Je hebt een heel team met verschillende stijlen:
    • De "Agressieve" speler (wil alles winnen).
    • De "Vriendelijke" speler (wil een eerlijke deal).
    • De "Slimme" speler (probeert je te bedriegen).
    • De AI speelt tegen al deze verschillende versies van zichzelf. Door te spelen tegen de agressieve, leert hij hoe hij moet verdedigen. Door te spelen tegen de vriendelijke, leert hij hoe hij samenwerkt.
    • Uiteindelijk ontstaat er een "meester-speler" die tegen iedereen goed kan spelen, omdat hij alle stijlen heeft gezien.

4. Het Experiment: Mensen vs. Robots

De echte test kwam toen ze deze AI tegen echte mensen zetten in een spelletje genaamd "Deal or No Deal" (Maak een deal of niet).

  • Het spel: Twee mensen moeten een pot met spullen (boeken, hoeden, ballen) verdelen. Ze weten niet wat de ander waardeert. Ze moeten onderhandelen.
  • Het resultaat: De AI's waren verrassend goed.
    • Sommige AI's waren zo slim dat ze de mensen bijna evenveel winst gaven als twee mensen onder elkaar.
    • Een specifieke AI (de "Fair" agent) was zo goed in onderhandelen dat hij vaak een deal vond die voor beide partijen het beste was. Hij was niet alleen slim, hij was ook eerlijk.
    • De AI kon zelfs "lezen" in de dromen van de mens: als een mens een bepaalde keuze maakte, begreep de AI snel wat die mens wilde, zelfs zonder dat de mens het hardop zei.

Conclusie: Waarom is dit belangrijk?

Deze technologie is niet alleen voor spelletjes. Het is een grote stap vooruit voor de toekomst van AI in de echte wereld.

  • Vergelijking: Stel je voor dat een AI helpt bij het onderhandelen over salarissen, of bij het verdelen van hulpgoederen in een rampgebied, of bij het regelen van verkeerslichten in een stad.
  • In al die situaties zijn er veel mensen met verschillende wensen, en niemand weet precies wat de ander wil. Deze nieuwe methode laat computers leren om niet alleen "te winnen", maar om samen te werken en begrip te tonen, zelfs als ze de situatie niet volledig kunnen zien.

Kortom: Ze hebben een computer gemaakt die niet alleen rekent, maar ook fantaseert en leert van de dromen van anderen, zodat hij een betere onderhandelaar wordt dan ooit tevoren.