Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Hier is een uitleg van het paper "Code-Space Response Oracles" in eenvoudig Nederlands, met behulp van creatieve metaforen.

De Kern: Van "Black Box" naar Open Boek

Stel je voor dat je een team van robot-spelers wilt trainen om een complex spel te spelen, zoals poker of een strategisch bordspel.

De oude manier (Deep Reinforcement Learning):
Vroeger leerden we deze robots door ze miljarden keren het spel te laten spelen. Ze leerden door trial-and-error, net als een baby die leert lopen door te vallen. Het probleem? De robots leerden een strategie die ze in hun "hersenen" (een neuraal netwerk) verstopten. Je kon zien dat ze goed speelden, maar je wist niet waarom. Het was een zwarte doos. Als ze een rare zet deden, kon niemand het verklaren. Het was alsof je een meesterchef vraagt hoe hij een gerecht maakt, en hij zegt: "Ik heb het gewoon in mijn hoofd."

De nieuwe manier (CSRO):
De auteurs van dit paper (van Google DeepMind) zeggen: "Laten we die zwarte doos openbreken." In plaats van een robot te trainen die een ondoorzichtige strategie in zijn hoofd heeft, laten we een AI-taalmodel (zoals een super-intelligente chatbot) de strategie schrijven als computercode.

Het resultaat? De strategie is nu een leesbaar Python-script. Je kunt het openen, lezen en zeggen: "Ah, deze robot blufft omdat hij merkt dat de tegenstander bang is." Het is alsof je niet alleen de meesterchef hebt, maar ook zijn receptboek hebt gekregen.

Hoe werkt het? De Metaforen

1. De "Best Response" (De Beste Tegenreactie)

In speltheorie zoek je altijd naar de "Best Response": de perfecte zet om tegen een specifieke tegenstander te maken.

Oude methode: De AI probeert miljarden keren een zet te raden tot ze het goed doen.
Nieuwe methode (CSRO): We geven de AI-taalmodel een opdracht: "Hier zijn de regels van het spel en hier is de code van je tegenstander. Schrijf nu een programma dat deze tegenstander verslaat."
De AI denkt na over de regels en schrijft direct een stukje code dat de strategie bevat.

2. De "Evolutie" (AlphaEvolve)

Soms is de eerste code die de AI schrijft niet perfect. Het is alsof je een schets maakt van een auto, maar de wielen zijn nog niet rond.

Het systeem gebruikt een methode genaamd AlphaEvolve. Dit werkt als een natuurlijke selectie in een laboratorium.
De AI schrijft een versie van de code.
Ze testen het tegen de tegenstander.
Als het niet goed werkt, zegt het systeem: "Probeer het opnieuw, maar maak de wielen groter."
De AI "mutatie" de code (verandert kleine stukjes) en probeert het opnieuw.
Dit gebeurt duizenden keren in een razendsnel tempo, totdat ze een perfecte, robuuste strategie hebben die in leesbare code staat.

3. De "Spiegel" (Theory of Mind)

In het paper zien ze dat de AI-strategieën soms heel slim zijn. Ze denken na over wat de tegenstander denkt.

Voorbeeld: In het spel "Steen, Papier, Schaar" schrijft de AI een code die zegt: "De tegenstander denkt dat ik 'Steen' ga gooien, dus hij gaat 'Papier' gooien. Maar ik weet dat hij dat denkt, dus ik ga 'Scharen' gooien."
Omdat dit in code staat, kunnen we dit lezen. We zien precies hoe de AI de gedachten van de tegenstander simuleert. Bij de oude "zwarte doos" methoden was dit onzichtbaar.

Wat hebben ze ontdekt?

Ze hebben dit getest op twee spelletjes:

Steek, Papier, Schaar (herhaald): Hier moesten ze een strategie vinden die niet alleen willekeurig speelt, maar patronen herkent bij de tegenstander.
Leduc Poker: Een vereenvoudigde versie van poker. Hier is het belangrijk om te bluffen en te weten wanneer je moet folden.

De resultaten:

De AI die code schrijft, deed het net zo goed als de oude, zware methoden die miljarden keren oefenden.
Maar het grote voordeel: Je kunt de strategie begrijpen.
Ze ontdekten dat de AI-strategieën vaak bestonden uit een "team van experts" in één stuk code. Bijvoorbeeld: "Als de tegenstander snel speelt, doe X. Als hij langzaam speelt, doe Y."

Waarom is dit belangrijk voor de toekomst?

Stel je voor dat je een zelfrijdende auto wilt bouwen die in het verkeer moet navigeren, of een AI die medische diagnoses stelt.

Als die AI een "zwarte doos" is, durven mensen haar niet te vertrouwen. "Waarom remde je plotseling?" "Ik weet het niet, mijn algoritme zei het."
Met CSRO kunnen we de code van de auto lezen: "Ik remde omdat ik zag dat de fietser naar links keek en de kans groot was dat hij de weg overstak."

Conclusie:
Dit paper toont aan dat we kunstmatige intelligentie niet hoeven te zien als een mysterieus monster dat in het geheim leert. We kunnen het laten werken als een schrijver die heldere, logische instructies schrijft. We krijgen de kracht van slimme AI, maar dan met een open boek in plaats van een gesloten doos. Dat maakt het veiliger, betrouwbaarder en makkelijker om te gebruiken in de echte wereld.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models" in het Nederlands.

Titel: Code-Space Response Oracles (CSRO): Het Genereren van Interpretabele Multi-Agent Policies met Large Language Models

Auteurs: Daniel Hennes, Zun Li, John Schultz en Marc Lanctot (Google DeepMind)
Datum: 12 maart 2026

1. Het Probleem

Multi-agent versterkende leer (Multi-Agent Reinforcement Learning, MARL) heeft aanzienlijke vooruitgang geboekt, met name met methoden zoals Policy-Space Response Oracles (PSRO). PSRO is een krachtig raamwerk voor het berekenen van benaderde game-theoretische evenwichten (zoals Nash-evenwichten) in complexe spelomgevingen.

Echter, de standaardimplementaties van PSRO hebben twee fundamentele beperkingen:

Gebrek aan interpretatie: De "orakels" (de componenten die de beste reactie berekenen) zijn doorgaans diepe neurale netwerken (Deep RL). Deze genereren "black-box" beleidsstrategieën die moeilijk te interpreteren, te debuggen of te vertrouwen zijn. Dit vormt een grote barrière voor toepassing in kritieke real-world scenario's waar uitlegbaarheid essentieel is.
Inefficiëntie: Het trainen van deze RL-orakels vereist vaak miljoenen tot miljarden spel-simulaties, wat rekenkundig zeer kostbaar is.

Het doel van dit onderzoek is om deze trade-off tussen prestaties en interpretatie op te lossen door de "black-box" neurale netwerken te vervangen door een mechanisme dat menselijk leesbare strategieën produceert.

2. Methodologie: Code-Space Response Oracles (CSRO)

CSRO is een nieuw raamwerk dat de berekening van een "beste reactie" (best response) herformuleert van een numerieke optimalisatieprobleem naar een programmeringsoplossing (program synthesis) taak.

Kernprincipes:

Vervanging van het Orakel: In plaats van een Deep RL-agent die een neurale netwerkgewichten optimaliseert, gebruikt CSRO een Large Language Model (LLM) om beleidsstrategieën direct te genereren als uitvoerbare broncode (bijv. Python).
Prompting: Het LLM ontvangt een prompt die de spelregels, de API voor interactie met de omgeving, en een beschrijving van de huidige meta-strategie van de tegenstanders bevat. Het LLM moet dan een programma schrijven dat de beste reactie op die strategie implementeert.
Interpretatie: De resulterende policy is geen ondoorzichtig model, maar een commentaarrijke, menselijk leesbare code die de logische redenering van de agent blootlegt.

Het CSRO-algoritme:
Het algoritme volgt de iteratieve structuur van PSRO, maar met een aangepast orakelstap:

Meta-spel Oplossing: Bereken een evenwichtsmix ( $\sigma$ ) over de huidige set van policies.
Prompt Constructie: Construeer een prompt die de regels en de strategieën van de tegenstanders (in code of samenvatting) beschrijft.
Generatie & Verfijning: Het LLM genereert een nieuwe policy. Om de kwaliteit te waarborgen, worden drie mechanismen voor verfijning gebruikt:
- Zero-Shot: Direct genereren zonder feedback.
- Linear Refinement: Een iteratieve lus binnen één iteratie waarbij het LLM de code aanpast op basis van de evaluatie van de vorige versie (als de utility negatief is).
- AlphaEvolve: Een gedistribueerd evolutionair systeem dat programma's muteert en selecteert op basis van hun score in het meta-spel. Dit is de meest krachtige methode in het paper.

Contextbeheer: Om contextlimieten van LLM's te omzeilen bij complexe spellen met veel tegenstanders, gebruikt CSRO context abstractie. In plaats van alle broncode in te lezen, worden strategieën samengevat in natuurlijke taal of gefilterd (bijv. alleen de top-5 tegenstanders).

3. Belangrijkste Bijdragen

Het CSRO-raamwerk: Introductie van een nieuw paradigma waarbij LLM's fungeren als code-genererende orakels voor het vinden van evenwichten in multi-agent spellen.
Interpretabele Policies: Het leveren van volledig interpreteerbare strategieën die bestaan uit commentaarrijke broncode, waardoor strategische logica direct inspecteerbaar is.
Evolutionaire Verfijning: Het demonstreren dat het integreren van evolutionaire methoden (zoals AlphaEvolve) en iteratieve verfijning de prestaties van LLM-generaties aanzienlijk verbetert ten opzichte van pure zero-shot prompting.
Rigoureuze Validatie: In tegenstelling tot eerdere werk (zoals LLM-PSRO) dat zich beperkte tot interne vergelijkingen, valideert dit paper CSRO tegen gestandaardiseerde externe populaties en gevestigde game-theoretische solvers (zoals CFR+ en PSRO-IMPALA).

4. Resultaten

De auteurs evalueerden CSRO op twee omgevingen: Herhaald Rock-Paper-Scissors (RRPS) en Herhaald Leduc Hold'em Poker.

Resultaten in RRPS:

Prestaties: De CSRO-variant met AlphaEvolve bereikte een lage exploitability (25.2), wat betekent dat het moeilijk te verslaan is. De LinearRefinement (code) variant met "Top 5" filtering behaalde de hoogste aggregatiescore (122.1), vergelijkbaar met de beste baselines (een 27B parameter LLM-agent).
Vergelijking met RL: Alle CSRO-varianten presteerden aanzienlijk beter dan de traditionele PSRO-IMPALA baseline (die een negatieve aggregatiescore had).
Input Formaat: Het gebruik van natuurlijke taal samenvattingen van tegenstanders werkte beter in zero-shot settings dan het invoeren van ruwe code, maar bij iteratieve verfijning leverde het invoeren van code betere resultaten op.

Resultaten in Leduc Poker:

Generalisatie: CSRO-AlphaEvolve behaalde de hoogste populatie-terugkeer (PopReturn) en aggregatiescore, en was concurrent met de state-of-the-art CFR+ solver (die als optimaal Nash-evenwicht geldt).
Exploitability: De exploitability was zeer laag (4.4), wat aantoont dat de gevonden strategieën robuust zijn.
Strategische Diepgang: De gegenereerde bots toonden vermogen om complexe concepten zoals bluffen en waarde-inzetten dynamisch aan te passen aan de tegenstander (bijv. volledig bluffen tegen een "AlwaysFold" tegenstander en alleen waarde-inzetten tegen een "AlwaysCall" tegenstander).

Kwalitatieve Analyse:
De gegenereerde code bleek niet monolithisch, maar bestond uit modulaire componenten. Bijvoorbeeld, in RRPS gebruikte een top-bot een ensemble van 32 voorspellers met een "Theory of Mind"-component die simuleerde hoe de tegenstander de eigen agent voorspelde. In Poker berekende de bot expliciet de "Expected Value" (EV) op basis van geschatte kansen en tegenstandersgedrag.

5. Betekenis en Conclusie

Dit paper markeert een verschuiving in multi-agent learning: van het optimaliseren van ondoorzichtige parameters in neurale netwerken naar het synthetiseren van interpreteerbare, algoritmische gedragingen.

Efficiëntie: Hoewel LLM's per beurt kunnen worden aangeroepen, genereert CSRO een herbruikbaar beleidsprogramma. De kosten voor het genereren van een policy groeien lineair met het aantal iteraties (bijv. 20 calls), in plaats van de miljoenen calls die nodig zijn voor RL-training.
Vertrouwen: De mogelijkheid om de code van een agent te inspecteren en te verifiëren op logische consistentie maakt toepassing in hoog-risico domeinen (zoals cybersecurity of economische modellering) veel haalbaarder.
Toekomst: Hoewel de huidige methode succesvol is in spellen met beperkte toestanden, blijft de schaalbaarheid naar zeer complexe omgevingen (zoals StarCraft) een uitdaging vanwege de contextlimieten van huidige LLM's.

Samenvattend toont CSRO aan dat Large Language Models niet alleen kunnen dienen als chatbots, maar als krachtige, interpreteerbare architecten voor complexe strategische agents, waarbij ze de kloof tussen game-theoretische optimaliteit en menselijk inzicht dichten.