Territory Paint Wars: Diagnosing and Mitigating Failure Modes in Competitive Multi-Agent PPO

Dit paper introduceert 'Territory Paint Wars', een Unity-omgeving om kritieke implementatiefouten en het emergente probleem van competitieve overfitting in multi-agent PPO te diagnosticeren, en stelt een eenvoudige oplossing voor door opponent-mixing om de generalisatie te herstellen zonder complexe infrastructuur.

Diyansha Singh

Gepubliceerd 2026-04-08
📖 6 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Territory Paint Wars: Een Strijd om Vergeten en Herinneren

Stel je voor dat je twee kinderen, Roze en Groen, in een kamer zet met een groot, leeg vloerkleed van 10 bij 10 tegels. Hun opdracht is simpel: wie aan het einde van het spel de meeste tegels van hun eigen kleur heeft, wint. Ze mogen elke tegel die ze betreden "verf" geven, en ze kunnen een tegel zelfs "vergrendelen" zodat de ander hem nooit meer kan veroveren.

Dit is Territory Paint Wars, een digitaal bordspel dat de onderzoeker van dit paper heeft bedacht om te kijken hoe kunstmatige intelligentie (AI) leert strijden. Maar er gebeurde iets vreemds: de AI's werden niet beter, ze werden juist slechter.

Hier is wat er aan de hand was, verteld als een verhaal met een paar handige vergelijkingen.

1. De Grote Mislukking (De "Vervormde" AI)

In het begin probeerden de AI's te leren door tegen elkaar te spelen (een methode die "self-play" heet, alsof je tegen jezelf schaken). Maar na 84.000 pogingen won de AI slechts 26% van de tijd tegen een volledig willekeurige tegenstander. Dat is alsof je een schaker hebt die slechter speelt dan iemand die de stukken willekeurig over het bord gooit.

Waarom? Omdat de programmeur (de onderzoeker) per ongeluk vijf kleine foutjes had gemaakt in de regels van het spel:

  1. De "Goudkoorts" Fout: De AI kreeg te veel punten voor het vergrendelen van tegels. Het was alsof het spel zei: "Vergrendel één tegel en je krijgt een miljoen punten!" Hierdoor negeerde de AI alles wat belangrijk was (zoals het veroveren van ruimte) en probeerde hij alleen maar te vergrendelen.
  2. Het Vergeten van het Begin: Het spel duurde lang (250 stappen). De AI keek alleen naar het einde en vergeten wat hij in het begin had gedaan. Het was alsof je een boek leest en pas aan het einde begrijpt wat er in hoofdstuk 1 gebeurde.
  3. De Verwarde Zintuigen: De AI kreeg informatie in een chaotische vorm. Soms zag hij "stap 5" en soms "positie 9" door elkaar. Het was alsof je een auto bestuurt waarbij het gaspedaal soms de snelheidsmeter is en soms de radio.
  4. De Verkeerde Winnaar: Het spel telde de winnaar verkeerd uit omdat het de punten van de "Goudkoorts"-fout gebruikte in plaats van echt te tellen wie de meeste tegels had.
  5. Geen Prijs voor Winnen: De AI kreeg geen duidelijke beloning als hij daadwerkelijk won. Hij wist niet dat het doel was om te winnen, maar alleen dat hij tegels moest pakken.

Zodra deze fouten werden opgelost, werd de AI plotseling heel goed: hij won 73% van de wedstrijden tegen een willekeurige tegenstander.

2. De Verrassende Valstrik: "Competitive Overfitting"

Maar hier wordt het verhaal interessant. De onderzoeker liet de AI's nog langer tegen elkaar spelen. Je zou denken dat ze steeds beter werden, maar nee. Na verloop van tijd stortte hun prestatie in. Ze wonnen plotseling maar 21% van de tijd tegen een willekeurige tegenstander.

Dit noemt de paper Competitive Overfitting (of: te specifiek worden).

De Vergelijking:
Stel je voor dat Roze en Groen tegen elkaar trainen in een sportzaal.

  • Roze leert precies hoe Groen beweegt.
  • Groen leert precies hoe Roze beweegt.
  • Ze worden zo goed in het verslaan van elkaar dat ze een eigen, heel specifiek dansje hebben ontwikkeld.

Het probleem? Als je ze nu tegen een willekeurige vreemdeling zet (die dat specifieke dansje niet kent), weten ze niet meer wat ze moeten doen. Ze zijn te gespecialiseerd op hun tegenstander.

Het Gevaar:
Het ergste deel is dat dit onzichtbaar is. Als je alleen kijkt naar hoe Roze het doet tegen Groen, lijkt alles perfect: ze winnen en verliezen afwisselend (50/50). Het lijkt alsof ze nog steeds trainen, maar in werkelijkheid zijn ze vergeten hoe ze tegen iedereen moeten spelen. Het is alsof twee mensen die alleen maar met elkaar praten in een taal die niemand anders begrijpt; ze denken dat ze communiceren, maar ze zijn geïsoleerd.

3. De Simpele Oplossing: "De Willekeurige Tegenstander"

Hoe los je dit op? De onderzoeker deed iets heel simpels, een soort "remedie" die hij Opponent Mixing noemde.

Hij liet de AI's in 20% van de wedstrijden niet tegen elkaar spelen, maar tegen een willekeurige, domme tegenstander (een AI die alleen maar willekeurige moves maakt).

De Vergelijking:
Stel je voor dat je een pianist bent die alleen maar met een andere pianist oefent. Je wordt heel goed in het spelen van die ene melodie samen. Maar als je een concert geeft voor een publiek, faal je.
De oplossing? Laat de pianist af en toe spelen met iemand die de noten niet kent, of met een drumstel dat willekeurig slaat. Dit dwingt de pianist om zijn techniek aan te passen aan elke situatie, niet alleen aan zijn partner.

Door deze kleine toevoeging (slechts één regel code) gebeurde het wonder:

  • De AI's werden weer robuust.
  • Hun winpercentage tegen willekeurige tegenstanders steeg van 21% terug naar 77%.
  • Ze waren niet meer "gevangen" in hun eigen wereldje.

Wat leren we hieruit?

De belangrijkste les van dit paper is dat alleen tegen elkaar spelen niet genoeg is om slimme AI's te maken. Als je ze alleen tegen elkaar laat trainen, kunnen ze in een valstrik stappen waarin ze alleen maar goed worden in het verslaan van elkaar, maar slecht in het verslaan van de echte wereld.

Om echt slim te worden, moet je je AI's af en toe blootstellen aan "domme" of willekeurige tegenstanders. Dit zorgt ervoor dat ze generaliseren kunnen: ze leren principes die werken voor iedereen, niet alleen voor hun specifieke partner.

Kortom:

  1. Foutjes in de code kunnen AI's dom houden.
  2. Te veel trainen tegen elkaar kan AI's "vergeten" hoe ze tegen anderen moeten spelen (Competitive Overfitting).
  3. De oplossing is simpel: laat ze af en toe tegen een "domme" tegenstander spelen, zodat ze niet te specifiek worden.

De onderzoeker heeft het spel Territory Paint Wars gratis beschikbaar gesteld, zodat iedereen dit kan testen en leren van deze fouten. Het is een waarschuwing voor iedereen die AI's laat leren: zorg dat je niet alleen in een bubbel zit!

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →