Territory Paint Wars: Diagnosing and Mitigating Failure Modes in Competitive Multi-Agent PPO

Each language version is independently generated for its own context, not a direct translation.

Das große Farben-Kriegs-Spiel: Warum KI-Agenten manchmal dumm werden

Stell dir ein einfaches Brettspiel vor, das wie ein digitales Gemälde funktioniert. Zwei Spieler, einer pink und einer grün, laufen auf einem 10x10-Raster herum. Ihr Ziel? Sie müssen so viele Kacheln wie möglich „anmalen". Wenn sie auf einer Kachel stehen, wird sie ihre Farbe. Einmal können sie eine Kachel auch „sperren" (wie einen Zaun bauen), damit der Gegner sie nie mehr erobern kann. Wer am Ende die meisten Kacheln hat, gewinnt.

Ein Forscher namens Diyansha Singh hat dieses Spiel programmiert, um zu testen, wie gut künstliche Intelligenz (KI) lernt, wenn sie gegen sich selbst spielt. Das Ergebnis war überraschend: Die KI war am Anfang so schlecht, dass sie schlechter war als ein zufälliger Affe, der einfach blind herumklickt.

Warum? Und wie hat er sie gerettet? Hier ist die Geschichte in fünf Teilen:

1. Der chaotische Start: Warum die KI versagte

Am Anfang war die KI total verwirrt. Es war, als würde man einem Schüler Mathematik beibringen, aber die Rechenaufgaben wären in einer fremden Sprache und die Belohnung für eine richtige Antwort wäre eine winzige Mücke, während eine falsche Antwort einen Elefanten auf den Kopf fallen lässt.

Der Forscher fand fünf kleine Fehler im Code, die alles durcheinanderbrachten:

Der falsche Belohnungs-Überschuss: Die KI bekam für das Sperren von Kacheln so viel „Punkte" gegeben, dass sie nur noch sperrte und vergaß, das eigentliche Spiel zu gewinnen. Es war wie ein Spieler, der nur noch die Uhrzeit ansieht, weil er dafür extra Geld bekommt, aber das Spiel selbst verliert.
Das vergessene Ende: Die KI wusste nicht, dass das Spiel ein Ende hat und es einen Gewinner gibt. Sie lief einfach weiter, ohne zu wissen, wofür sie kämpfte.
Die vergessene Vergangenheit: Die KI konnte nicht gut zurückblicken. Wenn sie in Runde 1 eine gute Entscheidung traf, vergaß sie das in Runde 250. Es war, als würde man einen Schüler loben, aber erst 250 Tage später – dann ist der Lerneffekt weg.
Die verwirrte Sicht: Die KI sah die Welt in wilden Zahlenmix (z. B. Positionen von 0-9 gemischt mit verbleibenden Runden von 0-250). Das war wie ein Koch, der Zucker und Mehl in einem Haufen mischt und nicht weiß, was was ist.
Der falsche Sieger: Das System zählte die Punkte falsch und entschied den Gewinner basierend auf den chaotischen Belohnungen statt auf den tatsächlichen Kacheln.

Sobald diese fünf Fehler behoben waren, wurde die KI plötzlich sehr gut – sie gewann gegen einen zufälligen Gegner in 73,5 % der Fälle.

2. Das neue Problem: Der „Spiegel-Reflex" (Competitive Overfitting)

Aber dann passierte etwas Seltsames. Die KI wurde weiter trainiert, indem sie gegen ihre eigene Version spielte.
Stell dir vor, zwei Boxer trainieren nur gegeneinander. Nach einer Weile kennen sie sich so gut, dass sie sich perfekt ausbalancieren. Sie wissen genau, wie der andere schlägt, und blocken jeden Schlag. Sie sind in einem perfekten Gleichgewicht.

Das Problem: Wenn man einen dieser Boxer jetzt gegen einen ganz neuen, zufälligen Gegner (einen Anfänger) kämpfen lässt, verliert er! Warum? Weil er sich so sehr auf den einen Gegner spezialisiert hat, dass er vergisst, wie man gegen jeden anderen kämpft.

In der KI-Wissenschaft nennt man das „Competitive Overfitting".

Das Tückische: Wenn man nur auf das Training schaut (KI gegen KI), sieht alles super aus. Sie gewinnen immer 50 % der Spiele gegeneinander. Das Signal ist: „Alles läuft gut!"
Die Realität: Wenn man sie gegen einen zufälligen Gegner testet, stürzt ihre Gewinnrate von 73 % auf 21 % ab. Sie sind so spezialisiert, dass sie gegen normale Gegner völlig versagen.

3. Die Lösung: Der „Zufalls-Gegner"

Wie löst man das? Der Forscher hatte eine geniale, einfache Idee: Opponent Mixing (Gegner-Mischen).

Stell dir vor, du trainierst für einen Marathon. Wenn du nur gegen deinen besten Freund läufst, wirst du perfekt auf seine Lauftaktik abgestimmt. Aber wenn du im Rennen gegen völlig andere Läufer triffst, scheiterst du.
Die Lösung: Lass während des Trainings in 20 % der Fälle nicht deinen Freund gegen dich laufen, sondern einen zufälligen Passanten, der einfach wild herumläuft.

Der Effekt: Die KI muss sich nicht nur auf ihren perfekten Spiegelbild-Gegner einstellen. Sie muss lernen, Strategien zu entwickeln, die auch gegen chaotische, zufällige Gegner funktionieren.
Das Ergebnis: Die KI wurde wieder robust. Ihre Gewinnrate gegen zufällige Gegner stieg von den katastrophalen 21 % zurück auf 77 %.

4. Was wir daraus lernen (Die wichtigsten Erkenntnisse)

Dieses Papier zeigt uns drei wichtige Dinge für das Training von KI:

Details zählen: Kleine Fehler im Code (wie die falsche Punktzahl) können dazu führen, dass eine KI schlechter ist als ein Zufallsgenerator. Man muss genau hinschauen.
Selbstspiel ist nicht genug: Wenn zwei KIs nur gegeneinander spielen, können sie in einer „Blase" gefangen sein. Sie werden zwar besser gegeneinander, aber schlechter für die echte Welt. Man muss sie regelmäßig gegen „fremde" Gegner testen.
Vielfalt ist der Schlüssel: Um eine starke KI zu bekommen, muss man sie mit verschiedenen Arten von Gegnern konfrontieren. Ein bisschen Chaos im Training (zufällige Gegner) macht die KI widerstandsfähiger.

Fazit

Der Forscher hat ein kleines Spiel gebaut, um zu zeigen, wie leicht KI in die Irre gehen kann. Er hat gezeigt, dass man KI nicht nur „laufen lassen" darf, sondern dass man die Trainingsbedingungen genau steuern muss. Die wichtigste Lektion? Lass deine KI nicht nur gegen sich selbst kämpfen, sondern gib ihr auch mal einen wilden, zufälligen Gegner, damit sie nicht vergisst, wie man gegen die echte Welt spielt.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Paper adressiert ein weit verbreitetes Problem im Bereich des kompetitiven Multi-Agenten-Reinforcement-Learning (MARL): Standard-Algorithmen wie Proximal Policy Optimization (PPO), die erfolgreich in Einzelagenten-Umgebungen oder kooperativen Szenarien eingesetzt werden, scheitern oft in einfachen kompetitiven Umgebungen.

Die zentrale Hypothese ist, dass das Scheitern nicht unbedingt an der Komplexität des Spiels liegt, sondern an einer Kombination aus Implementierungsfehlern und einem subtilen, bisher wenig untersuchten Phänomen namens „Competitive Overfitting" (Wettbewerbs-Überanpassung).

Das Problem: Ein Agent, der nur gegen sich selbst trainiert (Self-Play), entwickelt Strategien, die spezifisch auf den aktuellen Partner zugeschnitten sind, aber gegen externe Gegner (z. B. zufällige Agenten) versagen.
Die Tücke: Dieser Generalisierungsverlust ist durch Standard-Metriken (wie die Gewinnrate im Self-Play) unsichtbar, da sich beide Agenten symmetrisch anpassen und die Self-Play-Win-Rate stabil bei ca. 50 % bleibt, während die Leistung gegen externe Gegner einbricht.

2. Methodik und Umgebung

Der Autor entwickelte eine neue, minimale Benchmark-Umgebung namens Territory Paint Wars, implementiert in Unity mit einer Python-Steuerung über TCP.

Spielmechanik: Ein deterministisches Nullsummenspiel auf einem 10x10-Raster. Zwei Agenten (Pink und Grün) beginnen an symmetrischen Positionen. In jedem Schritt können sie sich bewegen oder das aktuelle Feld „sperren" (lock). Gesperrte Felder können nicht mehr zurückgewonnen werden. Das Ziel ist es, nach 250 Schritten die meisten Felder zu kontrollieren.
Zustandsraum: 206 Dimensionen (Positionen, Kartenbesitz, Sperr-Masken, verbleibende Schritte).
Belohnungsfunktion: Bestehend aus Territoriumsgewinn (+0.1 pro Feld), Sperr-Bonus (+0.5 pro neuer Sperre) und einem terminalen Sieg/Verlust-Signal (+1/-1).

Der experimentelle Ansatz:

Basislinie (v1): Ein PPO-Agent wurde ohne Korrekturen trainiert und zeigte katastrophales Verhalten (26,8 % Gewinnrate gegen einen zufälligen Gegner).
Ablationsstudie: Systematisches Identifizieren und Beheben von fünf Implementierungsfehlern (v2).
Erkennung des Overfitting: Nach der Korrektur der Fehler trat ein neuer Zusammenbruch der Generalisierung auf (v2 bei 12.000 Episoden).
Lösung (v3): Einführung von Opponent Mixing (Einmischen eines zufälligen Gegners in 20 % der Episoden), um das Overfitting zu mitigieren.

3. Identifizierte Fehlermodi (Failure Modes)

Das Paper identifiziert sechs kritische Fehlerquellen, die zu dem Misserfolg führen:

A. Implementierungsfehler (v1 bis v2)

Diese fünf Fehler führten dazu, dass der Agent schlechter als ein zufälliger Gegner spielte:

Reward-Scale Explosion: Der Sperr-Bonus wurde kumulativ berechnet, was zu extrem hohen Belohnungswerten (bis ±10.000) führte, die das eigentliche Spielziel (Territoriumsgewinn) und das Sieg-Signal überdeckten.
- Fix: Umstellung auf inkrementelle Belohnung pro neuem Sperr-Feld.
Fehlendes terminales Signal: Der Sieg/Verlust wurde nicht belohnt.
- Fix: Hinzufügen von ±1,0 am Ende des Spiels.
Ineffiziente Kreditvergabe (GAE vs. Monte Carlo): Bei einer Episodenlänge von 250 Schritten und einem Diskontfaktor $\gamma=0.99$ $γ = 0.99$ wird der Vorteil früher Aktionen (die für den Sieg entscheidend sind) durch reine Monte-Carlo-Rückrechnung auf fast Null gedämpft ( $0.99^{249} \approx 0.08$ $0.9 9^{249} \approx 0.08$ ).
- Fix: Einsatz von Generalized Advantage Estimation (GAE) mit $\lambda=0.95$ , um den Gradienten über die gesamte Episode zu verteilen.
Nicht-normalisierte Beobachtungen: Rohdaten (Positionen 0–9) wurden mit anderen Skalen (Schritte 0–250) gemischt, was zu numerischer Instabilität führte.
- Fix: Skalierung aller Eingaben auf den Bereich [0, 1].
Falsche Sieg-Erkennung: Der Gewinner wurde fälschlicherweise anhand der kumulierten Belohnung (die durch den Reward-Scale-Bug korrupt war) bestimmt, nicht anhand der tatsächlichen Felder.
- Fix: Gewinnerbestimmung durch Zählen der Felder im Board-Status.

B. Emergentes Phänomen: Competitive Overfitting (v2)

Nachdem die Implementierungsfehler behoben waren, erreichte der Agent zunächst 73,5 % Gewinnrate gegen einen zufälligen Gegner. Bei weiterem Training (bis 12.000 Episoden) kollabierte diese Rate jedoch auf 21,6 %.

Ursache: Die Agenten passten sich zu spezifisch aneinander an (Co-Adaptation) und entwickelten eine Nash-Gleichgewichts-Strategie, die nur gegen den spezifischen Partner funktioniert, aber gegen allgemeine Strategien (wie zufällige Agenten) versagt.
Diagnose: Die Self-Play-Win-Rate blieb dabei stabil bei ~50 %, was den Zusammenbruch der Generalisierung maskierte.

4. Lösung und Ergebnisse

Die Lösung: Opponent Mixing

Um das Competitive Overfitting zu verhindern, wurde eine minimale Intervention eingeführt: In 20 % der Trainingsepisoden ( $\epsilon = 0.2$ ) wurde der adaptive Gegner durch einen uniform-random Policy ersetzt.

Dies zwingt den Agenten, Strategien zu entwickeln, die robust gegenüber verschiedenen Gegner-Typen sind, und verhindert die Hyper-Spezialisierung auf den aktuellen Partner.
Es erfordert keine Population-basierte Infrastruktur oder zusätzliche Speicher.

Ergebnisse

Wiederherstellung der Generalisierung: Mit Opponent Mixing (v3) stieg die mittlere Gewinnrate gegen zufällige Gegner (über 10 Seeds) von 21,6 % (v2 kollabiert) auf 77,1 % (±12,6 %).
Bestes Seed: Ein einzelnes Seed erreichte 93,9 %.
Ablationsstudie (Kritische Abhängigkeiten):
- Entfernen von GAE, Observation Normalisation oder Opponent Mixing führte jeweils dazu, dass die Leistung unter die des ursprünglichen fehlerhaften Baseline (26,8 %) fiel (auf 9,6 %, 12,6 % bzw. 21,6 %). Diese drei Komponenten sind also individuell kritisch.
- Entfernen des terminalen Rewards führte hingegen zu einer Leistung von 87,1 %. Dies zeigt, dass dichte Schritt-für-Schritt-Belohnungen (Territorium + Sperren) ausreichen, wenn die anderen drei Fixes vorhanden sind. Der terminale Reward ist komplementär, aber nicht zwingend notwendig.

5. Bedeutung und Beitrag

Das Paper leistet mehrere wichtige Beiträge zur MARL-Forschung:

Benchmark: Open-Source-Veröffentlichung von Territory Paint Wars als reproduzierbare Benchmark für kompetitives MARL ohne Abhängigkeit von Unity ML-Agents.
Diagnose von Implementierungsfehlern: Systematische Aufklärung, wie scheinbar kleine Bugs (Skalierung, Normalisierung, GAE-Nutzung) zu katastrophalem Versagen führen können.
Entdeckung von Competitive Overfitting: Das Paper macht das Phänomen explizit, bei dem Self-Play-Metriken täuschen können. Es empfiehlt periodische externe Evaluation gegen feste Baselines als Standardpraxis.
Effiziente Gegenmaßnahme: Opponent Mixing wird als einfache, aber hochwirksame Methode vorgestellt, um Generalisierung ohne komplexe Population-basierte Trainingsverfahren zu sichern.
Asymmetrie der Fixes: Die Studie zeigt, dass nicht alle Korrekturen gleichgewichtig sind; einige (GAE, Normalisierung, Mixing) verhindern das vollständige Versagen des Lernprozesses, während andere (terminaler Reward) nur die Leistung verfeinern.

Fazit:
Die Arbeit demonstriert, dass Self-Play allein in kompetitiven Umgebungen nicht ausreicht, um robuste Generalisierung zu gewährleisten. Durch die Kombination aus korrekter Implementierung (GAE, Normalisierung) und der Aufrechterhaltung von Gegner-Vielfalt (Opponent Mixing) können stabile und generalisierbare Agenten auch in einfachen Umgebungen entwickelt werden.

Territory Paint Wars: Diagnosing and Mitigating Failure Modes in Competitive Multi-Agent PPO

Das große Farben-Kriegs-Spiel: Warum KI-Agenten manchmal dumm werden

1. Der chaotische Start: Warum die KI versagte

2. Das neue Problem: Der „Spiegel-Reflex" (Competitive Overfitting)

3. Die Lösung: Der „Zufalls-Gegner"

4. Was wir daraus lernen (Die wichtigsten Erkenntnisse)

Fazit

1. Problemstellung

2. Methodik und Umgebung

3. Identifizierte Fehlermodi (Failure Modes)

A. Implementierungsfehler (v1 bis v2)

B. Emergentes Phänomen: Competitive Overfitting (v2)

4. Lösung und Ergebnisse

Die Lösung: Opponent Mixing

Ergebnisse

5. Bedeutung und Beitrag

Mehr davon

A Theory-guided Weighted L2L^2L2 Loss for solving the BGK model via Physics-informed neural networks

Enhancing sample efficiency in reinforcement-learning-based flow control: replacing the critic with an adaptive reduced-order model

Cactus: Accelerating Auto-Regressive Decoding with Constrained Acceptance Speculative Sampling

Prune-Quantize-Distill: An Ordered Pipeline for Efficient Neural Network Compression

Learning-Based Multi-Criteria Decision Making Model for Sawmill Location Problems

A Theory-guided Weighted $L^2$ Loss for solving the BGK model via Physics-informed neural networks