Territory Paint Wars: Diagnosing and Mitigating Failure Modes in Competitive Multi-Agent PPO

Each language version is independently generated for its own context, not a direct translation.

🎨 A Guerra das Cores: Quando a Inteligência Artificial "Estuda Demais" e Esquece Tudo

Imagine que você tem dois robôs, um Rosa e um Verde, jogando um jogo de tabuleiro em uma grade 10x10. O objetivo é simples: quem pintar mais quadrados com a sua cor no final ganha. Eles podem andar ou "trancar" um quadrado (impedindo que o outro pinte).

O pesquisador (um estudante de ensino médio chamado Diyansha Singh) tentou ensinar esses robôs a jogarem sozinhos, um contra o outro, usando uma técnica de aprendizado chamada PPO. A ideia era que, ao jogarem milhões de vezes, eles se tornariam mestres do jogo.

Mas algo estranho aconteceu. O resultado foi um desastre total. Vamos ver por que, passo a passo.

1. O Desastre Inicial: Os Robôs "Aprendiam" o Jeito Errado

No começo, os robôs eram tão ruins que perdiam até para um oponente que apenas escolhia movimentos aleatórios (como jogar um dado). A taxa de vitória era de apenas 26,8%.

O pesquisador descobriu que o código tinha 5 "bugs" (erros de programação) que confundiam os robôs. Pense nisso como se você estivesse tentando ensinar alguém a dirigir, mas:

O velocímetro estava quebrado: O robô recebia recompensas gigantescas por coisas pequenas, como se cada passo valesse 10.000 pontos, enquanto ganhar o jogo valia apenas 1. Ele ficava louco tentando ganhar esses pontos extras e esquecia de ganhar a partida.
A memória era curta demais: O robô não conseguia lembrar que uma decisão tomada no início do jogo (passo 1) era importante para o resultado final (passo 250). Era como se ele esquecesse o que fez 5 minutos atrás.
Os sentidos estavam confusos: As informações que o robô recebia (sua posição, o tempo restante) estavam em escalas diferentes e bagunçadas, como tentar ler um mapa onde "1 metro" é representado por "1000 quilômetros".

A Solução: O pesquisador corrigiu esses 5 erros. De repente, os robôs ficaram ótimos! Eles ganhavam de um oponente aleatório em 73,5% das vezes. Parecia que o problema estava resolvido.

2. A Grande Surpresa: A "Síndrome do Espelho" (Competitive Overfitting)

Aqui vem a parte mais interessante. O pesquisador deixou os robôs treinarem mais um pouco, apenas um contra o outro (sem o oponente aleatório).

O que aconteceu? Os robôs continuaram ganhando de si mesmos (50% de vitória, como era esperado).
O problema: Quando ele os testou contra o oponente aleatório novamente, a taxa de vitória caiu para 21,6%. Eles ficaram piores do que antes!

A Analogia do "Treino de Tênis":
Imagine dois tenistas, o Rosa e o Verde, treinando juntos todos os dias.

No começo, eles jogam bem contra qualquer um.
Com o tempo, o Rosa descobre que o Verde sempre joga para o canto esquerdo. O Rosa começa a focar apenas em defender o canto esquerdo.
O Verde, percebendo isso, começa a focar apenas em jogar para a direita.
Eles ficam tão especializados em jogar um contra o outro que criam um "idioma secreto" de movimentos.
O desastre: Se você colocar o Rosa para jogar contra um iniciante aleatório, o Rosa vai tentar defender o canto esquerdo o tempo todo, enquanto o iniciante joga para o meio. O Rosa perde porque ele "estudou demais" o seu parceiro de treino e esqueceu como jogar contra qualquer outra pessoa.

Isso é o que o artigo chama de "Competitive Overfitting" (Sobreajuste Competitivo). O sistema de monitoramento não avisou nada, porque, para eles, o jogo parecia perfeito (50% de vitória um contra o outro).

3. A Solução Mágica: O "Oponente Aleatório"

Como consertar isso sem criar uma equipe gigante de robôs? O pesquisador fez uma mudança simples, como se fosse um "remédio de uma linha de código".

Ele introduziu a Mistura de Oponentes:

Em 20% das partidas de treino, ele substituiu o robô Verde (que aprendia) por um robô que só fazia movimentos aleatórios.
Isso forçou o robô Rosa a não focar apenas nas manhas do Verde. Ele precisava aprender estratégias que funcionassem contra qualquer um, inclusive contra o "caos" do movimento aleatório.

O Resultado:
A taxa de vitória contra o oponente aleatório subiu de 21,6% (péssimo) para 77,1% (excelente). E o melhor: os robôs continuaram jogando bem um contra o outro.

📝 O Que Aprendemos com Isso?

Não confie apenas no "Placar Interno": Se você treina dois robôs um contra o outro, eles podem parecer ótimos, mas estar perdendo a capacidade de jogar contra o mundo real. Você precisa testá-los contra algo fixo e diferente (como um oponente aleatório) regularmente.
Pequenos erros de código são catastróficos: Um erro na escala de recompensas ou na normalização dos dados pode fazer um sistema inteligente parecer burro.
A simplicidade funciona: Você não precisa de sistemas complexos de "liga de jogadores" para evitar que os robôs fiquem "viciados" em um único oponente. Apenas misturar um pouco de aleatoriedade no treino resolve o problema.

Em resumo: O artigo mostra como um jogo simples de pintar o chão revelou que, na Inteligência Artificial, treinar apenas contra si mesmo pode te deixar cego para o mundo real, e que às vezes, a melhor solução é apenas "jogar contra um iniciante" de vez em quando para manter a mente afiada.

Each language version is independently generated for its own context, not a direct translation.

Título: Territory Paint Wars: Diagnóstico e Mitigação de Modos de Falha em PPO Multi-Agente Competitivo

1. Problema e Contexto

O aprendizado por reforço multi-agente competitivo (MARL) é uma área ativa, onde o self-play (auto-jogo) tem produzido agentes super-humanos em jogos complexos como Go e StarCraft II. No entanto, na prática, a aplicação de algoritmos padrão de RL de agente único (como PPO - Proximal Policy Optimization) em ambientes competitivos frequentemente falha, mesmo em tarefas simples.

O artigo identifica que as causas dessas falhas são difusas e difíceis de isolar, envolvendo problemas como especificação incorreta de recompensas, atribuição de crédito ineficiente e instabilidade no treinamento. O objetivo do trabalho é tornar essas causas concretas através de um ambiente de teste minimalista e sistematicamente diagnosticar e corrigir modos de falha que levam agentes a performar pior que o acaso.

2. Metodologia e Ambiente

O Ambiente: Territory Paint Wars

Os autores desenvolveram um ambiente competitivo minimalista, chamado Territory Paint Wars, implementado no Unity com uma interface TCP personalizada para Python (sem dependência do ML-Agents).

Regras: Dois agentes (Rosa e Verde) jogam em uma grade 10x10. Eles começam em posições simétricas e agem simultaneamente.
Ações: Mover-se em quatro direções ou "trancar" (lock) a célula atual. Células trancadas não podem ser retomadas pelo oponente.
Objetivo: Controlar a maioria das células após 250 passos.
Recompensas: Ganho de território (+0.1 por célula), bônus por trancamento (+0.5 por nova trava) e recompensa terminal (+1/-1).

Abordagem Experimental

Os autores treinaram agentes PPO em um cenário de self-play e realizaram uma análise de falhas em duas fases:

Diagnóstico de Bugs de Implementação (v1): Identificação de cinco erros de codificação que impediam o aprendizado.
Investigação de Falhas Emergentes (v2/v3): Após corrigir os bugs, os autores observaram um novo fenômeno de falha chamado "Overfitting Competitivo" e propuseram uma mitigação via "Mistura de Oponentes" (Opponent Mixing).

3. Principais Contribuições e Descobertas

O artigo identifica seis modos de falha distintos, sendo cinco bugs de implementação e um fenômeno emergente de self-play.

A. Modos de Falha de Implementação (v1)

Um agente PPO "vanilla" (v1) atingiu apenas 26,8% de taxa de vitória contra um oponente aleatório (devido a bugs). As correções foram:

Explosão de Escala de Recompensa: Um bug cumulativo fazia com que o bônus de trancamento dominasse o sinal de recompensa (chegando a ±10.000), sufocando outros sinais. Correção: Limitar o bônus a novas travas por passo.
Sinal Terminal Ausente: Sem recompensa explícita de vitória/derrota, o agente não aprendia o objetivo final. Correção: Adicionar ±1.0 no passo final.
Atribuição de Crédito Ineficaz: O uso de retornos Monte Carlo puros em episódios longos (250 passos) com $\gamma=0.99$ reduzia o gradiente dos primeiros passos a quase zero ( $\approx 0.08$ ). Correção: Implementação de GAE (Generalized Advantage Estimation) com $\lambda=0.95$ .
Observações Não Normalizadas: A mistura de dados de posição (0-9) com passos restantes (0-250) causava instabilidade numérica. Correção: Normalização de todas as entradas para [0, 1].
Detecção Incorreta de Vitória: O vencedor era determinado pela recompensa acumulada (corrompida pelo bug de escala) em vez de contar as células. Correção: Contar células diretamente da observação.

B. O Fenômeno Emergente: Overfitting Competitivo (v2)

Mesmo após corrigir os 5 bugs acima, o agente (v2) apresentou um colapso na generalização:

O Fenômeno: Após atingir 73,5% de vitória contra um oponente aleatório, a taxa caiu para 21,6% após mais treinamento, enquanto a taxa de vitória no self-play permanecia estável em ~50%.
Causa: Os dois agentes co-adaptaram-se excessivamente, desenvolvendo estratégias hiper-especializadas para vencer o parceiro específico, mas falhando contra qualquer oponente fora dessa distribuição (como um agente aleatório).
Falha de Monitoramento: A métrica padrão de self-play (50%) não sinalizou o colapso, pois ambos os agentes se adaptaram igualmente.

C. Solução: Mistura de Oponentes (v3)

Para mitigar o overfitting competitivo, os autores propuseram uma intervenção mínima:

Mecanismo: Em 20% dos episódios ( $\epsilon=0.2$ ), o oponente co-adaptativo é substituído por uma política uniformemente aleatória.
Resultado: Isso força o agente a manter estratégias generalizáveis, impedindo a especialização excessiva contra um único parceiro.

4. Resultados Experimentais

Os resultados foram validados através de 10 sementes (seeds) e estudos de ablação:

Recuperação da Generalização:
- v1 (Bugs): 26,8% vs. Aleatório.
- v2 (Corrigido, sem mistura): Colapso para 21,6% vs. Aleatório (apesar de 50% no self-play).
- v3 (Com Mistura de Oponentes): Recuperação para 77,1% ± 12,6% (média de 10 sementes) vs. Aleatório. A melhor semente atingiu 93,9%.
Estudo de Ablação (Contribuição de cada correção):
A remoção de qualquer um dos três componentes críticos (GAE, Normalização de Observação, Mistura de Oponentes) fez o desempenho cair abaixo da linha de base quebrada (v1):
- Sem GAE: 9,6% (O agente aprende uma política prejudicial).
- Sem Normalização: 12,6% (O overfitting ocorre mais rápido).
- Sem Mistura de Oponentes: 21,6% (Colapso do overfitting competitivo).
- Recompensa Terminal: Curiosamente, sua remoção resultou em 87,1%, indicando que, com as outras correções, as recompensas densas por passo são suficientes para aprender uma política robusta, tornando a recompensa terminal complementar, mas não estritamente necessária.

5. Significado e Conclusão

O artigo fornece um caso de estudo empírico e reprodutível sobre por que o PPO falha em cenários competitivos simples e como corrigi-lo.

Insight Principal: O self-play sozinho é insuficiente para garantir generalização robusta em MARL competitivo. A monitorização baseada apenas na taxa de vitória no self-play é enganosa, pois pode esconder um colapso total na generalização (overfitting competitivo).
Recomendação Prática: A avaliação periódica contra uma base de referência externa (como um agente aleatório) é essencial.
Solução Minimalista: A técnica de "Mistura de Oponentes" (substituir o oponente por aleatório em uma fração dos episódios) é uma solução leve, sem necessidade de treinamento baseado em populações complexas ou armazenamento de checkpoints históricos, que restaura a generalização com sucesso.

O código do ambiente Territory Paint Wars foi aberto como um benchmark para ajudar pesquisadores a diagnosticar e evitar modos de falha similares em seus próprios projetos de RL multi-agente.