Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está organizando um grande torneio de jogos, como xadrez, pôquer ou até mesmo "Pedra, Papel e Tesoura". O objetivo é criar um robô (um agente de inteligência artificial) que seja o melhor jogador possível, capaz de vencer qualquer estratégia que o oponente use.

Até agora, a maneira de fazer isso era como treinar um atleta de elite usando apenas prática e repetição. Você jogava milhões de vezes contra outros robôs, e o computador aprendia por tentativa e erro. O problema? O "cérebro" desse robô era uma caixa preta. Ele sabia jogar muito bem, mas ninguém conseguia entender como ele tomava as decisões. Era como se ele tivesse um instinto mágico, mas não pudesse explicar sua lógica. Se ele cometesse um erro, era impossível saber por quê.

Este novo artigo, da Google DeepMind, propõe uma revolução: trocar o "treinamento cego" pela "engenharia de código".

Aqui está a explicação simples do que eles chamam de CSRO (Oráculos de Resposta no Espaço de Código):

1. A Ideia Principal: O Programador vs. O Atleta

Em vez de deixar o computador aprender jogando milhões de vezes (o que é lento e cria uma "caixa preta"), os pesquisadores usaram um Modelo de Linguagem Grande (LLM) — basicamente, um super-inteligente que sabe escrever código de computador.

O Antigo Método (RL): É como treinar um cachorro. Você dá um biscoito quando ele acerta e uma bronca quando erra. Ele aprende a fazer o movimento, mas não sabe por que.
O Novo Método (CSRO): É como pedir a um engenheiro humano (o LLM) para escrever o manual de instruções do jogo. Você diz: "Ei, aqui estão as regras e aqui está como o oponente joga. Escreva um programa (código) que vença esse oponente."

2. Como Funciona a Mágica?

O processo é como um ciclo de criação, teste e melhoria:

O Desafio: O sistema olha para o "meta-jogo" (a mistura de estratégias que os outros robôs estão usando).
O Pedido: Ele pede ao LLM: "Escreva um código Python que seja a melhor resposta para vencer essa mistura de estratégias."
A Criação: O LLM não apenas chuta um movimento; ele escreve um programa completo. Esse programa é o "robô".
O Teste: O novo robô (o código) joga contra os outros.
A Melhoria (O Segredo): Se o robô perde, o sistema não apenas joga de novo. Ele pega o código, mostra onde errou e pede ao LLM: "Olha, você perdeu aqui. Reescreva o código para corrigir esse erro."

Isso acontece de duas formas:

Refinamento Linear: O LLM tenta consertar o código sozinho, linha por linha, até ficar bom.
AlphaEvolve (A Evolução): Imagine uma "fazenda de ideias". O sistema cria dezenas de versões levemente diferentes do código, testa todas, pega as melhores e as mistura para criar uma versão ainda melhor, como se fosse evolução biológica, mas com software.

3. Por que isso é incrível? (A Analogia do Manual de Instruções)

A maior vantagem é a transparência.

No método antigo: O robô joga e vence. Você pergunta: "Por que você fez aquele movimento?" Ele responde (mentalmente): "Porque meus pesos neurais disseram para fazer". Você não entende nada.
No método CSRO: O robô é um código que você pode ler. Você abre o arquivo e vê comentários como: "Se o oponente jogar Pedra 3 vezes seguidas, ele é previsível. Vamos jogar Papel. Mas se ele começar a mudar, vamos mudar nossa estratégia para não sermos enganados."

É como se, em vez de ter um jogador que joga por instinto, você tivesse um engenheiro de estratégia que deixou um diário de bordo escrito à mão, explicando cada pensamento.

4. Os Resultados

Os pesquisadores testaram isso em dois jogos:

Pedra, Papel e Tesoura (Repetido): O sistema criou um robô que analisava padrões complexos e até simulava o que o oponente estava pensando sobre ele (Teoria da Mente). O código era legível e explicava exatamente como ele ganhava.
Pôquer (Leduc Hold'em): O sistema aprendeu a fazer blefes inteligentes e a calcular riscos, tudo escrito em código que um humano poderia revisar e entender.

Resumo em uma Frase

O CSRO transforma a criação de inteligência artificial de um processo de "tentativa e erro cego" em um processo de engenharia de software colaborativa, onde a IA escreve seu próprio manual de instruções, tornando-a não apenas forte, mas também explicável e confiável.

É como se, em vez de criar um gênio que não sabe falar, eles criassem um gênio que escreve um livro sobre como pensou, permitindo que todos aprendam com ele.

Each language version is independently generated for its own context, not a direct translation.

Título: Code-Space Response Oracles (CSRO): Gerando Políticas Multi-Agente Interpretáveis com Grandes Modelos de Linguagem

1. Problema e Motivação

O campo da Inteligência Artificial multi-agente, fundamentado na teoria dos jogos, busca calcular equilíbrios robustos (como Equilíbrio de Nash) em jogos complexos. O método predominante para isso é o Policy-Space Response Oracles (PSRO). No entanto, o PSRO tradicional enfrenta duas limitações críticas:

Opacidade ("Black-Box"): Os oráculos de melhor resposta (best-response oracles) são tipicamente redes neurais treinadas por Aprendizado por Reforço (RL). Essas políticas são difíceis de interpretar, depurar ou confiar, o que impede sua aplicação em cenários de alto risco onde a explicabilidade é crucial.
Ineficiência de Amostragem: O treinamento de RL requer milhões ou bilhões de simulações para convergir, tornando o processo computacionalmente custoso.

O objetivo deste trabalho é superar o trade-off entre desempenho e interpretabilidade, substituindo os oráculos de RL por Grandes Modelos de Linguagem (LLMs) que geram políticas diretamente como código-fonte executável e legível por humanos.

2. Metodologia: Code-Space Response Oracles (CSRO)

O CSRO reinterpreta o cálculo da "melhor resposta" não como uma otimização numérica de parâmetros de rede neural, mas como uma tarefa de síntese de programas.

Funcionamento do Algoritmo

O CSRO segue a estrutura iterativa do PSRO, mas com uma mudança fundamental no oráculo:

Contexto Dinâmico: Em cada iteração, o LLM recebe um prompt contendo:
- Regras do jogo e especificações da API.
- Descrição ou código-fonte das estratégias atuais dos oponentes (meta-estratégia $\sigma$ ).
- Instruções para gerar um código Python que maximize a utilidade esperada contra a mistura atual de oponentes.
Geração de Código: O LLM produz uma função (política) que mapeia observações para ações.
Refinamento Iterativo: O sistema não apenas gera o código uma vez; ele emprega mecanismos de feedback para refinar a estratégia.

Mecanismos de Refinamento do Oráculo

O artigo propõe três variantes para melhorar a qualidade das políticas geradas:

Zero-Shot: O LLM gera a política diretamente sem feedback de desempenho.
LinearRefinement: Um loop interno onde, se a política gerada tiver utilidade negativa (perder), o LLM recebe o feedback de erro e regenera o código para corrigi-lo, repetindo até atingir um desempenho não negativo ou esgotar o orçamento.
AlphaEvolve: Um sistema evolutivo distribuído onde múltiplas threads de LLMs mutam e evoluem programas em paralelo, selecionando as variantes com maior pontuação (score) para as próximas gerações. Isso permite a descoberta de estratégias complexas e diversificadas.

Abstração de Contexto

Para lidar com jogos complexos onde o código de todos os oponentes excederia a janela de contexto do LLM, o CSRO utiliza abstração de contexto. Em vez de injetar todo o código-fonte, o sistema pode resumir o comportamento dos oponentes em linguagem natural ou filtrar apenas os oponentes mais relevantes (Top-K) para o prompt.

3. Contribuições Principais

Novo Framework (CSRO): Introdução de um método que substitui oráculos de RL por LLMs geradores de código, tornando as políticas inerentemente interpretáveis.
Validação Rigorosa: Diferente de trabalhos anteriores que faziam apenas comparações internas, o CSRO foi validado contra populações externas padronizadas e solvers de teoria dos jogos (como CFR+).
Descoberta de Estratégias Humanas: Demonstração de que os LLMs podem sintetizar estratégias sofisticadas (como "Teoria da Mente" e modelagem de oponentes) que se assemelham a raciocínios humanos, sem necessidade de treinamento específico do zero.
Eficiência Computacional: Redução drástica no número de chamadas ao modelo em comparação com agentes que consultam o LLM a cada passo do jogo; no CSRO, o LLM é usado apenas para gerar a política, que depois é executada localmente.

4. Resultados Experimentais

Os experimentos foram realizados em dois ambientes: Repetido Pedra-Papel-Tesoura (RRPS) e Pôquer Leduc Repetido.

Desempenho em Pedra-Papel-Tesoura (RRPS)

Comparação: O CSRO foi comparado com PSRO-IMPALA (RL) e agentes baseados em LLMs (Gemma 3).
Resultados:
- A variante AlphaEvolve alcançou a menor explorabilidade (25.2), indicando robustez contra a população de oponentes.
- A variante LinearRefinement (com código) obteve a melhor pontuação agregada (122.1), competindo de forma favorável com o agente LLM de 27B parâmetros (126.0).
- O CSRO superou significativamente o baseline de RL (PSRO-IMPALA) em todas as métricas.
- Interpretabilidade: A melhor estratégia gerada foi um agente de "ensemble" com 32 preditores, incluindo modelos de Markov de alta ordem e um módulo de "Teoria da Mente" de segunda ordem, tudo visível no código-fonte.

Desempenho em Pôquer Leduc Repetido

Comparação: Contra CFR+ (solução ótima teórica) e estratégias heurísticas.
Resultados:
- O CSRO-AlphaEvolve alcançou um retorno populacional (PopReturn) de 49.3 e uma explorabilidade de 4.4, competindo diretamente com o CFR+.
- O sistema demonstrou capacidade de exploração adaptativa: contra oponentes previsíveis (ex: "AlwaysCall"), o agente aprendeu a fazer apostas de valor (value betting) agressivas; contra oponentes passivos ("AlwaysFold"), aprendeu a blefar incessantemente.
- As políticas geradas mostraram uma síntese transparente de modelagem de oponentes e cálculo de Valor Esperado (EV).

5. Significado e Conclusão

O trabalho representa uma mudança de paradigma no aprendizado multi-agente:

Da Otimização de Pesos para a Síntese de Algoritmos: Em vez de otimizar parâmetros opacos de uma rede neural, o foco muda para a síntese de comportamentos algorítmicos explicáveis.
Viabilidade Prática: O CSRO oferece uma alternativa viável e eficiente para aplicações onde a confiança e a explicabilidade são tão importantes quanto o desempenho bruto (ex: negociação automática, segurança cibernética).
Limitações: O desempenho ainda depende da capacidade do LLM subjacente e da qualidade do prompt. Além disso, a escalabilidade para jogos com espaços de observação massivos (como StarCraft) permanece um desafio devido às limitações de janela de contexto.

Em suma, o CSRO demonstra que os LLMs podem atuar como oráculos de melhor resposta eficazes, gerando políticas que não apenas competem com métodos de RL tradicionais, mas que são transparentes, verificáveis e capazes de raciocínio estratégico de alto nível.