Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models
O artigo apresenta o Code-Space Response Oracles (CSRO), um novo framework que substitui os oráculos de aprendizado por reforço tradicionais por Grandes Modelos de Linguagem (LLMs) para gerar políticas multiagente interpretáveis na forma de código, permitindo a descoberta de estratégias complexas e explicáveis com desempenho competitivo.