Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models
El artículo presenta CSRO, un marco innovador que sustituye los oráculos de aprendizaje por refuerzo tradicionales por modelos de lenguaje grandes para generar políticas multiagente interpretables y codificadas en código humano legible, logrando un rendimiento competitivo mientras facilita la comprensión y depuración de las estrategias.