Generative Adversarial Reasoner: Enhancing LLM Reasoning with Adversarial Reinforcement Learning
O artigo apresenta o "Generative Adversarial Reasoner", um framework de aprendizado por reforço on-policy que aprimora o raciocínio de modelos de linguagem ao co-evoluir um gerador e um discriminador adversariais, gerando recompensas densas e calibradas em nível de passo que superam os sinais esparsos tradicionais e resultam em ganhos significativos em benchmarks matemáticos como o AIME24.