LLMs Can Learn to Reason Via Off-Policy RL

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um aluno muito inteligente (o Modelo de Linguagem ou LLM) a resolver problemas de matemática complexa ou a escrever códigos de computador. Para isso, você usa um método chamado Aprendizado por Reforço (RL).

A ideia tradicional é como se o aluno fosse a um professor, tentasse resolver um problema, recebesse uma nota e, em seguida, o professor atualizasse o conhecimento do aluno imediatamente para a próxima tentativa. Isso é chamado de aprendizado "on-policy" (na política atual). O problema é que, em grandes sistemas de IA, isso é lento e difícil de organizar.

Aqui está o que a equipe deste artigo descobriu e propôs, explicado de forma simples:

O Problema: O "Atraso" na Comunicação

Na vida real, esses sistemas de IA são gigantes. Eles têm uma "máquina de treino" (o professor) e uma "máquina de geração" (o aluno que escreve as respostas).

O cenário atual: A máquina de geração está sempre um pouco atrasada em relação ao professor. Ela está usando uma versão um pouco mais antiga do conhecimento do professor.
A consequência: O professor está tentando corrigir o aluno baseando-se em respostas que o aluno já não daria mais se estivesse com o conhecimento atual. É como tentar ensinar um jogador de futebol usando as regras de 1990, enquanto o jogador já joga com as regras de 2024.
A solução antiga: Para consertar isso, os cientistas tentavam forçar o sistema a ser "on-line" (sincronizado), o que deixava o treinamento lento, ou usavam cálculos matemáticos complexos (chamados de "amostragem por importância") para tentar adivinhar como corrigir esse atraso. Isso muitas vezes causava instabilidade, como se o aluno ficasse confuso e parasse de aprender.

A Solução: OAPL (Aceitando o Atraso)

Os autores propõem um novo método chamado OAPL. Em vez de brigar com o atraso ou tentar corrigi-lo com fórmulas complicadas, eles dizem: "Vamos aceitar que o atraso existe e trabalhar com ele!"

Eles criaram uma abordagem que trata o atraso não como um erro, mas como uma característica natural do sistema.

A Analogia do "Treinador de Futebol e o Vídeo Atrasado"

Imagine um treinador de futebol (o algoritmo) analisando os lances de um jogo.

Método Antigo (GRPO): O treinador exige que o jogador faça o lance exatamente como ele está pensando agora. Se o jogador demorar para receber a instrução, o treinador fica nervoso, tenta corrigir com regras estranhas e o time perde o ritmo.
Método OAPL: O treinador diz: "Ok, você fez esse lance com a estratégia que você tinha 10 minutos atrás. Eu vou analisar esse lance, comparar com o que você faria hoje e te dar um feedback baseado nessa diferença."

O OAPL usa uma fórmula matemática inteligente que diz: "Não importa se você fez isso com o conhecimento antigo. Vamos calcular o quanto essa resposta foi boa e ajustar sua estratégia para que, da próxima vez, você faça melhor, mantendo a calma e sem entrar em pânico."

Por que isso é incrível? (Os Resultados)

Mais Rápido e Eficiente: Como não precisam esperar o sistema todo sincronizar perfeitamente, eles podem treinar muito mais rápido. No teste de código, o novo método usou 3 vezes menos exemplos para chegar ao mesmo nível de um modelo famoso chamado DeepCoder. É como aprender a dirigir usando 3 vezes menos gasolina.
Mais Estável: O método antigo (GRPO) às vezes "colapsa", ou seja, o modelo fica tão confuso que esquece como falar corretamente (perde a "entropia"). O OAPL mantém o modelo criativo e estável, mesmo com grandes atrasos (até 400 passos de diferença!).
Melhor em "Adivinhar" (Pass@k): Em testes de matemática, quando pedimos para o modelo tentar várias vezes para acertar (Pass@k), o OAPL funciona muito melhor. É como se o aluno, ao ter mais liberdade para tentar diferentes abordagens, encontrasse a solução correta mais vezes.

Resumo da Ópera

O papel diz que não precisamos que o professor e o aluno estejam perfeitamente sincronizados para aprender bem.

Ao invés de gastar energia tentando forçar a sincronia perfeita (o que é caro e lento), o novo método (OAPL) abraça o fato de que o aluno está sempre um pouco "atrasado" e cria um sistema de ensino que funciona perfeitamente nessa condição. O resultado é um modelo de IA que aprende a raciocinar de forma mais rápida, barata e estável.

É como se a equipe tivesse descoberto que, para ensinar um gênio, não precisa ser um professor rígido e síncrono; basta ser um mentor que sabe lidar com o tempo e usar o atraso a seu favor.

Each language version is independently generated for its own context, not a direct translation.

Título: LLMs Podem Aprender a Raciocinar via RL Off-Policy

Autores: Daniel Ritter, Owen Oertell, Bradley Guo, Jonathan D. Chang, Kianté Brantley, Wen Sun.
Afilições: Cornell University, Databricks, Harvard University.

1. O Problema: A Falácia "On-Policy" no Treinamento de RL para LLMs

O artigo identifica uma contradição fundamental na aplicação atual de Aprendizado por Reforço (RL) para o pós-treinamento de Grandes Modelos de Linguagem (LLMs), especialmente em tarefas de raciocínio (como matemática e codificação).

O Pressuposto On-Policy: Algoritmos modernos de RL, como PPO e GRPO (Group Relative Policy Optimization), teoricamente assumem que os dados de treinamento são gerados pela mesma política que está sendo otimizada (política on-policy).
A Realidade Off-Policy: Na infraestrutura prática de treinamento distribuído, existe uma desconexão inevitável entre o Treinador (que calcula os gradientes) e o Motor de Inferência (que gera as respostas, ex: vLLM).
- Diferenças de Kernel: Mesmo com os mesmos pesos, as implementações de kernel diferentes podem produzir log-probabilidades distintas para a mesma sequência.
- Atraso Assíncrono (Policy Lag): Em pipelines assíncronos, o motor de inferência pode estar usando uma versão antiga dos pesos do treinador (atraso de centenas de passos de gradiente).
Consequências: Isso torna os dados inerentemente off-policy. A literatura anterior tentou corrigir isso tentando forçar os dados a parecerem on-policy, utilizando:
1. Importance Sampling (IS): Adicionando pesos para corrigir a distribuição, o que introduz alta variância no gradiente.
2. Sincronização Rigorosa: Modificando motores de inferência para reduzir o atraso, o que torna o treinamento mais lento e não resolve completamente o problema em arquiteturas assíncronas.

O artigo questiona: Algoritmos on-policy são realmente necessários?

2. Metodologia: OAPL (Optimal Advantage-based Policy Optimization with Lagged Inference)

Os autores propõem o OAPL, um algoritmo de RL off-policy que abraça a natureza assíncrona do treinamento em vez de combatê-la.

Fundamentação Teórica

O OAPL é baseado na formulação de RL regularizada por KL (Kullback-Leibler). O objetivo é maximizar a recompensa $r$ enquanto minimiza a divergência KL em relação à política de inferência atual ( $\pi_{vllm}$ ), e não a uma política de referência fixa antiga.

A solução ótima para essa formulação tem uma forma fechada:
$\pi^*(y|x) \propto \pi_{vllm}(y|x) \exp(r(x, y)/\beta)$

O Algoritmo

O OAPL deriva um objetivo de regressão quadrática que elimina a necessidade de importance sampling ou clipping:

Estimativa de Valor ( $\hat{V}^*$ ): Em vez de usar um baseline constante ou uma rede auxiliar, o valor ótimo é estimado diretamente a partir de um grupo (rollout) de amostras geradas pela política de inferência $\pi_{vllm}$ :
$\hat{V}^*(x) = \beta \ln \left( \frac{1}{G} \sum_{i=1}^G \exp(r(x, y_i)/\beta) \right)$
Isso permite estimar o valor esperado sob a distribuição de amostragem atual.
Objetivo de Otimização: O algoritmo minimiza o erro quadrático entre a vantagem ótima estimada e a vantagem logarítmica da política atual:
$\min_{\pi} \sum_{x, i} \left( \beta \ln \frac{\pi(y_i|x)}{\pi_{vllm}(y_i|x)} - (r(x, y_i) - \hat{V}^*(x)) \right)^2$
Pipeline Assíncrono (Lagged Inference):
- O motor de inferência ( $\pi_{vllm}$ ) gera dados assincronamente e os armazena em um buffer.
- O treinador ( $\pi$ ) atualiza os pesos usando esses dados (que podem ser de uma política antiga).
- Sincronização Rara: Os pesos do treinador e do motor de inferência são sincronizados apenas periodicamente (ex: a cada 50 ou 100 passos, ou até 400 passos em experimentos de código).
- Entre sincronizações, o algoritmo opera puramente off-policy, usando a política de inferência antiga como referência de KL no objetivo.

3. Contribuições Principais

Desafio ao Paradigma On-Policy: Demonstra empiricamente e teoricamente que o pós-treinamento de LLMs não requer dados on-policy para ser estável ou eficaz.
Algoritmo OAPL: Propõe um método simples, sem necessidade de importance sampling, clipping de razões de probabilidade ou exclusão de tokens/amostras.
Eficiência Computacional e de Amostra: O OAPL permite o uso de dados gerados com grandes atrasos (lag), permitindo treinamento totalmente assíncrono e reutilização de dados antigos, reduzindo drasticamente o custo computacional.
Estabilidade de Entropia: Ao contrário do GRPO, que tende a sofrer colapso de entropia (o modelo torna-se muito confiante e perde diversidade), o OAPL mantém uma entropia saudável devido à regularização KL explícita contra a política de inferência atual.

4. Resultados Experimentais

Os autores avaliaram o OAPL em benchmarks de matemática competitiva e geração de código.

A. Raciocínio Matemático (AIME 2025, HMMT 2025, BRUMO 2025)

Desempenho: O OAPL superou consistentemente o baseline GRPO (com importance sampling) em todas as métricas Pass@k (Pass@1, Pass@5, Pass@10).
Estabilidade: As curvas de treinamento mostraram que o OAPL converge para uma acurácia mais alta e com menor variância.
Entropia: O GRPO sofreu colapso de entropia durante o treinamento, enquanto o OAPL manteve a diversidade da distribuição, o que contribuiu para melhor desempenho em Pass@k para $k > 1$ .
Escalabilidade Pass@k: O OAPL demonstrou melhor escalabilidade ao aumentar $k$ (número de tentativas), indicando que o modelo aprendeu a gerar soluções diversas e corretas, não apenas a "afinar" a distribuição base.

B. Geração de Código (LiveCodeBench)

Comparação com DeepCoder: O modelo treinado com OAPL igualou ou superou o desempenho do DeepCoder (um modelo de código de ponta treinado com GRPO e heurísticas complexas).
Eficiência de Amostra: O OAPL alcançou desempenho equivalente usando 3x menos gerações durante o treinamento (~200k amostras vs ~650k do DeepCoder).
Robustez ao Atraso: O algoritmo funcionou estável com um atraso de política (lag) de até 400 passos de gradiente entre o treinador e a inferência, sem necessidade de importance sampling.

5. Significado e Conclusão

O trabalho "LLMs Can Learn to Reason Via Off-Policy RL" representa uma mudança de paradigma na otimização de LLMs:

Viabilidade do Off-Policy: Confirma que métodos off-policy clássicos (analogamente a DDPG/SAC em robótica) podem ser adaptados com sucesso para LLMs, superando as limitações de estabilidade dos métodos on-policy (PPO/GRPO) em ambientes distribuídos.
Simplicidade e Escala: O OAPL remove a complexidade de heurísticas de correção (clipping, filtros de tokens, importance sampling), oferecendo um pipeline de treinamento mais simples, escalável e eficiente.
Futuro: Abre caminho para o uso de dados offline massivos (incluindo dados humanos) e treinamento assíncrono em larga escala, onde a sincronização perfeita entre geração e treinamento não é um pré-requisito, mas sim uma otimização opcional.

Em resumo, o artigo prova que abraçar a natureza off-policy do treinamento distribuído de LLMs leva a modelos de raciocínio mais estáveis, eficientes e performáticos.