LLMs Can Learn to Reason Via Off-Policy RL

Este trabalho apresenta o OAPL, um novo algoritmo de aprendizado por reforço off-policy que supera métodos anteriores ao permitir um treinamento eficiente e eficaz em LLMs mesmo com atrasos de mais de 400 etapas entre as políticas de treinamento e inferência, resultando em melhor desempenho em benchmarks de matemática e codificação com menos gerações.

Daniel Ritter, Owen Oertell, Bradley Guo, Jonathan Chang, Kianté Brantley, Wen Sun

Publicado 2026-03-03
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um aluno muito inteligente (o Modelo de Linguagem ou LLM) a resolver problemas de matemática complexa ou a escrever códigos de computador. Para isso, você usa um método chamado Aprendizado por Reforço (RL).

A ideia tradicional é como se o aluno fosse a um professor, tentasse resolver um problema, recebesse uma nota e, em seguida, o professor atualizasse o conhecimento do aluno imediatamente para a próxima tentativa. Isso é chamado de aprendizado "on-policy" (na política atual). O problema é que, em grandes sistemas de IA, isso é lento e difícil de organizar.

Aqui está o que a equipe deste artigo descobriu e propôs, explicado de forma simples:

O Problema: O "Atraso" na Comunicação

Na vida real, esses sistemas de IA são gigantes. Eles têm uma "máquina de treino" (o professor) e uma "máquina de geração" (o aluno que escreve as respostas).

  • O cenário atual: A máquina de geração está sempre um pouco atrasada em relação ao professor. Ela está usando uma versão um pouco mais antiga do conhecimento do professor.
  • A consequência: O professor está tentando corrigir o aluno baseando-se em respostas que o aluno já não daria mais se estivesse com o conhecimento atual. É como tentar ensinar um jogador de futebol usando as regras de 1990, enquanto o jogador já joga com as regras de 2024.
  • A solução antiga: Para consertar isso, os cientistas tentavam forçar o sistema a ser "on-line" (sincronizado), o que deixava o treinamento lento, ou usavam cálculos matemáticos complexos (chamados de "amostragem por importância") para tentar adivinhar como corrigir esse atraso. Isso muitas vezes causava instabilidade, como se o aluno ficasse confuso e parasse de aprender.

A Solução: OAPL (Aceitando o Atraso)

Os autores propõem um novo método chamado OAPL. Em vez de brigar com o atraso ou tentar corrigi-lo com fórmulas complicadas, eles dizem: "Vamos aceitar que o atraso existe e trabalhar com ele!"

Eles criaram uma abordagem que trata o atraso não como um erro, mas como uma característica natural do sistema.

A Analogia do "Treinador de Futebol e o Vídeo Atrasado"

Imagine um treinador de futebol (o algoritmo) analisando os lances de um jogo.

  1. Método Antigo (GRPO): O treinador exige que o jogador faça o lance exatamente como ele está pensando agora. Se o jogador demorar para receber a instrução, o treinador fica nervoso, tenta corrigir com regras estranhas e o time perde o ritmo.
  2. Método OAPL: O treinador diz: "Ok, você fez esse lance com a estratégia que você tinha 10 minutos atrás. Eu vou analisar esse lance, comparar com o que você faria hoje e te dar um feedback baseado nessa diferença."

O OAPL usa uma fórmula matemática inteligente que diz: "Não importa se você fez isso com o conhecimento antigo. Vamos calcular o quanto essa resposta foi boa e ajustar sua estratégia para que, da próxima vez, você faça melhor, mantendo a calma e sem entrar em pânico."

Por que isso é incrível? (Os Resultados)

  1. Mais Rápido e Eficiente: Como não precisam esperar o sistema todo sincronizar perfeitamente, eles podem treinar muito mais rápido. No teste de código, o novo método usou 3 vezes menos exemplos para chegar ao mesmo nível de um modelo famoso chamado DeepCoder. É como aprender a dirigir usando 3 vezes menos gasolina.
  2. Mais Estável: O método antigo (GRPO) às vezes "colapsa", ou seja, o modelo fica tão confuso que esquece como falar corretamente (perde a "entropia"). O OAPL mantém o modelo criativo e estável, mesmo com grandes atrasos (até 400 passos de diferença!).
  3. Melhor em "Adivinhar" (Pass@k): Em testes de matemática, quando pedimos para o modelo tentar várias vezes para acertar (Pass@k), o OAPL funciona muito melhor. É como se o aluno, ao ter mais liberdade para tentar diferentes abordagens, encontrasse a solução correta mais vezes.

Resumo da Ópera

O papel diz que não precisamos que o professor e o aluno estejam perfeitamente sincronizados para aprender bem.

Ao invés de gastar energia tentando forçar a sincronia perfeita (o que é caro e lento), o novo método (OAPL) abraça o fato de que o aluno está sempre um pouco "atrasado" e cria um sistema de ensino que funciona perfeitamente nessa condição. O resultado é um modelo de IA que aprende a raciocinar de forma mais rápida, barata e estável.

É como se a equipe tivesse descoberto que, para ensinar um gênio, não precisa ser um professor rígido e síncrono; basta ser um mentor que sabe lidar com o tempo e usar o atraso a seu favor.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →