Group-Relative REINFORCE Is Secretly an Off-Policy Algorithm: Demystifying Some Myths About GRPO and Its Friends

Este trabalho demonstra que o REINFORCE Relativo a Grupos (GRPO) possui uma interpretação nativa off-policy, desmistificando conceitos sobre amostragem de importância e clipping, unificando algoritmos recentes e oferecendo diretrizes teóricas e empíricas para o projeto de métodos off-policy em RL para LLMs.

Chaorui Yao, Yanxi Chen, Yuchang Sun, Yushuo Chen, Wenhao Zhang, Xuchen Pan, Yaliang Li, Bolin Ding

Publicado 2026-03-03
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está ensinando um robô superinteligente (um Modelo de Linguagem Grande, ou LLM) a resolver problemas matemáticos ou a agir como um agente autônomo. Para isso, você usa uma técnica chamada Aprendizado por Reforço (RL).

O método tradicional é como se o robô aprendesse apenas com a experiência que ele acabou de ter. Se ele errar, você o corrige na hora. Se ele acertar, você o elogia na hora. Isso é chamado de on-policy (na política). O problema? É lento e caro. Se o robô estiver aprendendo em um ambiente real, ele não pode esperar o professor chegar para corrigi-lo; ele precisa agir rápido.

Aqui entra a grande descoberta deste paper: Eles descobriram que um dos métodos mais populares hoje, chamado GRPO, na verdade já é um método "off-policy" (fora da política) disfarçado, e ninguém sabia disso direito.

Vamos descomplicar isso com algumas analogias:

1. O Mistério do "Grupo de Estudos" (O GRPO)

Imagine que você tem um grupo de 8 alunos estudando para uma prova.

  • O jeito antigo (On-Policy): O professor olha para o aluno A, vê que ele errou, e corrige apenas o aluno A. Depois olha para o B, corrige o B. É muito lento.
  • O jeito GRPO: O professor pega os 8 alunos, faz uma prova, e olha para a média da turma. Se o aluno A tirou nota acima da média, ele ganha um "prêmio". Se tirou abaixo, ele recebe uma "bronca".
    • A grande sacada do paper é: Eles provaram matematicamente que esse método de comparar com a média da turma funciona perfeitamente mesmo se os alunos tiverem estudado com livros diferentes ou em momentos diferentes. Ou seja, você não precisa que todos os dados venham do momento exato em que o professor está dando a aula. Você pode usar dados antigos, dados de outros grupos, e ainda assim aprender.

2. O Grande Equívoco: "O Cortador de Grama" vs. "O Freio de Segurança"

Por anos, os cientistas achavam que o GRPO funcionava porque usava uma técnica chamada "Importance Sampling" (amostragem de importância).

  • A analogia antiga: Eles pensavam que o algoritmo era como um tradutor que tentava "traduzir" dados antigos para a linguagem atual, ajustando tudo para ficar perfeito.
  • A descoberta do paper: Eles provaram que essa "tradução" (Importance Sampling) é quase inútil! O que realmente salva o dia é o Clipping (limitação).
    • A analogia do Clipping: Imagine que você está dirigindo um carro novo. O "Clipping" é o freio de segurança que impede você de acelerar demais se o carro antigo (os dados) estiver muito diferente do novo.
    • O resultado surpreendente: O paper mostra que você pode tirar o "freio" (o clipping) e deixá-lo muito mais solto do que se imaginava. Em vez de frear o carro a 10 km/h, você pode deixá-lo ir a 100 km/h e ainda assim não bater. Isso torna o aprendizado muito mais rápido e estável.

3. Duas Regras de Ouro para o Futuro

O paper sugere duas regras simples para melhorar esses robôs no futuro:

  1. Coloque um "Freio de Segurança" (Regularização): Não deixe o robô mudar de ideia de um dia para o outro. Se os dados forem ruins ou antigos, o algoritmo deve ser cauteloso e mudar devagar. O "Clipping" é esse freio.
  2. Seja um "Curador de Dados" (Moldar a Distribuição): Não aceite qualquer dado que aparecer.
    • Analogia: Imagine que você está treinando um atleta. Se ele fez um treino ruim (dados negativos), talvez seja melhor ignorar aquele treino específico e focar nos bons. Ou, se ele fez um treino incrível, dê mais peso a ele.
    • O paper mostra que algoritmos que "jogam fora" os dados ruins ou "amplificam" os dados bons funcionam melhor do que tentar usar tudo igualmente.

4. Desmistificando os "Gigantes"

O paper também olhou para dois algoritmos famosos (OPMD e AsymRE) e disse: "Eles acham que estão fazendo algo muito complexo, mas na verdade estão apenas fazendo a mesma coisa que o GRPO, só que com um nome diferente e um pouco de matemática extra".

  • É como se dois chefs dissessem que estão cozinhando pratos diferentes, mas o paper provou que ambos estão apenas usando a mesma receita básica, só que um adicionou um pouco mais de sal e o outro um pouco mais de pimenta.

Resumo Final: Por que isso importa?

Até hoje, ensinar robôs inteligentes era como tentar ensinar um aluno usando apenas o livro que ele acabou de abrir. Se o livro estivesse velho ou diferente, o método quebrava.

Este paper diz: "Ei, vocês podem usar livros velhos, livros de outros alunos e dados atrasados! O método GRPO já funciona assim, só precisava entender a matemática por trás."

Isso significa que no futuro:

  • Os robôs aprenderão mais rápido.
  • Poderemos usar dados do passado sem medo.
  • A infraestrutura (os computadores e servidores) ficará mais simples e barata, pois não precisaremos sincronizar tudo em tempo real.

É como descobrir que o motor do seu carro funciona melhor se você tirar um filtro que achava que era essencial, permitindo que ele corra mais livre e eficiente.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →