ExGRPO: Learning to Reason from Experience

O artigo apresenta o ExGRPO, um novo framework de aprendizado por reforço que identifica e prioriza experiências de raciocínio valiosas com base na correção e entropia, permitindo reutilizar dados passados para melhorar a estabilidade e o desempenho de modelos de linguagem em tarefas matemáticas e gerais de forma mais eficiente do que os métodos on-policy tradicionais.

Runzhe Zhan, Yafu Li, Zhi Wang, Xiaoye Qu, Dongrui Liu, Jing Shao, Derek F. Wong, Yu Cheng

Publicado 2026-03-03
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um robô superinteligente a resolver problemas de matemática complexos, como se fosse um aluno estudando para o vestibular.

O método tradicional (que a maioria das empresas usa hoje) é como se o robô lesse um livro de exercícios, tentasse resolver uma questão, recebesse uma nota, e jogasse o livro fora imediatamente. Depois, ele pega um livro novo, tenta de novo, recebe outra nota e joga fora. Isso é muito caro, demorado e ineficiente. O robô esquece o que aprendeu com os erros e acertos anteriores.

O papel que você apresentou, chamado ExGRPO, propõe uma mudança de mentalidade radical: não jogar o livro fora. Em vez disso, criar uma "biblioteca de experiências" e aprender com ela de forma inteligente.

Aqui está a explicação simplificada, usando analogias do dia a dia:

1. O Problema: O "Esquecimento" do Robô

No método antigo (chamado On-Policy), o robô gera várias respostas para uma pergunta. Se ele errar, ele descarta tudo. Se ele acertar, ele usa aquele acerto para se ajustar uma única vez e depois descarta.

  • Analogia: É como um jogador de xadrez que joga uma partida, perde, e queima o tabuleiro. Na próxima partida, ele joga como se nunca tivesse jogado antes. Ele não aprende com a experiência passada.

2. A Descoberta: Nem Todo "Caderno de Exercícios" é Igual

Os autores do ExGRPO perceberam que nem todas as tentativas do robô são igualmente valiosas. Eles descobriram dois segredos sobre quais experiências merecem ser guardadas na "biblioteca":

  • Dificuldade Média (O "Sweet Spot"):

    • Questões muito fáceis são chatas (o robô já sabe a resposta).
    • Questões muito difíceis são frustrantes (o robô chuta e erra tudo).
    • O Pulo do Gato: As questões de dificuldade média são as melhores. Elas desafiam o robô, mas estão no limite do que ele consegue aprender. É como um professor que só dá exercícios que o aluno consegue resolver com um pouco de esforço, nem muito fáceis, nem impossíveis.
  • A "Calma" do Pensamento (Entropia Baixa):

    • Às vezes, o robô acerta a resposta, mas o caminho que ele percorreu foi um caos de ideias confusas (como um aluno que chutou a resposta certa no final de um texto cheio de erros).
    • O ExGRPO olha para a "confusão" (entropia) do raciocínio. Se o raciocínio foi lógico, direto e calmo (baixa entropia), é um bom exemplo para guardar. Se foi um caos, mesmo que a resposta final tenha sido correta, é um "mau exemplo" que pode confundir o robô no futuro.
    • Analogia: Imagine dois alunos que tiraram 10 na prova. Um fez a prova com calma, passo a passo. O outro fez um monte de rabiscos, riscou tudo, e no final chutou o número certo. O ExGRPO prefere estudar o caderno do aluno calmo, porque o método de pensamento dele é o que realmente importa.

3. A Solução: A Biblioteca Inteligente (ExGRPO)

O ExGRPO cria um sistema de três etapas para gerenciar essa biblioteca de experiências:

  1. Coleta e Organização: O robô resolve problemas e guarda os que foram úteis. Ele separa esses problemas em "prateleiras" (buckets) baseadas na dificuldade. Ele joga fora os que são fáceis demais (já dominados) e os que são impossíveis.
  2. Seleção Inteligente: Quando é hora de estudar, o robô não pega qualquer coisa da biblioteca. Ele usa um filtro para pegar:
    • Problemas da prateleira de "dificuldade média".
    • Das respostas possíveis para aquele problema, ele escolhe apenas a que teve o raciocínio mais "calmo" e lógico (menor entropia).
  3. Estudo Misto: O robô estuda uma mistura de:
    • Novos problemas (para explorar e aprender coisas novas).
    • Velhos problemas da biblioteca (para reforçar o que já aprendeu e não esquecer).

4. O Resultado: Mais Rápido e Mais Estável

Ao fazer isso, o ExGRPO consegue:

  • Aprender mais rápido: Não desperdiça tempo com problemas fáceis ou com raciocínios confusos.
  • Ser mais estável: Robôs mais fracos (que normalmente desistem ou "quebram" quando tentam aprender sozinhos) conseguem evoluir porque podem revisar os acertos que tiveram no passado.
  • Economizar dinheiro: Como ele reusa os dados, precisa de menos poder de computação para atingir o mesmo resultado.

Resumo em uma frase

O ExGRPO é como um professor particular que não deixa o aluno jogar o caderno de exercícios fora; pelo contrário, ele organiza o caderno, destaca apenas as questões de dificuldade ideal e as soluções mais lógicas, e faz o aluno revisar esses pontos específicos para aprender de verdade, sem desperdício.

Em termos técnicos (mas simples): O ExGRPO transforma o aprendizado de reforço de um processo de "tentativa e descarte" em um processo de "curadoria e revisão", garantindo que o modelo aprenda com as experiências mais valiosas e lógicas que ele mesmo gerou.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →