DRPO: Efficient Reasoning via Decoupled Reward Policy Optimization

O artigo apresenta o DRPO, um novo framework de otimização que desacopla os sinais de recompensa de comprimento para respostas corretas e incorretas, permitindo que modelos de raciocínio reduzam significativamente o comprimento das respostas sem comprometer a precisão, superando assim as limitações de métodos anteriores que penalizavam excessivamente raciocínios válidos mas longos.

Gang Li, Yan Chen, Ming Lin, Tianbao Yang

Publicado 2026-03-03
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um assistente de IA muito inteligente, capaz de resolver problemas de matemática complexos. O problema é que, às vezes, esse assistente é demasiado detalhista.

Se você perguntar: "Quanto é 2 mais 2?", ele não responde apenas "4". Em vez disso, ele escreve um romance inteiro: "Bem, vamos pensar... 2 é um número par... se eu somar 2 a 2, estou basicamente juntando dois grupos... espera, será que devo verificar se há pegadinhas? Vou revisar minha lógica... Ah, sim, 2 mais 2 é 4. Mas espere, e se eu estiver errado? Vou pensar de novo..."

Esse comportamento é chamado de "superpensamento" (ou overthinking). Ele gasta muita energia do computador, demora muito para responder e, pior, pode acabar confundindo o próprio assistente, fazendo-o perder a confiança na resposta correta.

O artigo que você enviou apresenta uma solução brilhante chamada DRPO (Otimização de Política de Recompensa Desacoplada). Vamos entender como funciona com uma analogia simples.

O Problema: O Jogo da Comparação (GRPO)

Atualmente, para treinar esses assistentes a serem mais rápidos, os cientistas usam um método chamado GRPO. Imagine que o GRPO é como um professor de educação física que dá uma prova de corrida para 6 alunos ao mesmo tempo.

  1. O professor olha para todos os 6 alunos.
  2. Ele calcula a média de tempo de todos.
  3. Se um aluno correu rápido, mas não foi o mais rápido da turma, o professor pode dizer: "Você foi rápido, mas como a média da turma foi muito boa, você está abaixo da média. Vou te dar uma nota negativa."

Onde está o erro?
Se um aluno correu muito bem e acertou a resposta (resposta correta), mas demorou um pouco mais que os outros, o sistema antigo punia ele. O sistema dizia: "Sua resposta está certa, mas como você demorou, sua nota cai abaixo da média da turma. Você é um 'aluno ruim' hoje."

Isso é terrível! O assistente aprende que respostas corretas e longas são ruins, então ele para de pensar direito e começa a dar respostas erradas apenas para ser rápido. É como se o professor dissesse: "Melhor chutar o gol errado rápido do que pensar e acertar devagar."

A Solução: O DRPO (O Professor Justo)

Os autores do paper criaram o DRPO. Eles mudaram a regra do jogo para que o professor seja justo.

Em vez de comparar todos os alunos (os bons e os ruins) juntos, o DRPO separa os grupos:

  1. Grupo dos "Acertos": O professor olha apenas para os alunos que acertaram a resposta.
  2. Grupo dos "Erros": O professor olha apenas para os que erraram.

Agora, a regra é:

  • Dentro do Grupo dos Acertos, o professor compara quem foi mais rápido. Se você acertou, mas demorou muito, ele diz: "Ótimo que você acertou! Mas tente ser mais rápido na próxima. Sua nota continua positiva, só que um pouco menor."
  • O aluno NUNCA recebe uma nota negativa só por ter acertado, mesmo que tenha demorado. Ele é protegido da comparação com os alunos que erraram.

A Analogia da Cozinha:
Imagine que você é um chef.

  • Método Antigo: Você pede 6 pratos. Se o prato 3 está delicioso, mas demorou 10 minutos para sair (enquanto o prato 1 saiu em 2 minutos), você joga o prato 3 fora porque "foi mais lento que a média". O cozinheiro aprende a não cozinhar bem, apenas a sair rápido.
  • Método DRPO: Você separa os pratos bons dos ruins. Entre os pratos bons, você diz: "Esse aqui está ótimo, mas demorou. Vamos tentar fazer igual de bom, mas em 5 minutos na próxima vez." O prato nunca é jogado fora só por ser lento, desde que seja bom.

O Resultado Mágico

Com essa nova regra (DRPO), os assistentes de IA aprenderam a ser eficientes sem perder a inteligência.

  • Antes: Para responder "2 + 2", o modelo escrevia 1.000 palavras de pensamento.
  • Com DRPO: O mesmo modelo responde em poucas palavras, mantendo a precisão.

Nos testes com matemática, o DRPO conseguiu reduzir o tamanho das respostas em 77% em perguntas simples (como o conjunto de dados GSM8k), com uma perda de desempenho de apenas 1,1%. Ou seja, o assistente ficou muito mais rápido e barato de rodar, quase sem perder a capacidade de resolver problemas difíceis.

Resumo em uma frase

O DRPO é como um treinador inteligente que ensina a IA a parar de dar voltas desnecessárias (pensar demais) sem puni-la por ter acertado a resposta, garantindo que ela seja rápida e precisa ao mesmo tempo.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →