The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward

O artigo propõe o DPH-RL, um novo quadro de aprendizado por reforço com recompensa verificável que utiliza divergências f-cobertoras de massa (como a KL direta) para preservar a diversidade do modelo e mitigar o colapso de soluções, resolvendo simultaneamente a degradação do Pass@k e o esquecimento catastrófico sem a necessidade de um modelo de referência online.

Long Li, Zhijian Zhou, Jiaran Hao, Jason Klein Liu, Yanting Miao, Wei Pang, Xiaoyu Tan, Wei Chu, Zhe Wang, Shirui Pan, Chao Qu, Yuan Qi

Publicado 2026-03-04
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está treinando um aluno muito inteligente (o Modelo de Linguagem) para resolver problemas de matemática e escrever códigos de banco de dados. O objetivo é que ele não apenas acerte a resposta certa na primeira tentativa, mas que consiga pensar de várias maneiras diferentes para chegar a essa resposta.

O problema que os autores deste artigo descobriram é o seguinte: quando usamos o método padrão de "Reforço" (Reinforcement Learning) para treinar esses alunos, eles começam a ficar obcecados por uma única maneira de resolver as coisas.

O Problema: A "Cegueira de Túnel"

Pense no método tradicional (chamado de Reverse-KL) como um professor muito rígido que diz: "Se você não fizer exatamente como eu mostrei na primeira vez, você está errado. Esqueça todas as outras formas de pensar."

Isso tem um efeito colateral terrível:

  1. Perda de Diversidade: O aluno para de tentar soluções criativas. Se ele tentar 10 vezes, todas as 10 serão quase idênticas. Se a primeira estiver errada, as outras 9 também estarão.
  2. Esquecimento Catastrófico: O aluno começa a esquecer tudo o que sabia antes. Ele se torna tão focado no novo método que perde habilidades antigas e não consegue mais resolver problemas fora do que ele treinou (como um aluno que só sabe resolver equações de um livro específico, mas trava em uma prova diferente).

O artigo diz que a comunidade científica estava ignorando uma chave simples: a escolha de como medimos a "distância" entre o que o aluno pensa e o que ele deveria pensar.

A Solução: O "Repetidor de Aula" (DPH-RL)

Os autores propõem uma nova abordagem chamada DPH-RL. Em vez de punir o aluno por pensar diferente, eles usam uma técnica que funciona como um sistema de revisão constante.

Aqui está a analogia principal:

Imagine que o aluno tem um caderno de anotações antigo (o modelo original) cheio de soluções inteligentes e variadas.

  • O Método Antigo (Reverse-KL): O professor rasga o caderno antigo e diz: "Esqueça isso, faça só do meu jeito". O aluno perde a criatividade e fica rígido.
  • O Novo Método (DPH-RL): O professor diz: "Continue tentando novas soluções, mas toda vez que você for fazer um exercício, olhe para o seu caderno antigo e lembre-se de que existem várias formas de resolver isso".

Eles usam dois tipos de "revisão" (chamados de Forward-KL e JS-Divergence):

  1. A "Âncora" (Forward-KL): Funciona como um lembrete constante. Se o aluno começa a esquecer uma solução que ele sabia antes, esse método o "puxa" de volta, garantindo que ele não perca o conhecimento antigo. É como ter um professor que diz: "Lembre-se, você sabia resolver isso de 3 jeitos diferentes, não se limite a um só".
  2. A "Revisão Simétrica" (JS-Divergence): É um meio-termo mais equilibrado. Ele garante que o aluno explore coisas novas, mas sem se afastar tanto do que ele já sabia, mantendo um equilíbrio saudável entre o novo e o velho.

Como eles fazem isso na prática?

Eles dividem os problemas em duas caixas:

  1. Caixa de Exploração (Problemas Difíceis): Aqui, o aluno tem total liberdade para tentar de tudo, errar e aprender. Sem restrições.
  2. Caixa de "Mestre" (Problemas que ele já sabe): Aqui, eles aplicam a "revisão". O aluno é obrigado a lembrar das soluções que ele já dominava, garantindo que ele não esqueça e mantenha a diversidade de pensamento.

Os Resultados: O Aluno Vira um Polímata

Os testes mostraram que essa abordagem é incrível:

  • Mais Acertos: O aluno acerta mais na primeira tentativa (Pass@1) e, principalmente, acerta muito mais quando tem várias tentativas (Pass@k).
  • Não Esquece Nada: Diferente dos métodos antigos, o aluno não perde habilidades antigas. Ele continua bom em tudo o que já sabia.
  • Generalização: Ele consegue resolver problemas que nunca viu antes (fora da área de treino) muito melhor do que os outros métodos.

Resumo em uma frase

O artigo descobre que, para treinar IAs inteligentes, não devemos forçá-las a seguir apenas um caminho (o que as torna estúpidas e rígidas), mas sim usarmos um mecanismo de "revisão constante" que as obrigue a lembrar de todas as formas criativas que elas já conheciam, mantendo-as flexíveis, inteligentes e capazes de aprender sem esquecer o passado.

É como trocar um professor que exige obediência cega por um mentor que incentiva a criatividade enquanto garante que o aluno nunca perca o que já aprendeu.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →