The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está treinando um aluno muito inteligente (o Modelo de Linguagem) para resolver problemas de matemática e escrever códigos de banco de dados. O objetivo é que ele não apenas acerte a resposta certa na primeira tentativa, mas que consiga pensar de várias maneiras diferentes para chegar a essa resposta.

O problema que os autores deste artigo descobriram é o seguinte: quando usamos o método padrão de "Reforço" (Reinforcement Learning) para treinar esses alunos, eles começam a ficar obcecados por uma única maneira de resolver as coisas.

O Problema: A "Cegueira de Túnel"

Pense no método tradicional (chamado de Reverse-KL) como um professor muito rígido que diz: "Se você não fizer exatamente como eu mostrei na primeira vez, você está errado. Esqueça todas as outras formas de pensar."

Isso tem um efeito colateral terrível:

Perda de Diversidade: O aluno para de tentar soluções criativas. Se ele tentar 10 vezes, todas as 10 serão quase idênticas. Se a primeira estiver errada, as outras 9 também estarão.
Esquecimento Catastrófico: O aluno começa a esquecer tudo o que sabia antes. Ele se torna tão focado no novo método que perde habilidades antigas e não consegue mais resolver problemas fora do que ele treinou (como um aluno que só sabe resolver equações de um livro específico, mas trava em uma prova diferente).

O artigo diz que a comunidade científica estava ignorando uma chave simples: a escolha de como medimos a "distância" entre o que o aluno pensa e o que ele deveria pensar.

A Solução: O "Repetidor de Aula" (DPH-RL)

Os autores propõem uma nova abordagem chamada DPH-RL. Em vez de punir o aluno por pensar diferente, eles usam uma técnica que funciona como um sistema de revisão constante.

Aqui está a analogia principal:

Imagine que o aluno tem um caderno de anotações antigo (o modelo original) cheio de soluções inteligentes e variadas.

O Método Antigo (Reverse-KL): O professor rasga o caderno antigo e diz: "Esqueça isso, faça só do meu jeito". O aluno perde a criatividade e fica rígido.
O Novo Método (DPH-RL): O professor diz: "Continue tentando novas soluções, mas toda vez que você for fazer um exercício, olhe para o seu caderno antigo e lembre-se de que existem várias formas de resolver isso".

Eles usam dois tipos de "revisão" (chamados de Forward-KL e JS-Divergence):

A "Âncora" (Forward-KL): Funciona como um lembrete constante. Se o aluno começa a esquecer uma solução que ele sabia antes, esse método o "puxa" de volta, garantindo que ele não perca o conhecimento antigo. É como ter um professor que diz: "Lembre-se, você sabia resolver isso de 3 jeitos diferentes, não se limite a um só".
A "Revisão Simétrica" (JS-Divergence): É um meio-termo mais equilibrado. Ele garante que o aluno explore coisas novas, mas sem se afastar tanto do que ele já sabia, mantendo um equilíbrio saudável entre o novo e o velho.

Como eles fazem isso na prática?

Eles dividem os problemas em duas caixas:

Caixa de Exploração (Problemas Difíceis): Aqui, o aluno tem total liberdade para tentar de tudo, errar e aprender. Sem restrições.
Caixa de "Mestre" (Problemas que ele já sabe): Aqui, eles aplicam a "revisão". O aluno é obrigado a lembrar das soluções que ele já dominava, garantindo que ele não esqueça e mantenha a diversidade de pensamento.

Os Resultados: O Aluno Vira um Polímata

Os testes mostraram que essa abordagem é incrível:

Mais Acertos: O aluno acerta mais na primeira tentativa (Pass@1) e, principalmente, acerta muito mais quando tem várias tentativas (Pass@k).
Não Esquece Nada: Diferente dos métodos antigos, o aluno não perde habilidades antigas. Ele continua bom em tudo o que já sabia.
Generalização: Ele consegue resolver problemas que nunca viu antes (fora da área de treino) muito melhor do que os outros métodos.

Resumo em uma frase

O artigo descobre que, para treinar IAs inteligentes, não devemos forçá-las a seguir apenas um caminho (o que as torna estúpidas e rígidas), mas sim usarmos um mecanismo de "revisão constante" que as obrigue a lembrar de todas as formas criativas que elas já conheciam, mantendo-as flexíveis, inteligentes e capazes de aprender sem esquecer o passado.

É como trocar um professor que exige obediência cega por um mentor que incentiva a criatividade enquanto garante que o aluno nunca perca o que já aprendeu.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: DPH-RL e a Mitigação do Colapso de Diversidade em RLVR

1. O Problema: O Paradoxo do RLVR e o Colapso de Diversidade

O artigo aborda uma contradição central no ajuste fino (fine-tuning) de Modelos de Linguagem de Grande Escala (LLMs) usando Reinforcement Learning with Verifiable Reward (RLVR):

A Contradição: Embora o RLVR melhore consistentemente a precisão em uma única tentativa (Pass@1), ele frequentemente degrada o desempenho quando múltiplas tentativas são permitidas (Pass@k).
O Fenômeno: Isso é acompanhado por esquecimento catastrófico, onde o modelo perde habilidades previamente adquiridas e a diversidade de soluções colapsa. O modelo tende a se sobrecarregar em caminhos de solução conhecidos, sacrificando a exploração de novas abordagens.
A Causa Raiz Ignorada: A comunidade focou excessivamente em controlar a entropia ou otimizar métricas de Pass@k diretamente, negligenciando o papel fundamental da divergência de Kullback-Leibler (KL) usada para restringir as atualizações da política.
- O padrão da indústria é a divergência KL reversa ( $D_{KL}(\pi_\theta || \pi_{ref})$ ), que é "buscadora de modos" (mode-seeking). Ela força a nova política a convergir para um único modo de alta probabilidade, estreitando a distribuição e eliminando a diversidade.
- A ausência total de termo de divergência (como em algumas variantes do GRPO) não oferece proteção contra o desvio do modelo de sua base de conhecimento diversificada.

2. Metodologia: DPH-RL (Diversity-Preserving Hybrid RL)

Os autores propõem uma mudança de paradigma: utilizar o termo de divergência não apenas como uma restrição passiva, mas como um mecanismo ativo de preservação de diversidade (um "mecanismo de ensaio" ou rehearsal mechanism).

Principais Componentes:

Uso de Divergências $f$ de Cobertura de Massa (Mass-Covering):
Em vez da KL reversa, o framework utiliza divergências que penalizam a falha em cobrir todos os modos da distribuição de referência. As principais escolhidas são:
- KL Direta (Forward-KL): $D_{KL}(\pi_{ref} || \pi_\theta)$ . Penaliza a nova política se ela atribuir baixa probabilidade a ações que a política de referência considera prováveis. Isso força o modelo a manter a cobertura de todas as soluções originais.
- Divergência de Jensen-Shannon (JS): Uma alternativa simétrica e mais estável que equilibra a similaridade com a referência e o desempenho.
Estratégia de Dados Híbrida ( $D_{exp}$ e $D_{pef}$ ):
O conjunto de dados é particionado em duas subconjuntos baseados no desempenho inicial do modelo:
1. $D_{pef}$ (Near-Perfect): Questões onde o modelo já resolve corretamente. Aqui, aplica-se a divergência $f$ (Forward-KL ou JS) para forçar o modelo a "ensaiar" e reter seu conhecimento original, prevenindo o esquecimento.
2. $D_{exp}$ (Exploration): Questões desafiadoras onde o modelo falha. Aqui, remove-se a penalidade de divergência, permitindo exploração pura baseada no sinal de recompensa para encontrar novas soluções.
Implementação Eficiente (Generator-Based):
Um avanço crucial é a implementação do termo de divergência usando funções geradoras e amostragem prévia da política de referência.
- Isso elimina a necessidade de executar inferência com um modelo de referência online durante o treinamento.
- Calcula-se a divergência usando um conjunto de dados estático pré-amostrado, tornando o método mais eficiente computacionalmente do que métodos que exigem um modelo de referência ativo.

3. Contribuições Principais

Análise Sistemática do Colapso de Diversidade: Identificam a divergência KL reversa padrão como uma causa primária da degradação do Pass@k e do esquecimento catastrófico, demonstrando experimentalmente que ela suprime a diversidade de estilos de solução.
Novo Framework DPH-RL: Introduzem um método que reframa a divergência como um mecanismo de preservação de diversidade, utilizando divergências de cobertura de massa (Forward-KL e JS) para atuar como um buffer de experiência (Experience Replay) baseado em divergência.
Validação Empírica Robusta: Demonstram que o método supera o estado da arte (GRPO, DAPO) em tarefas de raciocínio matemático e geração de SQL, mantendo alto desempenho tanto em domínio (in-domain) quanto fora de domínio (out-of-domain), sem necessidade de modelos de referência online.

4. Resultados Experimentais

Os experimentos foram conduzidos em modelos Llama (3.1-8B, 32B) e Qwen2.5 (7B) em tarefas de SQL e Matemática.

Desempenho em Pass@k: O DPH-RL (especialmente a variante DPH-JS) superou consistentemente o GRPO e o DAPO.
- No conjunto de dados Bird (SQL), o DPH-JS superou o GRPO em 4.3% no Pass@8 e manteve uma diversidade superior em dados fora de domínio (Spider).
- Em tarefas Matemáticas, o método conseguiu melhorar o Pass@1 e o Pass@k simultaneamente, enquanto métodos baseados em KL reversa ou sem KL sofreram colapso de diversidade.
Generalização (Out-of-Domain): Modelos treinados com DPH-RL mantiveram capacidades em tarefas não vistas durante o treinamento (ex: treinar em SQL e testar em Matemática), enquanto modelos com KL reversa ou sem KL sofreram quedas drásticas de desempenho (esquecimento catastrófico).
Eficiência: A implementação baseada em gerador permitiu que o DPH-RL fosse mais eficiente em termos de treinamento do que abordagens que exigem um modelo de referência online, com custos computacionais comparáveis ao GRPO.
Análise de Estilos: Experimentos mostraram que o KL reverso reduz a saída do modelo para um único estilo de solução (94% de um único estilo), enquanto o Forward-KL e o JS preservam múltiplos estilos de solução, similar ao modelo base.

5. Significado e Impacto

Este trabalho destaca um eixo crítico e negligenciado na otimização de RL para LLMs: a escolha da medida de divergência.

Mudança de Paradigma: Demonstra que a divergência não deve ser vista apenas como um regulador de estabilidade, mas como uma ferramenta ativa para gerenciar o equilíbrio entre exploração e retenção de conhecimento.
Solução Prática: Oferece uma solução "plug-and-play" que não requer arquiteturas complexas adicionais ou modelos de referência caros, sendo aplicável a qualquer pipeline de RLVR.
Futuro: Sugere que a seleção correta de divergências é fundamental para construir modelos de raciocínio mais gerais, diversificados e robustos, superando o trade-off tradicional entre desempenho ganancioso (greedy) e diversidade de soluções.

Em suma, o artigo argumenta que a divergência Forward-KL e a Divergência de Jensen-Shannon são as chaves negligenciadas para evitar que o RLVR destrua a diversidade cognitiva dos modelos, oferecendo uma via para modelos de IA mais versáteis e menos propensos ao esquecimento.

The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward

O Problema: A "Cegueira de Túnel"

A Solução: O "Repetidor de Aula" (DPH-RL)

Como eles fazem isso na prática?

Os Resultados: O Aluno Vira um Polímata

Resumo em uma frase

Resumo Técnico: DPH-RL e a Mitigação do Colapso de Diversidade em RLVR

1. O Problema: O Paradoxo do RLVR e o Colapso de Diversidade

2. Metodologia: DPH-RL (Diversity-Preserving Hybrid RL)

3. Contribuições Principais

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

DualDynamics: Synergizing Implicit and Explicit Methods for Robust Irregular Time Series Analysis

Robot Collapse: Supply Chain Backdoor Attacks Against VLM-based Robotic Manipulation

ExGes: Expressive Human Motion Retrieval and Modulation for Audio-Driven Gesture Synthesis

SafePLUG: Empowering Multimodal LLMs with Pixel-Level Insight and Temporal Grounding for Traffic Accident Understanding

Advanced Assistance for Traffic Crash Analysis: An AI-Driven Multi-Agent Approach to Pre-Crash Reconstruction