Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity

Each language version is independently generated for its own context, not a direct translation.

🧠 O Problema: O "Gênio" que Esquece Tudo

Imagine que você tem um chef de cozinha extremamente talentoso (o Modelo de IA) que sabe cozinhar milhões de pratos diferentes. Ele é criativo e sabe fazer de tudo.

Recentemente, os cientistas descobriram uma maneira de treinar esse chef para cozinhar apenas pratos perfeitos (respostas corretas) usando um sistema de recompensas (Reinforcement Learning). Eles diziam: "Se o prato estiver bom, ganhe pontos! Se estiver ruim, perca pontos!".

O que aconteceu?
O chef ficou incrível em fazer o prato "correto". Mas, ao mesmo tempo, ele perdeu a criatividade. Ele começou a fazer apenas uma versão daquele prato perfeito, repetindo-a até o infinito. Se você pedisse 100 variações, ele daria 100 cópias idênticas.

Isso é um problema porque, em tarefas difíceis (como provar teoremas matemáticos), muitas vezes a solução certa é rara e difícil de encontrar. Se o chef só conhece uma "receita" e ela falha, ele não consegue tentar outra abordagem. Ele ficou preciso, mas sem diversidade.

🔍 A Solução: O Filtro Inteligente

Os autores deste artigo dizem: "Esperem, o problema não é que queremos apenas respostas certas. O problema é como treinamos o chef."

Eles propõem uma nova abordagem chamada DMVR (Ajuste de Distribuição com Recompensas Verificáveis).

A Analogia do Filtro de Café

Imagine que o chef original (o modelo base) faz um café. Às vezes sai bom, às vezes ruim.

O jeito antigo (RLVR): O treinador grita: "Faça o café perfeito!" e pune qualquer erro. O chef, com medo de errar, começa a fazer apenas o café mais seguro e óbvio que ele conhece, ignorando outras maneiras criativas de fazer um café bom. Ele fica "preso" em um único modo.
O jeito novo (DMVR): O treinador pega a xícara de café do chef, coloca um filtro. Se o café estiver ruim, ele joga fora. Se estiver bom, ele guarda.
- A regra é: "O que sobrar, deve ser verdade." (Daí o título do papel, uma citação de Sherlock Holmes).
- O objetivo é treinar o chef para imitar apenas o café que passou pelo filtro, mantendo a mesma variedade de sabores que ele tinha antes, mas sem os defeitos.

⚖️ O Truque Mágico: A "Roda de Diversidade" (O Parâmetro $\alpha$ )

A grande inovação do artigo é um botão mágico chamado $\alpha$ (alfa). Esse botão controla o equilíbrio entre Precisão (fazer o prato perfeito) e Diversidade (tentar muitas receitas diferentes).

Pense nisso como um dimmer de luz ou um botão de volume:

Botão no Mínimo (Alta Diversidade):
- O chef tenta muitas receitas diferentes.
- Ele pode errar um pouco mais na primeira tentativa (menos precisão), mas se você der a ele 100 chances, é quase certo que uma delas vai ser perfeita.
- Ideal para: Explorar novas ideias, resolver problemas muito difíceis onde você não sabe qual é a solução.
Botão no Máximo (Alta Precisão):
- O chef foca apenas na receita que ele acha mais provável de dar certo.
- Ele acerta na primeira tentativa quase sempre, mas se aquela única receita falhar, ele não tem plano B.
- Ideal para: Tarefas onde você precisa de certeza imediata e não pode arriscar.
Botão no Meio (O Ponto Ideal):
- O método dos autores permite que você ajuste esse botão suavemente. Você pode ter um chef que é muito preciso mas ainda tenta várias abordagens, ou um chef que é muito diverso mas ainda mantém uma boa qualidade.

🏆 O Resultado: O "Pareto" Perfeito

No mundo da ciência, existe um conceito chamado Fronteira de Pareto. Imagine um gráfico onde o eixo X é "Precisão" e o eixo Y é "Diversidade".

Os métodos antigos (como o GRPO) ficavam num canto: ou muito precisos e sem diversidade, ou muito diversos e imprecisos.
O método dos autores (chamado $\alpha$ -DPG) conseguiu criar uma linha de chefs que estão no melhor de ambos os mundos. Eles conseguem ser mais precisos que os antigos métodos e, ao mesmo tempo, muito mais diversos.

📝 Resumo em uma frase

Em vez de forçar a IA a "esquecer" tudo o que não é perfeito (o que a torna sem criatividade), os autores ensinam a IA a filtrar o que é errado e manter a variedade do que é certo, permitindo que os cientistas ajustem o equilíbrio entre "acertar na mosca" e "tentar de tudo" conforme a necessidade.

Por que isso importa?
Para resolver problemas complexos (como matemática avançada ou programação), precisamos de IAs que não apenas saibam a resposta, mas que consigam explorar diferentes caminhos para encontrá-la, sem perder a capacidade de acertar.

Each language version is independently generated for its own context, not a direct translation.

Título: Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity

Autores: Germán Kruszewski, Pierre Erbacher, Jos Rozen, Marc Dymetman (NAVER Labs Europe e Pesquisador Independente)
Data: Março de 2026

1. O Problema

O Reinforcement Learning (RL) tornou-se o padrão para ajustar Grandes Modelos de Linguagem (LLMs) em tarefas de raciocínio, especialmente através do Reinforcement Learning from Verifiable Rewards (RLVR), como PPO e GRPO. No entanto, evidências crescentes indicam que modelos treinados dessa maneira sofrem de uma perda significativa de diversidade (fenômeno conhecido como "colapso de modo" ou mode collapse).

O artigo argumenta que essa perda de diversidade ocorre porque o RLVR otimiza implicitamente a Divergência de Kullback-Leibler Reversa (Reverse KL, $D_{KL}(\pi || p)$ ) em relação a uma distribuição alvo. A Reverse KL é "buscadora de modos" (mode-seeking): ela penaliza fortemente colocar massa de probabilidade em regiões onde a distribuição alvo tem baixa probabilidade, mas ignora modos plausíveis da distribuição alvo que não são os mais prováveis. Isso faz com que o modelo se concentre em um subconjunto estreito de soluções de alta recompensa, esquecendo outras soluções corretas que estavam presentes no modelo base.

2. Metodologia Proposta: DMVR e $\alpha$ -DPG

Os autores propõem uma nova abordagem chamada DMVR (Distributional Matching with Verifiable Rewards), que redefine o objetivo de treinamento para explicitamente preservar a diversidade.

A. Definição da Distribuição Alvo

Em vez de otimizar uma recompensa pseudo-aleatória, o DMVR define uma distribuição alvo explícita $p_x(y)$ :
$p_x(y) \propto \pi_{base}(y|x) \cdot v(y, x)$
Onde:

$\pi_{base}$ é o modelo de linguagem pré-treinado.
$v(y, x)$ é um verificador binário (1 se a resposta for correta, 0 caso contrário).

Esta distribuição filtra todas as respostas incorretas, mantendo apenas as corretas, mas preservando as probabilidades relativas que o modelo base atribuía a elas. Isso garante que todas as soluções válidas do modelo base sejam mantidas.

B. O Desafio da Otimização

Aproximar essa distribuição alvo é difícil porque amostrar diretamente dela é inviável. O RLVR tradicional tenta aproximar isso minimizando a Reverse KL, o que leva ao colapso de diversidade.
Os autores propõem utilizar a família de Divergências $\alpha$ ( $\alpha$ -divergences) dentro do algoritmo DPG (Distributional Policy Gradient).

C. O Algoritmo $\alpha$ -DPG

O método introduz o parâmetro $\alpha$ para controlar o trade-off entre precisão e diversidade:

$\alpha \to 1$ (Reverse KL): Comportamento "buscador de modos". Alta precisão (pass@1), mas baixa diversidade (cobertura).
$\alpha \to 0$ (Forward KL): Comportamento "cobridor de massa" (mass-covering). Alta diversidade, mas pode incluir regiões de baixa qualidade.
$\alpha \in (0, 1)$ : Interpolação suave entre os dois extremos.

A função de recompensa pseudo ( $\hat{R}_\theta$ ) é derivada da divergência $\alpha$ , permitindo ajustar o gradiente de treinamento para equilibrar a busca por soluções corretas com a manutenção da variedade de respostas.

3. Contribuições Principais

Framework DMVR: Introduz um quadro teórico que trata o ajuste de modelos com verificadores como um problema de correspondência de distribuição explícita, em vez de apenas otimização de recompensa.
Diagnóstico do RLVR: Demonstra teoricamente que o RLVR (como GRPO/PPO) é equivalente a minimizar a Reverse KL para uma distribuição filtrada, explicando matematicamente a causa da perda de diversidade.
Método $\alpha$ -DPG: Propõe um algoritmo unificado que generaliza tanto o RLVR (Reverse KL) quanto métodos de Rejection Sampling Fine-Tuning (Forward KL) e KL-DPG, permitindo um controle contínuo do trade-off precisão-diversidade via o parâmetro $\alpha$ .
Fronteira de Pareto: Demonstra empiricamente que é possível obter modelos que operam na fronteira de Pareto entre precisão (pass@1) e cobertura (pass@256), superando métodos anteriores em cobertura sem sacrificar excessivamente a precisão.

4. Resultados Experimentais

Os experimentos foram conduzidos no benchmark Lean (um assistente de prova formal para matemática), utilizando o modelo DeepSeek-Prover-V1.5-SFT (7B parâmetros).

Precisão vs. Cobertura:
- Modelos com $\alpha$ baixo (ex: 0.25) alcançaram a maior cobertura (pass@256) entre todos os métodos testados, superando significativamente o GRPO e o modelo base, mantendo uma melhoria substancial em relação ao modelo base na precisão.
- Modelos com $\alpha$ alto (ex: 0.999) alcançaram precisão (pass@1) comparável ou superior ao GRPO, mas com maior cobertura.
- O conjunto de modelos $\alpha$ -DPG formou uma fronteira de Pareto quase perfeita, permitindo que os usuários escolham o ponto de operação ideal para suas necessidades.
Análise de Dificuldade:
- O GRPO e o $\alpha$ -DPG com $\alpha \approx 1$ melhoraram a eficiência em problemas de dificuldade média, tornando-os "fáceis", mas degradaram o desempenho em problemas difíceis (muitos tornaram-se insolúveis).
- O $\alpha$ -DPG com $\alpha$ baixo (0.25) e o GRPO com alta penalidade KL foram mais conservadores, mantendo a solvabilidade de problemas difíceis com melhor eficiência de amostragem.
Diversidade de Provas:
- A análise de entropia de Shannon e índice de Simpson nas táticas e premissas usadas nas provas mostrou uma correlação direta: maior diversidade nas estratégias de prova (táticas e teoremas usados) correlaciona-se com maior cobertura (pass@256).
- O GRPO padrão colapsou em sequências idênticas para certos problemas, enquanto o $\alpha$ -DPG manteve a diversidade.
Análise de Perplexidade:
- As sequências geradas pelos modelos treinados já eram altamente prováveis sob o modelo base, sugerindo que o RL não "cria" novas capacidades fundamentais, mas sim repondera e amplifica comportamentos existentes. O $\alpha$ -DPG preserva essa proximidade com o modelo base melhor que o RLVR agressivo.

5. Significado e Conclusão

O trabalho desafia a noção de que o RL é necessário para "descobrir" novas habilidades de raciocínio, sugerindo que o modelo base já contém essas soluções, mas o RLVR as suprime ao focar excessivamente em modos específicos.

A principal contribuição é a demonstração de que filtrar o modelo base para manter apenas respostas corretas é um princípio sólido, mas a divergência usada para aproximar essa distribuição é o fator crítico. Ao utilizar a família $\alpha$ -divergência, os autores conseguem:

Evitar o colapso de modo típico do RL.
Garantir que soluções raras, mas corretas, não sejam esquecidas.
Oferecer um mecanismo controlável para equilibrar a necessidade de precisão imediata (pass@1) com a necessidade de explorar o espaço de soluções (pass@k), o que é crucial para tarefas complexas como a prova de teoremas.

Em resumo, o $\alpha$ -DPG oferece uma alternativa mais robusta e teoricamente fundamentada ao RLVR padrão, permitindo que modelos de raciocínio mantenham sua diversidade intrínseca enquanto aprendem a ser corretos.

Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity

🧠 O Problema: O "Gênio" que Esquece Tudo

🔍 A Solução: O Filtro Inteligente

A Analogia do Filtro de Café

⚖️ O Truque Mágico: A "Roda de Diversidade" (O Parâmetro α\alphaα)

🏆 O Resultado: O "Pareto" Perfeito

📝 Resumo em uma frase

Título: Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity

1. O Problema

2. Metodologia Proposta: DMVR e α\alphaα-DPG

A. Definição da Distribuição Alvo

B. O Desafio da Otimização

C. O Algoritmo α\alphaα-DPG

3. Contribuições Principais

4. Resultados Experimentais

5. Significado e Conclusão

Mais como este

ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

When Is Collective Intelligence a Lottery? Multi-Agent Scaling Laws for Memetic Drift in LLMs

AutoSAM: an Agentic Framework for Automating Input File Generation for the SAM Code with Multi-Modal Retrieval-Augmented Generation

Trust as Monitoring: Evolutionary Dynamics of User Trust and AI Developer Behaviour

Formal Semantics for Agentic Tool Protocols: A Process Calculus Approach

⚖️ O Truque Mágico: A "Roda de Diversidade" (O Parâmetro $\alpha$ )

2. Metodologia Proposta: DMVR e $\alpha$ -DPG

C. O Algoritmo $\alpha$ -DPG