Entropy-Preserving Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está treinando um gênio da computação (um modelo de linguagem) para resolver problemas complexos, como criar um aplicativo ou resolver equações de matemática avançada. Para isso, você usa uma técnica chamada Aprendizado por Reforço (RL).

Pense no treinamento como um jogo de "tentativa e erro". O modelo gera várias soluções (trajetórias), você vê quais funcionam e dá um "prêmio" (recompensa) para as boas e um "chute" (penalidade) para as ruins. O objetivo é fazer o modelo aprender a gerar mais soluções boas e menos ruins.

O problema que este artigo, "Aprendizado por Reforço Preservando Entropia", resolve é o seguinte:

O Problema: A "Bolha de Conforto" (Colapso de Entropia)

Imagine que o modelo é um explorador em uma floresta.

Entropia é a medida de diversidade e curiosidade desse explorador. Alta entropia significa que ele está explorando caminhos estranhos, novos e criativos. Baixa entropia significa que ele está andando apenas pelo mesmo caminho seguro que já conhece.

O que acontece com os métodos atuais (como GRPO ou PPO) é que, ao tentar aprender rápido, o modelo entra em pânico e corre para a "segurança". Ele descobre uma solução que funciona um pouco e decide: "Vou fazer só isso! Não vou mais tentar nada diferente!".

Isso é chamado de Colapso de Entropia.

A Analogia: É como um aluno que descobre uma fórmula mágica para um tipo de problema de matemática. Em vez de tentar entender a lógica por trás de outros problemas, ele apenas repete a mesma fórmula em tudo. No começo, ele acerta muito (pass@1), mas se o problema mudar um pouquinho, ele falha miseravelmente porque perdeu a capacidade de explorar novas ideias (pass@k). O modelo fica "preguiçoso" e preso em uma solução local, perdendo a criatividade.

A Solução: O "Gestor de Curiosidade"

Os autores dizem: "Não podemos deixar o explorador ficar preso na mesma trilha. Precisamos monitorar e controlar a entropia (a curiosidade) durante todo o treinamento."

Eles propõem duas ferramentas principais para manter o modelo curioso e diverso:

1. REPO (Otimização de Política com Entropia Regulada)

Imagine que o modelo recebe um prêmio por acertar. O REPO muda a forma como esse prêmio é calculado.

Como funciona: Se o modelo acertar algo que era muito improvável (uma solução rara e criativa), o REPO aumenta o prêmio. Se ele acertar algo que era muito comum (algo óbvio), o prêmio é um pouco menor.
A Analogia: É como um professor que diz: "Se você resolver este problema difícil de um jeito que ninguém esperava, ganha um chocolate extra. Se resolver do jeito óbvio, ganha apenas um abraço." Isso incentiva o aluno a pensar fora da caixa, mantendo a "entropia" alta.

2. ADAPO (Corte Assimétrico Adaptativo)

Muitos métodos usam um "corte" (clipping) para impedir que o modelo mude de ideia muito rápido.

O Problema: O corte tradicional é simétrico (impede mudanças grandes para cima e para baixo igualmente).
A Solução ADAPO: Eles tornam o corte assimétrico e inteligente. Eles permitem que o modelo mude mais facilmente para soluções que aumentam a diversidade (aumentam a entropia), mas limitam as mudanças que tornam o modelo muito rígido.
A Analogia: Imagine um guarda de trânsito. O guarda deixa o carro acelerar se ele estiver indo para uma direção nova e interessante (aumentando a exploração), mas freia bruscamente se o carro estiver tentando entrar em um beco sem saída (reduzindo a diversidade).

O Segredo Escondido: A Precisão Numérica (O "Erro de Arredondamento")

O artigo também revela algo surpreendente: parte do problema não era apenas o algoritmo, mas como os computadores fazem os cálculos.

A Analogia: Imagine que você está medindo ingredientes para uma receita. Se você usar uma balança muito imprecisa (precisão de 16 bits, comum em IA), você pode arredondar "0,5001" para "0,5". Parece pouco, mas em milhões de cálculos, isso distorce a receita inteira.
Os autores descobriram que usar uma "balança" mais precisa (precisão FP16 em vez de BF16) e corrigir pequenos erros de arredondamento nos cálculos de probabilidade faz uma diferença gigantesca. Com isso, até métodos antigos funcionam muito melhor e não colapsam a curiosidade do modelo.

Os Resultados: Por que isso importa?

Melhores Soluções: Modelos treinados com essas técnicas não apenas acertam mais, mas acertam de formas mais criativas e robustas.
Aprendizado Contínuo: Um modelo que não perdeu sua "curiosidade" (entropia) consegue aprender novas tarefas depois de terminar a primeira. Um modelo que "colapsou" (ficou rígido) esquece como aprender coisas novas.
Recorde de Desempenho: Usando essas técnicas (especialmente o REPO e a correção de precisão), eles conseguiram os melhores resultados do mundo em benchmarks de raciocínio (AppWorld e AIME) no momento da publicação.

Resumo Final

Este paper diz que, para treinar IAs inteligentes, não basta apenas recompensar o acerto. É preciso proteger a diversidade de pensamento do modelo. Se o modelo ficar muito focado em uma única solução "segura", ele perde a capacidade de inovar.

Os autores criaram "freios e aceleradores" (REPO e ADAPO) e corrigiram erros de medição (precisão numérica) para garantir que o modelo continue explorando o mundo de possibilidades, resultando em uma IA mais criativa, capaz e que não esquece como aprender.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema: Colapso de Entropia em RL para LLMs

O artigo aborda um problema crítico no treinamento de modelos de linguagem (LLMs) usando Aprendizado por Reforço (RL) online, especificamente algoritmos de gradiente de política como GRPO (Group Relative Policy Optimization) e PPO (Proximal Policy Optimization).

Colapso de Entropia: Durante o treinamento, muitos algoritmos de RL tendem a reduzir drasticamente a entropia da política (a incerteza/diversidade das ações geradas). O modelo converge prematuramente para soluções de alta probabilidade já conhecidas, negligenciando outras soluções corretas, mas menos prováveis.
Consequências: Isso leva a uma perda de capacidade de exploração. Embora possa melhorar métricas como pass@1 (a chance de acertar na primeira tentativa), degrada severamente o pass@k (a capacidade de gerar múltiplas soluções variadas) e impede o aprendizado contínuo em novos ambientes (aprendizado sequencial).
Causas Identificadas: O papel argumenta que o colapso não é apenas uma falha algorítmica, mas também é exacerbado por detalhes de implementação, como precisão numérica (BF16 vs. FP16) e comportamentos de frameworks (como o casting de saída do FSDP2), que introduzem viéses não intencionais nas razões de importância (importance weights).

2. Metodologia e Análise Teórica

Os autores realizam uma análise teórica rigorosa sobre a dinâmica da entropia em algoritmos de gradiente de política e propõem mecanismos explícitos para controlá-la.

Análise Teórica da Dinâmica de Entropia

Teorema 1: Demonstra que a mudança esperada na entropia é governada pela correlação entre os advantages (vantagens) e os log-probabilidades das ações, ponderada pela probabilidade da ação.
- Se o modelo já está bem calibrado, ações corretas têm alta probabilidade e vantagem positiva, o que "afina" a distribuição e reduz a entropia.
PPO e Clipping: O PPO limita a mudança de entropia por token através de limites de clipping simétricos, mas múltiplas atualizações off-policy podem amplificar o colapso.
DAPO e GSPO: Algoritmos com clipping assimétrico (como DAPO) ou em nível de sequência (GSPO) permitem implicitamente um aumento maior na entropia do que na diminuição, ajudando a preservar a diversidade, mas essa proteção pode ser insuficiente ou instável dependendo da precisão numérica.

Fatores Empíricos Críticos

O estudo revela que detalhes de implementação têm impacto qualitativo na estabilidade do treinamento:

Quantização de 16-bit (BF16): O uso padrão de BF16 em stacks de treinamento (como HuggingFace Accelerate/FSDP2) introduz um viés multiplicativo ascendente na razão de probabilidade observada ( $r_{observed}$ ). Isso cria um efeito de clipping assimétrico não intencional que favorece a diminuição da entropia (limita o aumento de probabilidade de ações vantajosas e relaxa a penalidade de desvantajosas).
FP16 vs. BF16: O uso de FP16 (float16) reduz a discrepância entre a inferência e o treinamento e mitiga o colapso de entropia, permitindo que mecanismos como o clipping assimétrico do DAPO funcionem conforme projetado.

3. Contribuições Principais: Novos Algoritmos

Para combater o colapso de entropia, os autores propõem dois mecanismos explícitos de controle:

A. REPO (Regulated Entropy Policy Optimization)

Uma família de algoritmos que modifica a função de advantage para regular a entropia.

Mecanismo: Adiciona um termo escalado de log-verossimilhança da política ao advantage: $A_{REPO}(s, a) = A(s, a) - \beta_s \cdot L(s, a)$ .
Variações:
- REPO-D (Decorrelate): Define $\beta$ para neutralizar a mudança de entropia esperada, mantendo a entropia estável.
- REPO-R (Rescale): Uma aproximação prática que reescala os advantages com base nas probabilidades das ações, aumentando o peso de soluções corretas raras e reduzindo a penalidade de erros raros.
Vantagem: Utiliza um controlador adaptativo bidirecional para ajustar o coeficiente de regularização dinamicamente. É computacionalmente eficiente, não exigindo a materialização de todos os logits (usando estimadores de amostragem emparelhada).

B. ADAPO (Adaptive DAPO)

Uma abordagem que ajusta dinamicamente os limites de clipping assimétrico do DAPO.

Mecanismo: Mantém o limite inferior ( $\epsilon_{low}$ ) fixo e ajusta o limite superior ( $\epsilon_{high}$ ) com base na entropia observada. Se a entropia cair, $\epsilon_{high}$ aumenta para permitir mais exploração; se subir demais, diminui.
Objetivo: Fornecer controle bidirecional sobre a entropia através do mecanismo de clipping.

4. Resultados Experimentais

Os métodos foram avaliados em dois ambientes desafiadores: AppWorld (agentes interativos de ferramentas) e AIME (raciocínio matemático), utilizando modelos Qwen-3-8B e Qwen-3-32B.

Desempenho em AppWorld:
- Algoritmos preservadores de entropia (REPO-R e ADAPO) superaram consistentemente as bases (GRPO e DAPO), mantendo uma entropia estável durante todo o treinamento.
- Recordes de Estado da Arte (SOTA): O uso de RLOO (algoritmo estritamente on-policy) combinado com as correções numéricas (FP16 + fix de clipping) alcançou 79% no Test Normal e 71% no Test Challenge com o Qwen-3-32B, superando sistemas baseados em GPT-4.1.
- Modelos que sofreram colapso de entropia (como GRPO padrão) tiveram desempenho significativamente inferior.
Desempenho em AIME (Matemática):
- Embora os modelos base já estivessem bem otimizados para matemática, os métodos preservadores de entropia mostraram maior estabilidade e melhor desempenho em tarefas de aprendizado sequencial.
- A preservação da entropia permitiu que os modelos mantivessem a capacidade de explorar novas soluções, evitando convergência prematura.
Aprendizado Sequencial:
- Um teste crucial envolveu treinar um modelo em um domínio (ex: Matemática) e depois em outro (ex: AppWorld).
- Modelos com colapso de entropia (GRPO) perderam a capacidade de explorar no novo ambiente.
- Modelos com REPO/ADAPO mantiveram a diversidade e adaptaram-se com sucesso ao novo domínio.
Impacto das Correções Numéricas:
- A combinação de FP16 e a correção de casting de saída (FSDP2) transformou qualitativamente o comportamento do DAPO, revertendo o colapso de entropia para um aumento controlado, validando a teoria sobre viéses de precisão.

5. Significado e Conclusão

Este trabalho estabelece que a entropia deve ser tratada como uma preocupação de primeira classe nos pipelines de RL para LLMs.

Mudança de Paradigma: O papel desafia a visão de que o RL deve apenas "afinar" a política em torno de soluções existentes. Em vez disso, argumenta que a manutenção da diversidade (entropia) é essencial para a robustez, criatividade e capacidade de generalização.
Solução Prática: Demonstra que pequenas correções de precisão numérica e mecanismos de controle de entropia explícitos (REPO, ADAPO) podem transformar algoritmos instáveis em sistemas de alto desempenho.
Eficiência: Mostra que é possível alcançar o melhor desempenho (SOTA) sem sacrificar a eficiência, utilizando métodos on-policy (RLOO) com as devidas correções, ou métodos off-policy (GRPO/DAPO) com controle de entropia para manter a capacidade de exploração.

Em resumo, o artigo fornece tanto a fundamentação teórica quanto as ferramentas práticas para evitar o colapso de diversidade em LLMs treinados por RL, resultando em agentes mais inteligentes, estáveis e capazes de aprendizado contínuo.