Rewards as Labels: Revisiting RLVR from a Classification Perspective

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está treinando um grupo de alunos (o modelo de Inteligência Artificial) para resolver problemas de matemática muito difíceis. O objetivo é que eles aprendam a dar a resposta certa.

Até agora, a maneira mais popular de fazer isso era como um professor muito exigente que usa um sistema de "vantagem relativa". Vamos chamar esse método antigo de GRPO.

O Problema do Método Antigo (GRPO)

No método antigo, o professor olhava para todas as respostas que os alunos deram a uma mesma pergunta. Se a maioria errou, mas um aluno acertou, esse aluno era elogiado muito alto. Se a maioria acertou, mas um errou, esse aluno era criticado muito alto.

O problema é que esse sistema tinha dois defeitos graves, como se o professor estivesse gritando errado:

O Aluno "Quase Certo" era Ignorado (Erro de Atribuição): Se um aluno já estava quase acertando (tinha uma probabilidade alta de dar a resposta certa), o professor dava um "grito" (gradiente) enorme para ele. Mas se o aluno estava com muita dificuldade e a resposta certa parecia improvável, o professor quase não dava atenção a ele.
- Analogia: É como se você estivesse ensinando alguém a andar de bicicleta. Se a pessoa já está quase equilibrada, você empurra ela com força. Mas se a pessoa está caindo e precisa de ajuda urgente, você a ignora porque ela "não tem tanta chance" de ficar em pé. Resultado: quem precisa de ajuda não melhora.
O Aluno "Certeiro" no Erro Dominava Tudo (Dominação do Gradiente): Se um aluno dava uma resposta errada, mas com muita confiança (achava que estava certo), o professor ficava furioso e dava um "grito" desproporcional. Esse grito era tão forte que apagava as lições de todos os outros alunos que estavam aprendendo com erros menores.
- Analogia: Imagine que um aluno grita "ESTOU ERRADO!" com tanta força e confiança que o professor para de ouvir qualquer outra pessoa na sala. A aula fica desequilibrada porque a voz mais barulhenta (e errada) ditou o ritmo.

A Solução: REAL (Recompensas como Rótulos)

Os autores do artigo propuseram uma nova ideia chamada REAL. Eles mudaram a forma de pensar sobre o problema.

Em vez de tratar a resposta certa como um "número de pontuação" (como 10 pontos ou 5 pontos), eles trataram a resposta como um rótulo simples de "Certo" ou "Errado", como em um jogo de classificação.

A Nova Abordagem: O objetivo não é mais "empurrar mais forte quem já está perto", mas sim ensinar o modelo a distinguir claramente o que é "Bom" do que é "Ruim", como um professor que usa um sistema de "Verde" (Certo) e "Vermelho" (Errado).

Como o REAL Funciona (A Analogia do Filtro de Café)

O método REAL usa uma técnica matemática inteligente que age como um filtro de café perfeito:

Limita o Grito: Não importa o quão confiante o aluno esteja (seja no certo ou no errado), o "grito" do professor nunca sai do controle. Ele é limitado. Isso impede que um erro confiante domine a aula inteira.
Atenção Justa: Se um aluno está com dificuldade (resposta certa improvável), o sistema garante que ele receba uma ajuda adequada, sem ser ignorado.
Equilíbrio: O sistema ajusta o volume automaticamente. Se a turma está muito confiante, o professor fala mais baixo. Se está confusa, ele fala mais alto, mas sempre de forma controlada.

O Resultado na Prática

Os pesquisadores testaram isso em modelos de IA de diferentes tamanhos (pequenos e grandes) em testes de matemática complexa.

Estabilidade: O treinamento ficou muito mais estável. A IA não "desmoronava" nem ficava louca com erros.
Performance: A IA aprendeu mais rápido e acertou mais questões. Em testes, o método REAL superou os melhores métodos anteriores (como o GRPO e o DAPO) em uma média de 6% a 7%.
Simplicidade: O legal é que, ao fazer isso, eles nem precisaram de regras extras complexas para controlar o comportamento da IA. O próprio sistema de "classificação" já fazia o trabalho sujo de manter tudo equilibrado.

Resumo Final

Pense no método antigo como um maestro de orquestra que grita mais alto para os músicos que já sabem a música e ignora os que estão errando, ou que se deixa levar por um músico que está tocando errado com muita confiança.

O novo método (REAL) é como um maestro sábio que trata a música como uma questão de "certo ou errado". Ele garante que todos os músicos, seja o virtuoso ou o iniciante, recebam a direção justa, mantendo a orquestra tocando em harmonia e alcançando um som muito melhor no final.

Essa descoberta é importante porque torna o treinamento de IAs mais eficiente, estável e justo, permitindo que elas aprendam a raciocinar de forma mais inteligente com menos "drama".

Each language version is independently generated for its own context, not a direct translation.

1. O Problema: Ineficiências no RLVR Baseado em GRPO

O artigo foca no Reinforcement Learning with Verifiable Rewards (RLVR), uma paradigm de pós-treinamento para Grandes Modelos de Linguagem (LLMs) em tarefas com avaliação baseada em regras (como raciocínio matemático). O método dominante atualmente é o GRPO (Group Relative Policy Optimization) e suas variantes (como DAPO, GSPO).

Os autores identificam dois problemas fundamentais nas atualizações de gradiente induzidas pelo GRPO, que levam a atualizações de política subótimas e instáveis:

Má Atribuição de Gradiente em Positivos (Gradient Misassignment in Positives):
- Em rollouts positivos (respostas corretas), o GRPO atribui gradientes desproporcionalmente grandes a tokens que já têm alta probabilidade sob a política atual.
- Consequentemente, tokens "difíceis" (baixa probabilidade, mas corretos) recebem gradientes muito fracos. Isso concentra o aprendizado em regiões já otimizadas, negligenciando a correção de componentes subotimizados.
Dominação de Gradiente em Negativos (Gradient Domination in Negatives):
- Em rollouts negativos (respostas incorretas), a magnitude do gradiente no GRPO não é limitada (unbounded) e cresce exponencialmente com a probabilidade relativa.
- Isso permite que alguns poucos rollouts negativos com alta confiança (mas incorretos) dominem toda a atualização do grupo, suprimindo contribuições de outros exemplos negativos informativos e tornando o treinamento sensível a outliers.

Esses desajustes resultam em uma alocação de crédito ineficiente, aumentando o risco de convergência prematura para ótimos locais e instabilidade no treinamento (como colapso de entropia ou explosão de entropia).

2. Metodologia: REAL (Rewards as Labels)

Para resolver esses problemas, os autores propõem o REAL, um novo framework que reinterpreta as recompensas verificáveis não como pesos escalares para ponderação de gradiente, mas como rótulos categóricos.

Mudança de Perspectiva: De RL para Classificação

Em vez de tratar a recompensa $r \in \{0, 1\}$ como um sinal escalar para calcular vantagens, o REAL trata a recompensa como um rótulo de classe binária. O objetivo de otimização da política é reformulado como uma tarefa de classificação: discriminar corretamente entre rollouts desejáveis (positivos) e indesejáveis (negativos) dentro de um grupo.

Componentes Principais do REAL:

Logits Relativos Normalizados por Comprimento:
- Para cada rollout $k$ , calcula-se uma pontuação baseada na mudança relativa de log-probabilidade entre a nova política ( $\pi_\theta$ ) e a antiga ( $\pi_{old}$ ):
  $\bar{s}_k = \frac{1}{|o_k|} \sum_{t=1}^{|o_k|} \log \frac{\pi_\theta(o_{k,t}|q)}{\pi_{old}(o_{k,t}|q)}$
- Um $\bar{s}_k > 0$ indica reforço; $\bar{s}_k < 0$ indica supressão.
Função de Perda Unificada (Softmax Cross-Entropy):
- O REAL utiliza uma perda de entropia cruzada softmax unificada para separar os logits dos positivos ( $S_+$ ) dos negativos ( $S_-$ ).
- A perda é definida como:
  $\mathcal{L}_{REAL} = \log\left(1 + \sum_{O_+} e^{-\bar{s}_i/\tau}\right) + \log\left(1 + \sum_{O_-} e^{\bar{s}_j/\tau}\right)$
- Onde $\tau$ é um parâmetro de temperatura que controla a nitidez da fronteira de decisão.
Logits de Âncora (Anchor Logits):
- Para evitar ambiguidade na direção da atualização (ex: ambos os grupos diminuindo suas pontuações), o REAL introduz um logit de âncora fixo em 0.
- Para amostras positivas, o 0 é tratado como um logit negativo (forçando $\bar{s}_i > 0$ ).
- Para amostras negativas, o 0 é tratado como um logit positivo (forçando $\bar{s}_j < 0$ ).
- Isso garante uma separação clara e direciona o modelo a aumentar a pontuação dos positivos acima de zero e diminuir a dos negativos abaixo de zero.

Análise Teórica de Gradientes

A análise teórica demonstra que o REAL induz um peso de gradiente monótono e limitado (bounded).

A magnitude do gradiente é limitada superiormente por $1/\tau$.
Para positivos, a magnitude do gradiente diminui monotonicamente à medida que a probabilidade relativa aumenta (evitando atualizações excessivas em exemplos fáceis).
Para negativos, a magnitude é penalizada mais fortemente para exemplos com alta probabilidade, mas permanece limitada, evitando a dominação por outliers.
Consequência: O REAL elimina a necessidade de clipping explícito (como no PPO/GRPO) e de uma penalidade de Divergência KL explícita para garantir estabilidade, pois o mecanismo de perda já atua como um "clipping" adaptativo implícito.

3. Contribuições Chave

Identificação de Falhas Fundamentais: Mapeamento preciso de dois tipos de desalinhamento de gradiente (Má Atribuição em Positivos e Dominação em Negativos) que limitam os métodos baseados em GRPO.
Framework REAL: Proposta de um novo paradigma que reformula o RLVR como um problema de classificação, utilizando recompensas como rótulos categóricos e otimização baseada em softmax cross-entropy.
Validação Empírica Abrangente: Demonstração de que o REAL supera consistentemente o GRPO e suas variantes mais fortes (DAPO, GSPO) em estabilidade de treinamento e desempenho em raciocínio matemático, sem a necessidade de hiperparâmetros complexos de clipping ou penalidades KL.

4. Resultados Experimentais

Os experimentos foram realizados em benchmarks de raciocínio matemático (AIME 2024/2025, MATH 500, AMC 2023, Minerva, Olympiad Bench) usando modelos de 1.5B e 7B parâmetros (baseados em DeepSeek-R1-Distill-Qwen).

Desempenho em Modelo 1.5B:
- O REAL superou o DAPO em 6.7% no Pass@1 médio.
- Superou o GRPO em 9.5 pontos e manteve vantagem sobre o GSPO.
Desempenho em Modelo 7B:
- O REAL continuou superando o DAPO em 6.2% e o GSPO em 1.7% no Pass@1 médio.
- Alcançou um Pass@1 médio de 63.2%.
Estabilidade de Treinamento:
- Enquanto o GRPO sofreu de colapso de entropia e o DAPO de explosão de entropia, o REAL manteve uma entropia estável ao longo de 1.400 passos, resultando em crescimento consistente nas recompensas e no Pass@1 de validação.
Ablação e Robustez:
- Mesmo usando uma simples perda de Cross-Entropy Binária (BCE) sem os logits de âncora, o REAL superou o DAPO em 4.5% em média.
- O REAL manteve desempenho competitivo sem penalidade KL explícita, confirmando que a limitação de gradiente inerente à função de perda é suficiente para a estabilidade.
- O parâmetro de temperatura $\tau=0.5$ mostrou-se ideal; valores muito baixos ( $\tau=0.1$ ) causaram instabilidade.

5. Significado e Impacto

O artigo oferece uma nova perspectiva teórica para o treinamento de LLMs com recompensas verificáveis. Ao demonstrar que tratar recompensas como rótulos de classificação (em vez de pesos escalares) resolve problemas fundamentais de atribuição de gradiente, o REAL:

Simplifica a Pipeline de RL: Remove a necessidade de mecanismos complexos de clipping e penalidades KL, que são frequentemente ajustados empiricamente.
Melhora a Eficiência e Estabilidade: Garante que o aprendizado seja focado nos exemplos mais difíceis (tokens de baixa confiança em respostas corretas) e evita que exemplos negativos extremos dominem o treinamento.
Estabelece um Novo Padrão: Sugere que a reformulação de problemas de RL como problemas de classificação é um caminho principled para o desenvolvimento de sistemas de IA mais robustos, transparentes e confiáveis, especialmente em tarefas de raciocínio complexo.

Em resumo, o REAL prova que uma abordagem de classificação simples e bem fundamentada teoricamente pode superar métodos de RL mais complexos e heurísticos no contexto de otimização de políticas para raciocínio.