CoRPO: Adding a Correctness Bias to GRPO Improves Generalization

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está treinando um grupo de estudantes (os modelos de Inteligência Artificial) para passar em um exame difícil de matemática e programação. O objetivo é fazê-los aprender a resolver problemas corretamente.

Até agora, o método padrão usado para treinar esses alunos era chamado de GRPO. Funcionava mais ou menos assim:

O professor dava um problema para 8 alunos resolverem ao mesmo tempo.
O professor olhava as respostas de todos e calculava a média da turma.
Se um aluno acertasse algo, mas a resposta dele fosse "pior" que a média da turma, ele era punido. Se fosse "melhor" que a média, ele era elogiado.

O Problema (A Falha do GRPO):
O problema é que, às vezes, a turma inteira faz um dia ruim e a média da turma é muito baixa (muitos erros).

Imagine que todos erraram a questão, mas o Aluno A errou de um jeito "menos pior" que o Aluno B.
Como a média da turma foi muito baixa, o Aluno A (que ainda errou) recebe um elogio porque foi "melhor que a média".
Resultado: O modelo aprende que "errar um pouco menos" é suficiente para ganhar pontos. Ele fica confiante em soluções erradas e não aprende a ser realmente bom, apenas a ser "menos ruim" que os outros. Isso faz com que ele funcione bem nos exercícios que viu na aula, mas falhe miseravelmente em provas novas (fora do domínio).

A Solução: CoRPO (O "Filtro de Verdade")

Os autores do artigo propuseram uma melhoria simples, mas poderosa, chamada CoRPO. Eles adicionaram uma regra de ouro ao sistema de notas:

"Nenhuma resposta errada pode receber elogio, não importa o quão ruim seja a média da turma."

Eles criaram um Teto de Correção (um limite mínimo).

Se a resposta não atingiu o nível de "correto" (o limite), ela recebe uma nota negativa ou zero, mesmo que tenha sido a melhor da turma.
Só quando a resposta é realmente correta é que o sistema começa a comparar quem fez melhor do que quem, para refinar a qualidade.

Analogias do Dia a Dia

1. O Exame de Direção

GRPO: Você está aprendendo a dirigir. O instrutor olha para 5 alunos que bateram o carro. O aluno que bateu "mais devagar" que os outros recebe um "Parabéns, você foi o melhor do grupo!". Logo, ele acha que bater devagar é um bom resultado.
CoRPO: O instrutor diz: "Se você bateu o carro, você reprovou. Não importa se bateu mais devagar que o vizinho. Só se você chegar ao destino sem bater é que vamos discutir quem chegou mais rápido." Isso força o aluno a focar em não bater, e não apenas em ser "menos desastrado".

2. O Jogo de Basquete

GRPO: Se o time todo faz 10 pontos no jogo, e você faz 11, você é o MVP (Melhor Jogador), mesmo que o time tenha perdido por 50 pontos.
CoRPO: O treinador diz: "Se o time não ganha o jogo (atinge a meta), ninguém é MVP. Vamos focar em ganhar o jogo primeiro. Só depois que ganharmos, vamos ver quem fez mais pontos."

Por que isso é importante? (Os Resultados)

O artigo mostra que, ao usar o CoRPO:

Generalização Real: Os modelos treinados com essa regra aprendem padrões de raciocínio verdadeiros. Se você treina um modelo em programação com CoRPO, ele fica tão bom em matemática (uma área diferente) quanto um modelo treinado especificamente em matemática. O GRPO falha nisso, porque ele apenas memorizou "como ser melhor que os outros na programação", não "como pensar".
Aprendizado Mais Seguro: O CoRPO evita que o modelo fique "confiante demais" em respostas erradas. Ele aprende a ter medo de errar (reforço negativo) antes de tentar ser brilhante.
Economia de Recursos: Mesmo com poucos alunos na turma (poucas tentativas), o CoRPO funciona melhor, porque a regra de "não elogiando erros" é mais forte do que a comparação entre pares.

Resumo em uma frase

O CoRPO muda o foco de "ser melhor que a média do grupo" (o que pode recompensar erros) para "ser correto antes de tudo" (o que garante que o modelo aprenda a verdade, não apenas a média). É como trocar um professor que elogia quem erra menos, por um professor que só elogia quem acerta.

Each language version is independently generated for its own context, not a direct translation.

Título: CoRPO: Adicionando um Viés de Corretude ao GRPO para Melhorar a Generalização

1. Problema Identificado

O Group-Relative Policy Optimization (GRPO) tornou-se o padrão para treinar capacidades de raciocínio em Grandes Modelos de Linguagem (LLMs) usando Aprendizado por Reforço com Recompensas Verificáveis (RLVR). O GRPO elimina a necessidade de uma função de valor aprendida (critic), estimando vantagens baseando-se na média de recompensas de um grupo de trajetórias amostradas.

No entanto, os autores identificam duas limitações fundamentais na construção da linha de base (baseline) do GRPO que prejudicam a generalização e levam ao sobreajuste:

Superestimação de Vantagens (Advantage Overestimation): O GRPO usa a média empírica de um grupo pequeno (geralmente 4-16 amostras) como baseline. Devido à variância de amostragem, essa média pode cair abaixo da recompensa esperada real. Consequentemente, trajetórias que são apenas "médias" ou até subótimas podem receber vantagens positivas infladas simplesmente porque superaram a média do grupo (que estava baixa). Isso leva a atualizações excessivamente agressivas.
Reforço de Comportamentos Incorretos (Sign Inversion): Em cenários com recompensas ordinais (comuns em julgamentos de LLMs ou recompensas parciais), o GRPO pode atribuir vantagens positivas a trajetórias incorretas se elas forem "menos ruins" do que a média do grupo. Isso inverte o sinal de aprendizado desejado, reforçando comportamentos falhos em vez de eliminá-los.

2. Metodologia: CoRPO (Correctness-Relative Policy Optimization)

Para resolver essas falhas, os autores propõem o CoRPO, uma modificação simples, porém eficaz, na função objetivo do GRPO.

Mecanismo Principal: O CoRPO introduz um limiar de corretude mínimo ( $R_{min\_correct}$ ) e aplica um "clipping" (limitação) na linha de base do grupo.
Fórmula da Nova Baseline:
$b_{CoRPO} = \max(R_{min\_correct}, b_{mean})$
Onde $b_{mean}$ é a média de recompensas do grupo e $R_{min\_correct}$ é o limite mínimo para considerar uma resposta aceitável.
Comportamento em Duas Fases:
1. Regime de Busca por Corretude: Se a média do grupo estiver abaixo do limiar de corretude ( $b_{mean} < R_{min\_correct}$ ), a baseline é fixada no limiar. Isso garante que nenhuma trajetória incorreta (recompensa abaixo do limiar) receba vantagem positiva, independentemente da composição do grupo. Isso elimina o reforço de falhas.
2. Regime de Busca por Qualidade: Uma vez que o modelo produz consistentemente soluções corretas ( $b_{mean} \ge R_{min\_correct}$ ), a baseline volta a ser a média do grupo, permitindo que trajetórias corretas compitam entre si para refinar a qualidade.
Vantagens Teóricas:
- Garante que trajetórias falhas nunca recebam sinal de aprendizado positivo.
- Mitiga a superestimação de vantagens ao elevar a baseline quando a média amostral é baixa.
- Preserva a eficiência computacional do GRPO (não requer um critic aprendido).

3. Contribuições Principais

Identificação de Falhas: Análise formal de dois modos de falha do GRPO: superestimação de vantagens devido à variância de amostragem e inversão de sinal sob recompensas ordinais.
Proposta do CoRPO: Uma modificação de baseline que corrige ambas as falhas mantendo a eficiência do GRPO.
Evidência Empírica: Demonstração de que o CoRPO melhora a generalização cruzada (cross-domain) e mitiga a "afinação de distribuição" (distribution sharpening), onde o modelo foca excessivamente em um subconjunto estreito de soluções.

4. Resultados Experimentais

Os autores treinaram verificadores explicativos para tarefas de Código e Matemática usando LLMs (Qwen3-8B) e compararam GRPO vs. CoRPO.

Generalização Cruzada (OOD):
- Modelos treinados com CoRPO em tarefas de Código superaram os modelos GRPO em tarefas de Matemática (e vice-versa).
- Exemplo: No conjunto de teste de Matemática (Out-of-Domain), o CoRPO treinado em Código alcançou 90.1% de pass@16, contra 88.8% do GRPO.
- Isso indica que o CoRPO aprende padrões de raciocínio robustos e transferíveis, em vez de heurísticas específicas do domínio.
Dinâmica de Treinamento:
- Reforço Negativo: O CoRPO aprende principalmente através do reforço negativo de comportamentos incorretos no início do treinamento, o que estabiliza a exploração.
- Curriculum Implícito: O CoRPO inibe atualizações ruidosas de soluções subótimas, permitindo que o modelo domine primeiro a corretude básica antes de refinar a qualidade, resultando em uma curva de aprendizado mais estável.
- Robustez ao Tamanho do Grupo: O CoRPO manteve o desempenho superior mesmo com grupos muito pequenos (n=4 rollouts), onde o GRPO sofre de alta variância e viés.
Métricas de Desempenho:
- Em tarefas In-Domain (dentro do domínio de treino), o GRPO às vezes alcança métricas ligeiramente melhores no início, mas o CoRPO supera consistentemente o GRPO em avaliações Out-of-Domain (fora do domínio) e em problemas difíceis ao final do treinamento.

5. Significado e Impacto

O trabalho demonstra que a eficiência do GRPO não deve vir à custa da garantia de corretude. Ao introduzir um viés de corretude simples (clipping da baseline), o CoRPO:

Previne o reforço de alucinações ou soluções incorretas que "parecem boas" em comparação com outras falhas.
Promove uma exploração mais eficaz e evita o colapso da distribuição (onde o modelo ignora soluções raras mas corretas).
Oferece uma solução prática para melhorar a generalização de modelos de raciocínio em RLVR, sendo particularmente valiosa em cenários com recursos computacionais limitados (grupos menores de amostragem) ou recompensas não calibradas.

Em resumo, o CoRPO transforma o GRPO de um otimizador puramente relativo (comparando com pares) para um otimizador que prioriza a verdade absoluta (corretude) antes de buscar a qualidade relativa, resultando em modelos mais robustos e generalizáveis.

CoRPO: Adding a Correctness Bias to GRPO Improves Generalization

A Solução: CoRPO (O "Filtro de Verdade")

Analogias do Dia a Dia

1. O Exame de Direção

2. O Jogo de Basquete

Por que isso é importante? (Os Resultados)

Resumo em uma frase

Título: CoRPO: Adicionando um Viés de Corretude ao GRPO para Melhorar a Generalização

1. Problema Identificado

2. Metodologia: CoRPO (Correctness-Relative Policy Optimization)

3. Contribuições Principais

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation