CLIPO: Contrastive Learning in Policy Optimization Generalizes RLVR

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está ensinando um aluno muito inteligente (o Modelo de Linguagem) a resolver problemas de matemática complexos.

O Problema: A "Prova" que só olha para a nota final

Atualmente, a maneira mais comum de treinar esses alunos é o RLVR (Aprendizado por Reforço com Recompensas Verificáveis). Funciona assim:

Você dá um problema para o aluno.
Ele escreve uma solução passo a passo.
No final, você verifica se a resposta está correta.
- Se a resposta está certa: "Parabéns! +1 ponto!"
- Se a resposta está errada: "Tente de novo. 0 pontos."

O defeito desse método: Imagine que o aluno errou a conta no meio do caminho, chutou um número aleatório e, por sorte, chegou à resposta certa. O sistema diz: "Ótimo trabalho!". O aluno aprende que chutar funciona. Isso é como um aluno que cola a resposta do colega no final da prova e recebe nota máxima, mesmo não tendo entendido nada. Ele não aprende a pensar, apenas a copiar.

A Solução: O CLIPO (O Professor que observa o processo)

Os autores do papel propõem o CLIPO. Eles dizem: "Não basta olhar só para a resposta final. Vamos olhar para o caminho que o aluno percorreu".

A ideia central é baseada em um ditado famoso de Tolstói (citado no início do texto): "Todas as famílias felizes são felizes do mesmo jeito; cada família infeliz é infeliz do seu próprio jeito."

No mundo da matemática e do raciocínio:

Caminhos Felizes (Respostas Corretas): Se você tem 10 alunos diferentes resolvendo o mesmo problema e todos acertam, eles provavelmente seguiram uma lógica similar e correta no meio do caminho. Eles compartilham uma "estrutura invisível" de sucesso.
Caminhos Infelizes (Respostas Erradas): Se um aluno erra, ele pode ter errado de mil maneiras diferentes (esqueceu uma fórmula, somou errado, chutou). O erro é caótico e único.

Como o CLIPO funciona (A Analogia do "Círculo de Amigos")

O CLIPO usa uma técnica chamada Aprendizado Contrastivo. Vamos imaginar uma sala de aula:

O Grupo: O professor pede para 16 alunos resolverem o mesmo problema.
A Triagem: O professor separa quem acertou a resposta final (os "Felizes") de quem errou (os "Infelizes").
A Regra de Ouro do CLIPO:
- O professor diz aos alunos que acertaram: "Vocês estão todos certos, mas o que vocês têm em comum? Vamos fazer com que seus 'pensamentos' fiquem mais parecidos entre si." (Isso é maximizar a similaridade).
- O professor diz aos alunos que erraram: "Seu pensamento é muito diferente do grupo de sucesso. Vamos afastar vocês." (Isso é minimizar a similaridade).

Ao fazer isso, o modelo não aprende apenas a dar a resposta certa. Ele aprende a reproduzir a estrutura lógica que todos os acertos têm em comum. Ele descobre o "caminho de ferro" que leva ao sucesso, ignorando os atalhos de sorte e os desvios de erro.

Por que isso é melhor?

Anti-Halucinação: Se o modelo tentar inventar um passo falso no meio do caminho, ele percebe que esse passo não combina com o "grupo de sucesso" e é corrigido.
Robustez: O modelo aprende a lógica profunda, não apenas a resposta. Se você mudar um pouco o problema (como mudar os números de uma conta), o modelo ainda sabe como resolver, porque aprendeu o padrão, não a memorização.
Sem Custo Extra: Diferente de outros métodos que exigem que humanos leiam cada passo da solução (o que é caro e lento), o CLIPO usa apenas a resposta final para identificar quem acertou, mas usa a inteligência artificial para analisar a semelhança entre os passos de quem acertou.

Resumo em uma frase

O CLIPO é como um treinador que não se importa apenas se o atleta cruzou a linha de chegada, mas observa se todos os atletas campeões estão correndo com a mesma técnica perfeita, e ensina o novato a imitar essa técnica, em vez de apenas tentar chegar lá de qualquer jeito.

Isso torna a Inteligência Artificial mais inteligente, mais confiável e menos propensa a "alucinar" (inventar fatos) ao resolver problemas complexos.

Each language version is independently generated for its own context, not a direct translation.

Título: CLIPO: Aprendizado Contrastivo em Otimização de Políticas Generaliza o RLVR

1. O Problema

O Reinforcement Learning with Verifiable Rewards (RLVR) tornou-se um paradigma dominante para melhorar as capacidades de raciocínio de Grandes Modelos de Linguagem (LLMs), especialmente em tarefas como matemática e codificação. Diferente do RLHF (Feedback Humano), o RLVR utiliza verificadores externos determinísticos (como compiladores de código ou verificadores de equações) para fornecer recompensas binárias baseadas no resultado final.

No entanto, o RLVR enfrenta limitações críticas:

Foco apenas no Resultado: O sistema de recompensa é binário (certo/errado) e ignora a qualidade dos passos intermediários do raciocínio.
Risco de Alucinação e Cópia: Modelos podem aprender a "adivinhar" a resposta correta ou copiar padrões de saída sem entender a lógica subjacente, gerando trajetórias onde o resultado está certo, mas o processo de raciocínio contém erros ou alucinações.
Falta de Generalização: Modelos treinados apenas com recompensas de resultado tendem a superajustar (overfit) aos dados de treino e falham em tarefas com perturbações ou distribuições diferentes (out-of-distribution), pois não capturam a estrutura lógica invariante do raciocínio correto.

2. Metodologia: CLIPO

Os autores propõem o CLIPO (Contrastive Learning in Policy Optimization), um framework que integra aprendizado contrastivo à otimização de políticas baseada em grupos (como GRPO), generalizando o processo de RLVR.

Ideia Central

A premissa é que, embora existam múltiplas trajetórias de raciocínio corretas, elas compartilham uma estrutura lógica invariante subjacente. Em contraste, erros e alucinações são ruídos esporádicos e não correlacionados. O CLIPO busca maximizar a similaridade entre trajetórias bem-sucedidas no espaço de embeddings, forçando o modelo a aprender essa estrutura comum e a rejeitar passos incorretos.

Arquitetura e Funcionamento

Geração de Grupo: Para cada prompt, o modelo gera um grupo de $G$ respostas (rollouts).
Cabeça Contrastiva (Contrastive Head): Adiciona-se uma camada leve (geralmente linear) ao final do modelo de política. Esta camada projeta os estados ocultos finais das trajetórias em um espaço de embeddings semântico.
Cálculo de Perda e Recompensa:
- Dentro de cada grupo, as respostas corretas são tratadas como pares positivos e as incorretas como negativos.
- Aplica-se a função de perda InfoNCE (Information Noise Contrastive Estimation) para maximizar a similaridade entre as trajetórias corretas e minimizar a similaridade com as incorretas.
- A perda contrastiva é convertida em uma recompensa contrastiva densa ( $r_{CL}$ ).
Objetivo Final: A recompensa total para a otimização da política é a soma da recompensa verificável original (binária) e a recompensa contrastiva:
$r' = r_{verifiable} + \lambda \cdot r_{CL}$
Onde $\lambda$ é um hiperparâmetro de ponderação.

Isso transforma o sinal de aprendizado de escasso e binário para denso e relacional, guiando o modelo não apenas para a resposta certa, mas para o caminho lógico correto.

3. Contribuições Chave

Generalização do RLVR: O CLIPO não substitui o RLVR, mas o generaliza, adicionando um sinal de regularização que captura a consistência semântica entre soluções corretas.
Regularização Robusta: Ao alinhar múltiplas trajetórias positivas, o método atua como um mecanismo de "denoising", eliminando passos de raciocínio falhos e alucinações que poderiam passar despercebidos por verificadores de resultado.
Independência de Anotação: Diferente de Process Reward Models (PRMs) que exigem anotação humana cara para cada passo, o CLIPO é auto-supervisionado, utilizando apenas a verificação final do resultado para definir quais trajetórias são positivas.
Universalidade: O método é compatível com várias bases de algoritmos de RLVR (GRPO, GSPO, DAPO, GMPO) e diversos modelos base (Qwen, Llama, DeepSeek).

4. Resultados Experimentais

Os autores avaliaram o CLIPO em dois trilhos experimentais:

Trilho I (Raciocínio Geral e Matemática Básica): Treinamento no GSM8K e avaliação em 8 benchmarks (incluindo variações simbólicas e de perturbação).
- O GRPO+CLIPO alcançou a melhor pontuação média geral (63.26), superando todas as linhas de base.
- Houve ganhos significativos em tarefas de distribuição deslocada (ex: GSM8K-Symbolic, +3.36 pontos), indicando maior robustez.
Trilho II (Raciocínio Matemático de Nível Competitivo): Treinamento no MATH 7.5k e avaliação em benchmarks como AMC, AIME e MATH500.
- O DAPO+CLIPO obteve a melhor pontuação média (44.05).
- O método demonstrou melhoria consistente em tarefas perturbadas e simbólicas, provando sua eficácia na generalização para cenários complexos.

Análises de Ablação:

Cabeça Fixa: Congelar a cabeça contrastiva (sem atualizá-la durante o treino) resultou em queda de desempenho, provando que o modelo precisa aprender a representação semântica específica para o raciocínio.
Tamanho do Grupo: Grupos maiores (mais rollouts) melhoraram o desempenho, pois fornecem mais amostras positivas e negativas para o aprendizado contrastivo.
Temperatura ( $\tau$ ): Temperaturas mais baixas (ex: 0.02) funcionaram melhor, sugerindo que uma escala de similaridade mais "aguda" ajuda a distinguir melhor os exemplos difíceis.

5. Significado e Impacto

O trabalho do CLIPO representa um avanço significativo na área de raciocínio de LLMs ao abordar a falha fundamental do RLVR: a cegueira para a qualidade do processo.

Mudança de Paradigma: Move o foco de "apenas acertar a resposta" para "entender a estrutura lógica comum das respostas corretas".
Escalabilidade: Oferece uma solução escalável e de baixo custo para melhorar a robustez de modelos, sem a necessidade de anotação humana massiva de passos intermediários.
Aplicabilidade: Embora focado em matemática, a abordagem é aplicável a outros domínios estruturados como geração de código e planejamento de agentes, abrindo caminho para agentes de IA mais confiáveis e generalizáveis.

Em resumo, o CLIPO demonstra que incorporar a estrutura relacional entre soluções bem-sucedidas via aprendizado contrastivo é uma estratégia poderosa para superar as limitações de generalização e robustez dos métodos atuais de RLVR.