CLIPO: Contrastive Learning in Policy Optimization Generalizes RLVR

O artigo apresenta o CLIPO, um método que generaliza o Aprendizado por Reforço com Recompensas Verificáveis (RLVR) ao incorporar aprendizado contrastivo na otimização de políticas, permitindo que modelos de linguagem capturem a estrutura invariante de raciocínios corretos e, assim, mitiguem inconsistências e alucinações em etapas intermediárias, resultando em melhor generalização e robustez.

Sijia Cui, Pengyu Cheng, Jiajun Song, Yongbo Gai, Guojun Zhang, Zhechao Yu, Jianhe Lin, Xiaoxi Jiang, Guanjun Jiang

Publicado 2026-03-12
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está ensinando um aluno muito inteligente (o Modelo de Linguagem) a resolver problemas de matemática complexos.

O Problema: A "Prova" que só olha para a nota final

Atualmente, a maneira mais comum de treinar esses alunos é o RLVR (Aprendizado por Reforço com Recompensas Verificáveis). Funciona assim:

  1. Você dá um problema para o aluno.
  2. Ele escreve uma solução passo a passo.
  3. No final, você verifica se a resposta está correta.
    • Se a resposta está certa: "Parabéns! +1 ponto!"
    • Se a resposta está errada: "Tente de novo. 0 pontos."

O defeito desse método: Imagine que o aluno errou a conta no meio do caminho, chutou um número aleatório e, por sorte, chegou à resposta certa. O sistema diz: "Ótimo trabalho!". O aluno aprende que chutar funciona. Isso é como um aluno que cola a resposta do colega no final da prova e recebe nota máxima, mesmo não tendo entendido nada. Ele não aprende a pensar, apenas a copiar.

A Solução: O CLIPO (O Professor que observa o processo)

Os autores do papel propõem o CLIPO. Eles dizem: "Não basta olhar só para a resposta final. Vamos olhar para o caminho que o aluno percorreu".

A ideia central é baseada em um ditado famoso de Tolstói (citado no início do texto): "Todas as famílias felizes são felizes do mesmo jeito; cada família infeliz é infeliz do seu próprio jeito."

No mundo da matemática e do raciocínio:

  • Caminhos Felizes (Respostas Corretas): Se você tem 10 alunos diferentes resolvendo o mesmo problema e todos acertam, eles provavelmente seguiram uma lógica similar e correta no meio do caminho. Eles compartilham uma "estrutura invisível" de sucesso.
  • Caminhos Infelizes (Respostas Erradas): Se um aluno erra, ele pode ter errado de mil maneiras diferentes (esqueceu uma fórmula, somou errado, chutou). O erro é caótico e único.

Como o CLIPO funciona (A Analogia do "Círculo de Amigos")

O CLIPO usa uma técnica chamada Aprendizado Contrastivo. Vamos imaginar uma sala de aula:

  1. O Grupo: O professor pede para 16 alunos resolverem o mesmo problema.
  2. A Triagem: O professor separa quem acertou a resposta final (os "Felizes") de quem errou (os "Infelizes").
  3. A Regra de Ouro do CLIPO:
    • O professor diz aos alunos que acertaram: "Vocês estão todos certos, mas o que vocês têm em comum? Vamos fazer com que seus 'pensamentos' fiquem mais parecidos entre si." (Isso é maximizar a similaridade).
    • O professor diz aos alunos que erraram: "Seu pensamento é muito diferente do grupo de sucesso. Vamos afastar vocês." (Isso é minimizar a similaridade).

Ao fazer isso, o modelo não aprende apenas a dar a resposta certa. Ele aprende a reproduzir a estrutura lógica que todos os acertos têm em comum. Ele descobre o "caminho de ferro" que leva ao sucesso, ignorando os atalhos de sorte e os desvios de erro.

Por que isso é melhor?

  • Anti-Halucinação: Se o modelo tentar inventar um passo falso no meio do caminho, ele percebe que esse passo não combina com o "grupo de sucesso" e é corrigido.
  • Robustez: O modelo aprende a lógica profunda, não apenas a resposta. Se você mudar um pouco o problema (como mudar os números de uma conta), o modelo ainda sabe como resolver, porque aprendeu o padrão, não a memorização.
  • Sem Custo Extra: Diferente de outros métodos que exigem que humanos leiam cada passo da solução (o que é caro e lento), o CLIPO usa apenas a resposta final para identificar quem acertou, mas usa a inteligência artificial para analisar a semelhança entre os passos de quem acertou.

Resumo em uma frase

O CLIPO é como um treinador que não se importa apenas se o atleta cruzou a linha de chegada, mas observa se todos os atletas campeões estão correndo com a mesma técnica perfeita, e ensina o novato a imitar essa técnica, em vez de apenas tentar chegar lá de qualquer jeito.

Isso torna a Inteligência Artificial mais inteligente, mais confiável e menos propensa a "alucinar" (inventar fatos) ao resolver problemas complexos.