Large Language Models are Contrastive Reasoners

O artigo demonstra que a técnica de "Contrastive Prompting", que solicita ao modelo de linguagem grande (LLM) gerar simultaneamente uma resposta correta e uma errada, melhora significativamente o desempenho em tarefas de raciocínio complexo sem necessidade de exemplos pré-definidos, superando métodos existentes como o Chain-of-Thought.

Liang Yao

Publicado 2026-03-06
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um amigo muito inteligente, mas que às vezes, quando resolve um problema, ele tem pressa e comete erros bobos. Você sabe que ele é capaz de acertar, mas ele precisa de um "empurrãozinho" para pensar com mais cuidado.

É exatamente isso que o artigo "Large Language Models are Contrastive Reasoners" (Modelos de Linguagem Grandes são Raciocinadores Contrastivos) propõe. Os autores, da Universidade Sun Yat-sen, descobriram uma maneira simples e brilhante de fazer esses "cérebros digitais" (como o GPT-4) acertarem muito mais questões difíceis de matemática e lógica, sem precisar de exemplos escritos à mão por humanos.

Aqui está a explicação do conceito, usando analogias do dia a dia:

1. O Problema: O "Pensamento Rápido"

Atualmente, quando pedimos para uma Inteligência Artificial (IA) resolver um problema, nós geralmente dizemos: "Pense passo a passo" (o famoso Chain-of-Thought).

  • A analogia: É como pedir para um aluno fazer uma prova e dizer: "Vá devagar e explique o que está fazendo".
  • O problema: Mesmo com essa instrução, a IA pode alucinar, inventar um passo errado e seguir em frente com confiança, chegando a uma resposta errada. Ela não percebeu que errou porque nunca parou para olhar o que poderia estar errado.

2. A Solução: O "Advogado do Diabo" Interno

Os autores criaram uma nova técnica chamada Contrastive Prompting (Prompting Contrastivo). A ideia é simples: antes de pedir a resposta, você diz para a IA:

"Vamos dar uma resposta correta e uma resposta errada."

  • A analogia do Detetive: Imagine que você é um detetive. Em vez de apenas tentar adivinhar quem foi o criminoso, você cria duas teorias:

    1. "O criminoso foi o Sr. Silva."
    2. "O criminoso foi o Sr. Silva, mas com uma lógica errada (ele estava em outro lugar)."
      Ao forçar a IA a criar a versão "errada" (o falso caminho), ela é obrigada a comparar as duas. Ao ver o erro na segunda versão, ela percebe onde está a armadilha e se fortalece para escolher a primeira versão correta.
  • A analogia do Espelho: É como se a IA olhasse no espelho e dissesse: "Se eu fosse tentar enganar alguém, eu faria assim (erro). Mas, como eu quero ser honesto, vou fazer o oposto (acerto)." Ao ver o erro, ela aprende a evitá-lo.

3. Como Funciona na Prática?

O método funciona em duas etapas rápidas:

  1. A Pergunta: Você dá o problema (ex: "Tim tem 5 árvores e colhe 6 limões por ano. Quantos limões ele tem em 10 anos?").
  2. O Comando Mágico: Você adiciona a frase: "Vamos dar uma resposta correta e uma errada."
  3. A Mágica: A IA gera o raciocínio para a resposta certa e, ao mesmo tempo, gera um raciocínio para a resposta errada (talvez dizendo que 10 anos são 20 anos, ou que 5 vezes 6 é 35).
  4. O Resultado: Ao ver a resposta errada claramente identificada como "errada", a IA "limpa" sua mente e entrega a resposta correta com muito mais confiança.

4. Por que isso é incrível?

  • Sem esforço humano: Antigamente, para ensinar uma IA a não errar, precisávamos escrever centenas de exemplos de "como resolver" e "onde as pessoas erram". Com essa técnica, a IA cria seus próprios exemplos de erros sozinha! É como se ela estudasse sozinha para a prova.
  • Resultados Espetaculares: Nos testes, essa técnica melhorou a pontuação de modelos de IA em questões de matemática de forma absurda.
    • Em um teste famoso (GSM8K), a precisão saltou de 35,9% (sem ajuda) para 88,8% (com essa técnica). É como transformar um aluno que tirava nota 3,5 em um aluno que tira 9,0, apenas mudando a forma como a pergunta é feita.
  • Funciona em tudo: Funciona para matemática, para lógica do dia a dia e até para símbolos estranhos.

5. A Conclusão

O artigo nos ensina que os modelos de linguagem (como o GPT) já sabem muito sobre o que é certo e o que é errado, porque foram treinados em toda a internet (onde há muitas respostas certas e erradas). O segredo não é ensinar algo novo, mas sim ativar essa capacidade de comparação.

Ao pedir para a IA pensar no "erro" junto com o "acerto", nós a fazemos usar sua própria inteligência para se corrigir. É como dar um "espelho" para a máquina, permitindo que ela veja seus próprios tropeços antes de dar o salto final para a resposta correta.

Em resumo: Em vez de apenas pedir para a IA "pensar", nós pedimos para ela "pensar no erro". E, ironicamente, é pensando no erro que ela aprende a acertar.