Learning to Disprove: Formal Counterexample Generation with Large Language Models

Este artigo apresenta uma abordagem para aprimorar modelos de linguagem na geração de contraexemplos matemáticos, utilizando uma estratégia de mutação simbólica e um framework de iteração com múltiplas recompensas para treinar modelos que produzem contraexemplos com provas formais verificáveis no Lean 4.

Zenan Li, Zhaoyu Li, Kaiyu Yang, Xiaoxing Ma, Zhendong Su

Publicado 2026-03-23
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um robô superinteligente a resolver problemas de matemática. Até agora, a maioria dos robôs (Inteligências Artificiais) foi treinada apenas para uma coisa: provar que algo é verdadeiro. É como se eles fossem mestres em construir castelos de areia perfeitos, mas não soubessem como encontrar a onda que derruba o castelo.

Este artigo, chamado "Aprendendo a Refutar" (Learning to Disprove), apresenta uma nova abordagem para ensinar esses robôs a fazer o oposto: encontrar o "bug" ou o exemplo que prova que uma afirmação está errada.

Aqui está uma explicação simples, usando analogias do dia a dia:

1. O Problema: O Robô que só diz "Sim"

Na matemática, para provar que uma regra é falsa, você não precisa provar tudo; você só precisa de um único exemplo que quebre a regra.

  • Exemplo: Se alguém diz "Todos os cisnes são brancos", você não precisa caçar todos os cisnes do mundo. Basta encontrar um cisne preto para derrubar a teoria.
  • O que faltava: As IAs atuais são ótimas em construir argumentos longos para dizer "Sim, isso é verdade". Mas quando elas tentam dizer "Não, olhe aqui, existe um cisne preto", elas falham. Elas não têm prática em "caçar" esses exemplos. Além disso, faltam muitos "treinos" (dados) para elas aprenderem a fazer isso.

2. A Solução: O "Laboratório de Mutação"

Como não há muitos exemplos de "cisnes pretos" prontos para treinar o robô, os autores criaram um método genial chamado Mutação Simbólica.

Imagine que você tem uma receita de bolo infalível (um teorema provado) que diz: "Se você usar farinha, ovos e açúcar, o bolo fica bom."

  • A Mutação: O robô pega essa receita e, de propósito, joga o "açúcar" fora.
  • O Resultado: Agora a receita diz: "Se você usar farinha e ovos, o bolo fica bom."
  • O Desafio: O robô precisa encontrar um caso onde, sem açúcar, o bolo fica horrível (o "contraexemplo").

Ao fazer isso sistematicamente com milhares de teoremas matemáticos, eles criaram um "superconjunto de dados" com 575.000 problemas novos. É como se eles tivessem criado um ginásio de exercícios onde o robô é forçado a encontrar falhas em regras que parecem certas, mas que estão incompletas.

3. O Treinamento: O Sistema de Dupla Recompensa

Treinar um robô para encontrar erros é difícil porque, se ele errar, ele não recebe nenhum feedback (é como tentar adivinhar um número e não saber se está perto ou longe).

Os autores criaram um sistema de dupla recompensa:

  1. Recompensa 1 (O "Não"): O robô precisa provar que a parte que ele removeu (o açúcar) era, de fato, necessária. Ele deve mostrar: "Veja, sem açúcar, o bolo quebrou!"
  2. Recompensa 2 (O "Sim"): O robô precisa provar que o bolo que ele criou (o exemplo específico) realmente funciona como um contraexemplo.

Se o robô conseguir fazer as duas coisas, ele ganha pontos. Isso ajuda o robô a aprender mesmo quando o problema é muito difícil, evitando que ele desista ou fique "preso" em soluções fáceis.

4. O Processo: Dois Passos (Chute e Verificação)

O robô aprende a pensar em duas etapas, como um detetive:

  1. A Chute (Raciocínio Informal): "Hum, se eu tirar o açúcar e usar apenas farinha e ovos, talvez o bolo fique seco. Vou tentar imaginar um bolo específico com esses ingredientes."
  2. A Verificação (Prova Formal): "Ok, agora vou escrever isso na linguagem matemática perfeita (Lean 4) para que o computador verifique se o meu bolo realmente não funciona."

Se o computador (o "Juiz") aprovar, o robô aprende. Se não, ele tenta de novo.

5. Os Resultados: O Detetive Matemático

Os autores testaram esse novo robô em três bancas de prova diferentes.

  • O Resultado: O robô treinado com esse método ficou muito melhor do que os modelos mais inteligentes do mundo (como o GPT-4 ou o DeepSeek-R1) na tarefa de encontrar erros matemáticos.
  • A Melhoria: Em alguns testes, ele acertou 47% a 74% mais problemas do que os concorrentes.

Resumo em uma frase

Os autores ensinaram a IA a não ser apenas um "construtor de castelos", mas também um "caçador de falhas", criando um método para gerar milhões de exercícios de "onde está o erro?" e treinando o robô a encontrar esses erros com precisão cirúrgica, usando a linguagem matemática formal para garantir que a resposta seja 100% correta.

Isso é crucial porque, na ciência e na matemática, saber o que não funciona é tão importante quanto saber o que funciona.