FormalProofBench: Can Models Write Graduate Level Math Proofs That Are Formally Verified?

O artigo apresenta o FormalProofBench, um benchmark privado que avalia a capacidade de modelos de IA de gerar provas matemáticas de nível de pós-graduação formalmente verificadas no Lean 4, revelando que o melhor modelo testado alcança apenas 33,5% de precisão.

Nikil Ravi, Kexing Ying, Vasilii Nesterov, Rayan Krishnan, Elif Uskuplu, Bingyu Xia, Janitha Aswedige, Langston Nashold

Publicado 2026-03-31
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um grupo de estudantes de matemática muito inteligentes (os modelos de IA) e quer saber se eles realmente entendem o que estão fazendo ou se apenas estão "adivinhando" de forma convincente.

O artigo "FormalProofBench" apresenta uma nova e rigorosa prova de fogo para essas IAs. Aqui está a explicação, traduzida para uma linguagem simples e cheia de analogias:

1. O Problema: A Ilusão da Competência

Até agora, testávamos a matemática das IAs com problemas de múltipla escolha ou respostas em texto livre (como "explique como resolver esta equação").

  • A analogia: É como pedir para um aluno escrever uma redação sobre como construir uma ponte. Ele pode usar palavras bonitas, citar engenheiros famosos e parecer muito inteligente. Mas, se a ponte cair quando você tentar atravessá-la, a redação não serviu de nada.
  • O risco: Uma IA pode inventar uma "prova" que soa lógica, mas que tem um erro sutil no meio. Humanos (e até outras IAs) muitas vezes não percebem esse erro porque o texto parece correto.

2. A Solução: O "Tribunal" Lean 4

Os autores criaram o FormalProofBench. Em vez de pedir uma redação, eles pedem para a IA escrever o código de uma prova matemática em uma linguagem chamada Lean 4.

  • A analogia: Pense no Lean 4 como um inspetor de obras extremamente rigoroso e sem sentimentos. Ele não se importa com a beleza da frase ou com a confiança do engenheiro. Ele só verifica se cada peça da ponte encaixa perfeitamente.
  • A regra de ouro: Se o código não "compilar" (se a ponte não ficar de pé), a resposta é considerada errada, ponto final. Não há meio-termo. Ou a prova é matematicamente perfeita e verificável, ou é lixo.

3. O Desafio: Nível de Pós-Graduação

Este não é um teste de matemática do ensino médio. Os problemas vêm de exames de qualificação para doutorado e livros avançados de tópicos como:

  • Análise Real (o estudo de números e limites).
  • Álgebra e Geometria Algébrica.
  • Probabilidade e Teoria da Medida.
  • A analogia: É como pedir para um estudante do ensino médio resolver um problema de física quântica que um professor universitário ainda está estudando. É difícil, complexo e exige conhecimento profundo.

4. Como o Teste Funciona (O "Agente")

As IAs não recebem apenas o problema; elas recebem uma "caixa de ferramentas" e 40 chances (turnos) para tentar resolver.

  • As ferramentas:
    1. Pesquisa (Loogle): Para procurar teoremas existentes na biblioteca de matemática (como usar o Google para achar uma fórmula).
    2. Execução de Código (Lean Run): Para tentar escrever a prova, rodar o código e ver onde deu erro.
    3. Submissão: Para entregar a prova final.
  • O processo: A IA tenta, o inspetor (Lean) diz "está errado aqui", a IA corrige, tenta de novo, pesquisa mais, e assim por diante, até conseguir ou esgotar as tentativas.

5. O Que Eles Descobriram?

Os pesquisadores testaram as IAs mais poderosas do mundo (como Claude, GPT-5, Gemini, etc.).

  • O Resultado: Mesmo as IAs mais inteligentes do planeta tiveram um desempenho modesto. A melhor delas (Claude Opus 4.5) acertou apenas 33,5% dos problemas.
  • A lição: A maioria das IAs ainda está muito longe de ser capaz de fazer matemática de nível de pós-graduação de forma totalmente confiável e verificada.
  • O segredo do sucesso: As IAs que acertaram mais não foram as que mais pesquisaram no Google (Loogle). Foram aquelas que escreveram e testaram código repetidamente.
    • Analogia: É como aprender a cozinhar. Alguém que apenas lê receitas (pesquisa) erra muito. Alguém que coloca os ingredientes na panela, prova, vê que está salgado, ajusta e prova de novo (execução de código) é quem consegue fazer o prato perfeito.

6. Por Que Isso Importa?

Este teste é importante porque:

  1. Não há "cola": Como o teste é privado e os problemas são formalizados especificamente para isso, as IAs não podem ter "decorado" as respostas na internet.
  2. Verdadeira Verificação: Elimina a alucinação. Se a IA diz que provou algo, o computador confirma.
  3. Futuro da Matemática: Se as IAs chegarem a um nível onde conseguem passar nesse teste com frequência, elas poderão se tornar parceiros reais para matemáticos, ajudando a provar teoremas complexos e acelerando a descoberta científica.

Resumo em uma frase:
O FormalProofBench é um exame final onde as IAs precisam construir pontes matemáticas sob a supervisão de um inspetor implacável; até agora, a maioria das pontes ainda cai, mas as que ficam de pé são construídas por quem testa e ajusta o código, não por quem apenas lê as instruções.

Afogado em artigos na sua área?

Receba digests diários dos artigos mais recentes que correspondam às suas palavras-chave de pesquisa — com resumos técnicos, no seu idioma.

Experimentar Digest →