SorryDB: Can AI Provers Complete Real-World Lean Theorems?

O artigo apresenta o SorryDB, um benchmark dinâmico e atualizado de tarefas reais em Lean extraídas de projetos do GitHub para avaliar e alinhar provadores de IA às necessidades da comunidade, demonstrando que abordagens atuais, como modelos de linguagem, agentes e provadores simbólicos, são complementares em vez de uma ser estritamente superior às outras.

Austin Letson, Leopoldo Sarra, Auguste Poiroux, Oliver Dressler, Paul Lezeau, Dhyan Aranha, Frederick Pu, Aaron Hill, Miguel Corredera Hidalgo, Julian Berman, George Tsoukalas, Lenny Taelman

Publicado 2026-03-04
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está construindo uma cidade de Lego gigante, chamada Lean. Nessa cidade, os arquitetos (matemáticos) escrevem regras e constroem prédios (teoremas) que provam coisas incríveis, como "o círculo é redondo" ou "o número 2 é primo".

Mas, às vezes, um arquiteto chega em um prédio, diz: "Eu sei como esse prédio deve ficar, mas estou com pressa e não tenho tempo de colocar os tijolos finais agora". Então, ele deixa um espaço vazio marcado com um adesivo escrito "Sorry" (Desculpe, vou terminar depois).

Agora, imagine que temos robôs (Inteligências Artificiais) que prometem terminar esses prédios para os arquitetos. O problema é: como sabemos se esses robôs são bons de verdade?

O Problema: As Provas de Condução Falsas

Até agora, para testar esses robôs, os cientistas usavam "provas de condução" muito específicas e antigas, como resolver quebra-cabeças de matemática de Olimpíadas (como o Putnam ou a IMO).

O problema é que:

  1. São muito fáceis para os robôs hoje: Os robôs já "decoraram" essas provas antigas. É como se você estivesse testando a direção de um piloto em uma pista que ele já percorreu 100 vezes. Ele não está realmente dirigindo; está apenas lembrando a rota.
  2. Não refletem a vida real: Na vida real, construir matemática é bagunçado. Você precisa usar peças de outros prédios, lidar com erros de compilação e entender contextos complexos. As provas antigas não testam isso.

A Solução: O "SorryDB" (O Banco de Dados de Desculpas)

Os autores deste paper criaram algo novo chamado SorryDB. Em vez de usar provas antigas, eles foram até o "GitHub" (o local onde os projetos de código são guardados) e pegaram 78 projetos reais que estão sendo construídos agora.

Eles coletaram todos os adesivos "Sorry" que os matemáticos deixaram para trás.

  • Analogia: Imagine que, em vez de testar um mecânico em um carro de brinquedo de plástico, você pega 1.000 carros reais que estão na oficina com o capô aberto e diz: "Conserte este problema específico".
  • O SorryDB é um banco de dados vivo. Ele se atualiza constantemente. Assim que os robôs resolvem um problema, os matemáticos deixam um novo, mais difícil. É um "tiro de meta" que se move para frente, impedindo que os robôs apenas decorem as respostas.

O Grande Teste: Quem é o Melhor Mecânico?

Os autores pegaram 1.000 desses problemas "pendentes" e testaram vários tipos de robôs:

  1. Robôs Gerais: Modelos de IA comuns (como GPT, Claude, Gemini) que sabem de tudo um pouco.
  2. Robôs Especialistas: IAs treinadas especificamente para matemática.
  3. Robôs com "Auto-Correção": IAs que tentam, erram, leem o erro e tentam de novo.
  4. Agentes: IAs que podem "olhar" em bibliotecas de peças (ferramentas de busca) para achar a peça certa antes de tentar montar.

O Que Eles Descobriram?

Os resultados foram surpreendentes e ensinaram lições importantes:

  • A "Memória" não é tudo: Os robôs que apenas "chutam" a resposta de primeira (pass@1) falharam muito.
  • O Poder do "Tente de Novo": Os robôs que conseguiam ler o erro do computador, entender onde erraram e tentar de novo (abordagem iterativa ou "agente") foram muito melhores.
    • Analogia: É como um aluno que faz a prova, vê que errou a conta, pega a calculadora, refaz e só então entrega. Esse aluno passa. O aluno que chuta e entrega na primeira tentativa reprovou.
  • Nenhum Robô é o "Super-Homem": Não existe um único robô que resolve tudo.
    • Um robô é ótimo em problemas de lógica pura.
    • Outro é ótimo em encontrar peças em bibliotecas gigantes.
    • Outro é ótimo em corrigir seus próprios erros.
    • Conclusão: O melhor sistema é uma equipe onde cada robô faz o que sabe fazer melhor. Juntos, eles resolveram 35% dos problemas, enquanto o melhor robô sozinho resolveu apenas 30%.

Por que isso importa?

O SorryDB mostra que a Inteligência Artificial para matemática não está apenas "decorando" provas antigas. Ela está começando a aprender a trabalhar de verdade, em ambientes bagunçados e complexos, ajudando os humanos a construir o futuro da matemática.

É como se, antes, estivessem testando robôs em um videogame fácil. Agora, com o SorryDB, eles estão jogando no modo "Realidade" com o capô aberto, e os robôs estão finalmente começando a aprender a mexer nas ferramentas de verdade.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →