SorryDB: Can AI Provers Complete Real-World Lean Theorems?

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está construindo uma cidade de Lego gigante, chamada Lean. Nessa cidade, os arquitetos (matemáticos) escrevem regras e constroem prédios (teoremas) que provam coisas incríveis, como "o círculo é redondo" ou "o número 2 é primo".

Mas, às vezes, um arquiteto chega em um prédio, diz: "Eu sei como esse prédio deve ficar, mas estou com pressa e não tenho tempo de colocar os tijolos finais agora". Então, ele deixa um espaço vazio marcado com um adesivo escrito "Sorry" (Desculpe, vou terminar depois).

Agora, imagine que temos robôs (Inteligências Artificiais) que prometem terminar esses prédios para os arquitetos. O problema é: como sabemos se esses robôs são bons de verdade?

O Problema: As Provas de Condução Falsas

Até agora, para testar esses robôs, os cientistas usavam "provas de condução" muito específicas e antigas, como resolver quebra-cabeças de matemática de Olimpíadas (como o Putnam ou a IMO).

O problema é que:

São muito fáceis para os robôs hoje: Os robôs já "decoraram" essas provas antigas. É como se você estivesse testando a direção de um piloto em uma pista que ele já percorreu 100 vezes. Ele não está realmente dirigindo; está apenas lembrando a rota.
Não refletem a vida real: Na vida real, construir matemática é bagunçado. Você precisa usar peças de outros prédios, lidar com erros de compilação e entender contextos complexos. As provas antigas não testam isso.

A Solução: O "SorryDB" (O Banco de Dados de Desculpas)

Os autores deste paper criaram algo novo chamado SorryDB. Em vez de usar provas antigas, eles foram até o "GitHub" (o local onde os projetos de código são guardados) e pegaram 78 projetos reais que estão sendo construídos agora.

Eles coletaram todos os adesivos "Sorry" que os matemáticos deixaram para trás.

Analogia: Imagine que, em vez de testar um mecânico em um carro de brinquedo de plástico, você pega 1.000 carros reais que estão na oficina com o capô aberto e diz: "Conserte este problema específico".
O SorryDB é um banco de dados vivo. Ele se atualiza constantemente. Assim que os robôs resolvem um problema, os matemáticos deixam um novo, mais difícil. É um "tiro de meta" que se move para frente, impedindo que os robôs apenas decorem as respostas.

O Grande Teste: Quem é o Melhor Mecânico?

Os autores pegaram 1.000 desses problemas "pendentes" e testaram vários tipos de robôs:

Robôs Gerais: Modelos de IA comuns (como GPT, Claude, Gemini) que sabem de tudo um pouco.
Robôs Especialistas: IAs treinadas especificamente para matemática.
Robôs com "Auto-Correção": IAs que tentam, erram, leem o erro e tentam de novo.
Agentes: IAs que podem "olhar" em bibliotecas de peças (ferramentas de busca) para achar a peça certa antes de tentar montar.

O Que Eles Descobriram?

Os resultados foram surpreendentes e ensinaram lições importantes:

A "Memória" não é tudo: Os robôs que apenas "chutam" a resposta de primeira (pass@1) falharam muito.
O Poder do "Tente de Novo": Os robôs que conseguiam ler o erro do computador, entender onde erraram e tentar de novo (abordagem iterativa ou "agente") foram muito melhores.
- Analogia: É como um aluno que faz a prova, vê que errou a conta, pega a calculadora, refaz e só então entrega. Esse aluno passa. O aluno que chuta e entrega na primeira tentativa reprovou.
Nenhum Robô é o "Super-Homem": Não existe um único robô que resolve tudo.
- Um robô é ótimo em problemas de lógica pura.
- Outro é ótimo em encontrar peças em bibliotecas gigantes.
- Outro é ótimo em corrigir seus próprios erros.
- Conclusão: O melhor sistema é uma equipe onde cada robô faz o que sabe fazer melhor. Juntos, eles resolveram 35% dos problemas, enquanto o melhor robô sozinho resolveu apenas 30%.

Por que isso importa?

O SorryDB mostra que a Inteligência Artificial para matemática não está apenas "decorando" provas antigas. Ela está começando a aprender a trabalhar de verdade, em ambientes bagunçados e complexos, ajudando os humanos a construir o futuro da matemática.

É como se, antes, estivessem testando robôs em um videogame fácil. Agora, com o SorryDB, eles estão jogando no modo "Realidade" com o capô aberto, e os robôs estão finalmente começando a aprender a mexer nas ferramentas de verdade.

SorryDB: Can AI Provers Complete Real-World Lean Theorems?

O Problema: As Provas de Condução Falsas

A Solução: O "SorryDB" (O Banco de Dados de Desculpas)

O Grande Teste: Quem é o Melhor Mecânico?

O Que Eles Descobriram?

Por que isso importa?

Resumo Técnico: SORRYDB

1. O Problema

2. Metodologia: O Dataset SORRYDB

Coleta e Extração

Estrutura do Dataset

3. Contribuições Principais

4. Resultados Experimentais

Desempenho por Categoria de Modelo

Complementaridade

Análise de Falhas

5. Significado e Impacto

SorryDB: Can AI Provers Complete Real-World Lean Theorems?

O Problema: As Provas de Condução Falsas

A Solução: O "SorryDB" (O Banco de Dados de Desculpas)

O Grande Teste: Quem é o Melhor Mecânico?

O Que Eles Descobriram?

Por que isso importa?

Resumo Técnico: SORRYDB

1. O Problema

2. Metodologia: O Dataset SORRYDB

Coleta e Extração

Estrutura do Dataset

3. Contribuições Principais

4. Resultados Experimentais

Desempenho por Categoria de Modelo

Complementaridade

Análise de Falhas

5. Significado e Impacto

Mais como este

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems