IndiMathBench: Autoformalizing Mathematical Reasoning Problems with a Human Touch

O artigo apresenta o IndiMathBench, um benchmark verificado por humanos composto por 312 teoremas em Lean 4 derivados de olimpíadas de matemática indianas e criados por meio de um pipeline assistido por IA, que demonstra os desafios contínuos da autoformalização e do raciocínio matemático em modelos de linguagem de ponta.

Param Biyani, Shashank Kirtania, Yasharth Bajpai, Sumit Gulwani, Ashish Tiwari

Publicado 2026-03-12
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um livro de contos de fadas cheio de histórias mágicas e aventuras (os problemas de matemática em linguagem natural). Agora, imagine que você precisa traduzir essas histórias para a linguagem de um robô super rigoroso e chato que só entende lógica pura e não aceita nem um ponto fora do lugar (a linguagem formal Lean 4).

O papel "INDIMATHBENCH" é como um novo e desafiador "campo de treinamento" criado por pesquisadores da Microsoft para testar o quanto os robôs (Inteligências Artificiais) estão bons nessa tradução.

Aqui está a explicação do que eles fizeram, usando analogias do dia a dia:

1. O Problema: A Barreira da Tradução

Até hoje, os robôs (LLMs) são ótimos em escrever textos bonitos, mas quando tentam transformar problemas matemáticos complexos em código que um computador pode verificar, eles tendem a "alucinar". É como se um tradutor tentasse traduzir um poema para uma língua que ele nunca estudou: ele inventa palavras que não existem ou erra a gramática.

Além disso, faltam "livros de exercícios" de alta qualidade para treinar esses robôs. Os existentes são poucos e, muitas vezes, os robôs já os viram durante o treinamento, o que distorce os resultados (é como se o aluno decorasse a resposta do livro em vez de aprender a resolver).

2. A Solução: Uma Equipe Humano-Robô (O "Banco de Dados IndiMath")

Os autores criaram o INDIMATHBENCH, um banco de dados com 312 problemas vindos das Olimpíadas de Matemática da Índia. Por que a Índia? Porque esses problemas têm um estilo único (muita geometria e combinatória) que os robôs adoram errar, servindo como um teste de estresse real.

Mas como eles criaram 312 problemas perfeitos sem gastar anos? Usando uma ferramenta de "cozinha colaborativa":

  • O Chefe (Humano): Um especialista em matemática e programação.
  • Os Cozinheiros (Robôs/LLMs): Vários modelos de IA diferentes tentam "cozinhar" (escrever o código) o problema.
  • O Processo:
    1. O robô tenta escrever o código.
    2. O computador (o "chefe de cozinha") diz: "Isso não compila, tem um erro de sintaxe aqui".
    3. O robô tenta de novo, corrigindo o erro.
    4. Eles fazem isso várias vezes (até 6 tentativas).
    5. O Grande Truque: Eles usam 12 robôs diferentes para tentar o mesmo problema. Depois, um "gerente" (outro robô) lê todas as tentativas, resume o que deu certo e o que deu errado, e mostra tudo para o Chefe Humano.
    6. O humano olha para esse resumo, pega as melhores partes de cada tentativa e faz o ajuste final.

A Analogia do "Montagem de Móveis":
Imagine que você precisa montar um móvel complexo.

  • Sem ajuda: Você lê o manual e tenta montar sozinho. Demora horas e pode ficar torto.
  • Com a ajuda do INDIMATHBENCH: Você pede para 12 pessoas diferentes montarem o móvel. Elas enviam fotos das tentativas. Um robô analisa as fotos e diz: "A pessoa A acertou a perna, a pessoa B acertou a porta, mas ninguém acertou o parafuso X". Você, o humano, pega a perna da A, a porta da B, e conserta o parafuso X. O resultado é um móvel montado em 4 minutos, em vez de 2 horas.

3. Os Resultados: Os Robôs Ainda Estão "Aprendendo a Andar"

Quando testaram os robôs mais inteligentes do mundo (como o GPT-5 e o Claude) nesse novo banco de dados, a notícia não foi tão animadora:

  • Tradução (Autoformalização): Os robôs conseguem escrever código que parece correto (sintaxe), mas muitas vezes o significado está errado (semântica). É como escrever uma frase em inglês perfeitamente gramatical, mas que diz o oposto do que você queria.
  • Prova (Theorem Proving): Quando pediram para os robôs provar que a resposta estava certa, eles falharam quase totalmente.
    • Em tentativas únicas, eles resolveram apenas 1 problema entre 312.
    • Com 10 tentativas e correções (como um aluno que erra, vê a correção e tenta de novo), o melhor modelo (GPT-5) conseguiu resolver cerca de 11% dos problemas.

A Lição: A matemática formal exige um nível de precisão que a IA atual ainda não alcançou sozinha. A IA é ótima em sugerir ideias, mas ainda precisa de um "olho humano" para garantir que a lógica não está vazia.

4. O Legado: Uma Ferramenta para Todos

Os autores não apenas criaram o banco de dados, mas liberaram uma extensão para o VS Code (um editor de código). É como um "assistente de tradução" que ajuda humanos a formalizar matemática mais rápido, mostrando as melhores tentativas dos robôs e resumindo os erros.

Resumo Final:
O paper diz: "Nós criamos um novo teste de matemática difícil, mostramos que os robôs ainda tropeçam muito sozinhos, mas descobrimos que, se você deixar os robôs fazerem o trabalho pesado de rascunho e usar humanos para polir o resultado, podemos criar bancos de dados de alta qualidade muito mais rápido. É uma parceria onde o humano é o maestro e a IA é a orquestra que ainda precisa de regência."