FormalProofBench: Can Models Write Graduate Level Math Proofs That Are Formally Verified?

Le papier présente FormalProofBench, un benchmark privé évaluant la capacité des modèles d'IA à générer des preuves mathématiques de niveau universitaire vérifiables formellement en Lean 4, révélant que le meilleur modèle atteint une précision de 33,5 %.

Nikil Ravi, Kexing Ying, Vasilii Nesterov, Rayan Krishnan, Elif Uskuplu, Bingyu Xia, Janitha Aswedige, Langston Nashold

Publié 2026-03-31
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

🧠 Le Grand Défi des Mathématiques : Les IA peuvent-elles prouver leurs dires ?

Imaginez que vous êtes un professeur de mathématiques très exigeant. Vous avez un élève (une Intelligence Artificielle) qui vous explique comment résoudre un problème complexe. L'élève écrit une réponse très convaincante, avec de beaux mots et une logique qui semble parfaite.

Le problème ? En mathématiques, on ne peut pas se fier aux apparences. Une petite erreur de logique, un cas oublié, ou une règle inventée de toutes pièces, et toute la démonstration s'effondre. C'est comme construire un gratte-ciel sur des fondations en mousse : ça a l'air beau, mais ça va s'écrouler.

C'est là qu'intervient FormalProofBench, le nouveau "terrain de jeu" créé par les chercheurs pour tester les IA.

🏗️ L'Analogie du "Juge Robot" (Lean 4)

Dans le monde réel, un humain peut relire un devoir et dire : "C'est plausible". Mais en mathématiques de haut niveau (niveau master ou doctorat), le "plausible" ne suffit pas.

Les chercheurs ont créé un juge robotique infaillible appelé Lean 4.

  • L'IA doit écrire sa preuve non pas en français ou en anglais, mais dans un langage informatique très strict (le langage Lean).
  • Le Juge ne lit pas les mots. Il vérifie chaque brique de la preuve. Si une seule brique est mal posée, le bâtiment s'effondre et le juge dit : "Échec".
  • Si tout est parfait, le juge dit : "Validé".

Il n'y a pas de demi-mesure. Soit la preuve passe le test, soit elle échoue. C'est comme un code informatique : ça compile ou ça ne compile pas.

🎓 Le Niveau du Test : "Le Doctorat"

La plupart des tests d'IA actuels demandent de résoudre des problèmes de type "olympiade" (niveau lycée) ou des énigmes logiques simples. C'est comme demander à un élève de faire des calculs de base.

FormalProofBench, lui, demande aux IA de résoudre des problèmes de niveau universitaire avancé (analyse, algèbre, probabilités, logique).

  • C'est comme demander à un élève de lycée de résoudre les équations d'un physicien Nobel.
  • Les problèmes viennent de vrais examens de fin d'études et de manuels universitaires.

🤖 Le Résultat : Qui est le meilleur ?

Les chercheurs ont mis en compétition les IA les plus puissantes du monde (comme Claude, GPT-5, Gemini, etc.). Elles avaient le droit d'utiliser des outils pour les aider :

  1. Une bibliothèque de référence (pour chercher des théorèmes existants).
  2. Un laboratoire d'essai (pour écrire du code, tester leur preuve, voir où ça coince, et réessayer).

Le verdict est sans appel :

  • Même la meilleure IA du moment (Claude Opus 4.5) n'a réussi qu'33,5 % des problèmes.
  • C'est-à-dire qu'elle a échoué sur deux tiers des exercices, même avec beaucoup de temps et d'outils à sa disposition.
  • Les autres modèles ont fait beaucoup moins bien, certains réussissant moins de 5 % des cas.

L'analogie du coureur : Imaginez une course de 100 mètres. Les IA actuelles sont capables de courir très vite sur les 10 premiers mètres (les problèmes faciles), mais dès qu'elles doivent gérer la complexité et la précision requises pour le reste du parcours, elles trébuchent.

🔍 Ce que nous avons appris (Les leçons)

  1. L'importance de l'essai-erreur : Les IA qui réussissent le mieux sont celles qui n'essaient pas de tout deviner d'un coup. Elles écrivent un bout de code, le testent, voient l'erreur, corrigent, et réessaient. C'est comme un artisan qui teste son marteau avant de frapper le clou.
  2. Le piège de la recherche : Certaines IA passent trop de temps à chercher des informations dans la bibliothèque sans jamais essayer de construire la preuve. C'est comme un étudiant qui lit tout le dictionnaire au lieu de rédiger son devoir.
  3. L'écart entre "dire" et "faire" : Une IA peut expliquer une solution en langage naturel de manière brillante, mais dès qu'elle doit la formaliser rigoureusement, ses erreurs cachées apparaissent.

🚀 Pourquoi c'est important pour le futur ?

Ce test est une étape cruciale. Aujourd'hui, les mathématiciens doivent vérifier manuellement chaque preuve, ce qui prend du temps et est sujet aux erreurs humaines.

Si un jour une IA peut passer ce test avec succès (100 % de réussite), cela signifiera qu'elle peut devenir un assistant de recherche réel. Elle pourrait aider les humains à :

  • Découvrir de nouveaux théorèmes.
  • Vérifier des preuves complexes en quelques secondes.
  • Démocratiser l'accès aux mathématiques de pointe.

Pour l'instant, nous sommes encore à l'aube de cette révolution. Les IA sont brillantes, mais elles ne sont pas encore prêtes à remplacer les mathématiciens. Elles doivent encore apprendre à être aussi rigoureuses que le juge robotique.

Noyé(e) sous les articles dans votre domaine ?

Recevez des digests quotidiens des articles les plus récents correspondant à vos mots-clés de recherche — avec des résumés techniques, dans votre langue.

Essayer Digest →