SorryDB: Can AI Provers Complete Real-World Lean Theorems?

Each language version is independently generated for its own context, not a direct translation.

🧱 Le Grand Jeu du "Trou à Combler" : Pourquoi les IA ont du mal avec les vrais maths

Imaginez que vous êtes un architecte qui construit une cathédrale géante (la mathématique moderne). Pour que l'édifice soit solide, chaque pierre doit être parfaitement taillée et posée. Mais parfois, les architectes sont pressés ou bloqués. Ils posent donc une pierre provisoire, un peu comme un panneau "Travaux en cours" ou un trou béant qu'ils disent : "Je reviendrai plus tard pour finir ça."

Dans le monde des mathématiques informatisées (avec un outil appelé Lean), ce panneau s'appelle un "sorry" (qui signifie "désolé" en anglais). C'est un mot-clé qui dit au logiciel : "Je sais que cette partie devrait être prouvée, mais pour l'instant, fais comme si c'était vrai."

L'article que nous allons explorer s'intitule SORRYDB. C'est une nouvelle façon de tester les intelligences artificielles (IA) pour voir si elles peuvent vraiment aider les mathématiciens à combler ces trous.

1. Le Problème : Les IA s'entraînent sur des "Jeux Vidéo"

Jusqu'à présent, pour tester si une IA est bonne en maths, on lui donnait des problèmes de concours (comme les Olympiades Internationales).

L'analogie : C'est comme entraîner un pilote de Formule 1 uniquement sur un circuit de karting virtuel. Il est très rapide, mais il ne sait pas conduire dans la boue, sous la pluie, ou réparer une panne sur une vraie route de campagne.
La réalité : Les vrais projets mathématiques sur GitHub (le "GitHub" des maths) sont des chantiers en cours, désordonnés, avec des dépendances complexes. Les benchmarks actuels sont saturés (les IA ont déjà appris les réponses par cœur) et ne reflètent pas la vraie vie.

2. La Solution : SORRYDB, le "Vrai Chantier"

Les auteurs ont créé SORRYDB (la base de données des "Désolés").

Comment ça marche ? Ils ont scanné 78 projets mathématiques réels et actifs sur GitHub. Au lieu de prendre des problèmes finis, ils ont repéré tous les endroits où les humains avaient laissé un "sorry".
L'analogie : Au lieu de donner à l'IA un puzzle terminé à recopier, on lui donne une boîte de Legos avec un trou précis et on lui dit : "Voici la pièce manquante, assemble-la pour que tout tienne ensemble."
Le point fort : C'est un benchmark dynamique. Dès qu'une IA résout un "trou", les humains le comblent, et de nouveaux "trous" apparaissent dans les projets. C'est comme un jeu vidéo qui se met à jour tout seul pour rester difficile.

3. L'Expérience : Qui gagne le concours ?

Les chercheurs ont testé différentes "équipes" d'IA sur 1000 de ces trous, en demandant : "Peux-tu écrire le code pour remplacer ce 'sorry' ?"

Voici les résultats, expliqués simplement :

Les "Marteaux" (Les tactiques classiques) : Ce sont des outils automatiques simples. Ils sont rapides mais ne peuvent résoudre que des problèmes très faciles (comme serrer un écrou).
Les "Génies Solitaires" (Les gros modèles d'IA) : Des modèles comme GPT-5 ou Claude. Ils sont intelligents, mais s'ils essaient de deviner la solution d'un coup sans vérifier, ils échouent souvent. C'est comme un étudiant qui écrit une dissertation sans la relire : il fait des erreurs de logique.
Les "Chercheurs Actifs" (Les agents IA) : C'est la grande surprise. Ces IA ne se contentent pas de répondre. Elles agissent comme un détective :
1. Elles proposent une solution.
2. Elles la testent dans le vrai logiciel (Lean).
3. Si ça plante (erreur de compilation), elles lisent le message d'erreur, comprennent leur bêtise, et réessaient.
- Résultat : C'est la méthode la plus efficace. L'IA qui apprend de ses erreurs (boucle de rétroaction) gagne largement sur celle qui essaie juste de "deviner" une fois.

4. La Leçon : La Complémentarité est la clé

Le résultat le plus important n'est pas qu'une IA a gagné, mais qu'aucune n'a tout gagné.

Certaines IA sont bonnes pour les exercices de cours (pédagogie).
D'autres sont bonnes pour les problèmes de recherche pure.
D'autres encore sont bonnes pour trouver des outils dans la bibliothèque de maths.

L'analogie finale : Imaginez une équipe de sauvetage. Vous n'avez pas besoin d'un seul super-héros qui fait tout. Vous avez besoin d'un pompier, d'un médecin et d'un ingénieur. Chacun résout un type de problème différent. SORRYDB nous montre que pour avancer en mathématiques, il faut combiner plusieurs IA, et surtout, leur donner la capacité de tester et corriger leurs propres erreurs.

En résumé

SORRYDB est un nouveau terrain de jeu pour les IA, basé sur les vrais problèmes non résolus des mathématiciens. Il prouve que pour réussir dans le monde réel, une IA ne doit pas seulement être "intelligente", elle doit être curieuse, capable de se tromper, et surtout, capable d'apprendre de ses échecs en testant ses solutions dans un environnement réel. C'est un pas de géant vers des assistants mathématiques qui nous aideront vraiment à construire la cathédrale du futur.

SorryDB: Can AI Provers Complete Real-World Lean Theorems?

🧱 Le Grand Jeu du "Trou à Combler" : Pourquoi les IA ont du mal avec les vrais maths

1. Le Problème : Les IA s'entraînent sur des "Jeux Vidéo"

2. La Solution : SORRYDB, le "Vrai Chantier"

3. L'Expérience : Qui gagne le concours ?

4. La Leçon : La Complémentarité est la clé

En résumé

1. Problématique et Contexte

2. Méthodologie : Le Benchmark SorryDB

A. Construction du Dataset

B. Infrastructure de Validation

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Impact

SorryDB: Can AI Provers Complete Real-World Lean Theorems?

🧱 Le Grand Jeu du "Trou à Combler" : Pourquoi les IA ont du mal avec les vrais maths

1. Le Problème : Les IA s'entraînent sur des "Jeux Vidéo"

2. La Solution : SORRYDB, le "Vrai Chantier"

3. L'Expérience : Qui gagne le concours ?

4. La Leçon : La Complémentarité est la clé

En résumé

1. Problématique et Contexte

2. Méthodologie : Le Benchmark SorryDB

A. Construction du Dataset

B. Infrastructure de Validation

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Impact

Articles similaires

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems