LeanTutor: Towards a Verified AI Mathematical Proof Tutor

Ce papier présente LeanTutor, un système de tutorat mathématique basé sur l'IA qui combine les forces des grands modèles de langage et des prouveurs de théorèmes pour fournir des preuves vérifiables, évalué grâce à un nouveau jeu de données nommé PeanoBench.

Manooshree Patel, Rayna Bhattacharyya, Thomas Lu, Arnav Mehta, Niels Voss, Narges Norouzi, Gireeja Ranade

Publié 2026-03-05
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

🎓 LeanTutor : Le Tuteur Mathématique "Infaillible"

Imaginez que vous apprenez à jouer du piano. Vous avez deux options pour vous aider :

  1. Un ami très bavard (l'IA classique) : Il vous donne des conseils super gentils, mais il peut se tromper de note, inventer des mélodies qui n'existent pas, ou vous donner la réponse complète avant même que vous ayez essayé. C'est comme un ami qui chante faux mais avec beaucoup de confiance.
  2. Un métronome robotique (le prouveur de théorèmes) : Il est parfait. Il ne se trompe jamais. Mais il est très strict, parle un langage incompréhensible (des codes bizarres) et ne vous explique pas pourquoi vous avez raté votre note. C'est frustrant pour un débutant.

LeanTutor, c'est le mariage parfait entre ces deux mondes. C'est un tuteur qui parle comme un humain (en langage naturel) mais qui vérifie chaque étape avec la rigueur d'un robot infaillible.

🧩 Comment ça marche ? (Les 3 Super-Pouvoirs)

Le système est composé de trois modules qui travaillent ensemble, comme une équipe de trois experts :

  1. Le Traducteur (L'Autoformalisateur) :

    • Le problème : Vous écrivez votre preuve en français ("Je suppose que X est vrai..."). L'ordinateur, lui, ne comprend que le "Lean" (un langage de code très précis).
    • La solution : Ce module traduit instantanément vos mots en code Lean. C'est comme un interprète qui écoute votre conversation et la transcrit en temps réel pour le robot.
  2. Le Gardien du Code (Le Vérificateur) :

    • Le problème : Les IA classiques (comme ChatGPT) peuvent halluciner et dire "C'est bon !" alors que c'est faux.
    • La solution : Le robot Lean vérifie chaque phrase traduite. Si vous faites une erreur de logique, le robot dit : "Non, ça ne compile pas". Il ne ment jamais.
  3. Le Coach Bienveillant (Le Générateur de Feedback) :

    • Le problème : Si le robot dit juste "Erreur", vous ne comprenez pas pourquoi.
    • La solution : Le tuteur analyse l'erreur et vous donne un indice en français. Au lieu de vous donner la réponse, il vous dit : "Hé, regarde ta base de départ, tu as oublié un petit détail ici". Il vous guide sans tricher.

🛠️ L'Expérience : Le "Jeu des Nombres Naturels"

Pour tester ce système, les chercheurs ont créé un terrain de jeu appelé PeanoBench.
Imaginez un jeu vidéo éducatif où l'on doit prouver des règles de base de l'arithmétique (comme "l'addition est commutative", c'est-à-dire que 2+3 = 3+2).

  • Ils ont pris 371 niveaux de ce jeu.
  • Pour chaque niveau, ils ont une solution parfaite (écrite par des experts) et des centaines de tentatives d'étudiants (parfois correctes, parfois pleines d'erreurs logiques).
  • Ils ont demandé à LeanTutor de corriger ces tentatives.

📊 Les Résultats : Ce qui a bien fonctionné (et ce qui reste difficile)

Les bonnes nouvelles :

  • Pas d'hallucinations : Contrairement aux IA classiques, LeanTutor ne vous donne jamais de fausses réponses. Si c'est faux, il le sait.
  • Meilleur que la base : Quand on compare LeanTutor à une IA standard, LeanTutor identifie mieux les erreurs et donne des conseils plus pertinents.
  • Le secret du succès : Le système fonctionne mieux quand il a une "solution de référence" (la réponse du prof) sous les yeux pour comparer avec ce que l'étudiant écrit.

Les défis restants (Les limites) :

  • La traduction est fragile : Si un étudiant écrit une phrase très bizarre ou mal structurée, le "Traducteur" peut se tromper en passant du français au code. Si la traduction est fausse, le robot pense que l'étudiant a fait une erreur alors qu'il n'a fait que mal s'exprimer.
  • Pas encore pour les maths complexes : Pour l'instant, ça marche bien sur des maths de niveau lycée/université débutant (arithmétique de Peano). Pour des maths très avancées, le système doit encore apprendre.

💡 En résumé

LeanTutor, c'est comme avoir un professeur de maths qui a lu tous les livres de la bibliothèque (grâce à l'IA) mais qui possède aussi une règle magique qui ne permet aucune erreur (grâce au prouveur Lean).

Son but n'est pas de faire les devoirs à votre place, mais de vous tenir la main pour que vous trouviez la solution par vous-même, en s'assurant que chaque pas que vous faites est mathématiquement vrai. C'est une étape vers un futur où l'IA nous aide à apprendre à penser, et pas seulement à copier.