Learning to Disprove: Formal Counterexample Generation with Large Language Models

Cet article présente une méthode pour affiner des modèles de langage afin de générer des contre-exemples mathématiques formels vérifiables dans Lean 4, en utilisant une stratégie de mutation symbolique et un cadre d'itération experte pour combler le fossé actuel entre la construction de preuves et la réfutation d'énoncés faux.

Zenan Li, Zhaoyu Li, Kaiyu Yang, Xiaoxing Ma, Zhendong Su

Publié 2026-03-23
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

🧠 Le Grand Défi : Ne pas seulement construire, mais aussi détruire

Imaginez que vous apprenez à un robot à faire des mathématiques. Jusqu'à présent, on lui a surtout appris à construire des preuves. C'est comme lui apprendre à bâtir un château de cartes solide : il doit montrer que chaque carte est bien placée pour que la tour tienne. C'est le travail de "prouver que quelque chose est VRAI".

Mais dans la vraie vie des mathématiques, il y a une autre compétence cruciale : prouver que quelque chose est FAUX. Pour cela, il faut trouver un contre-exemple. C'est comme trouver la seule carte dans le monde qui fait effondrer tout le château. Si vous trouvez cette carte, vous avez prouvé que la règle "toutes les cartes tiennent" est fausse.

Le problème ? Les intelligences artificielles actuelles sont excellentes pour construire des châteaux, mais elles sont très mauvaises pour trouver la carte qui fait tout tomber. Elles essaient souvent de prouver que le château est solide, même quand il devrait s'effondrer.

🛠️ La Solution : L'Art du "Détournement" (Mutation Symbolique)

Les chercheurs de ce papier ont eu une idée géniale pour entraîner leurs robots à trouver ces erreurs. Ils ont utilisé une technique qu'on pourrait appeler "le détournement de théorèmes".

Voici comment ça marche, avec une analogie de cuisine :

  1. La Recette Parfaite (Le Théorème) : Imaginez une recette de gâteau qui dit : "Si vous utilisez de la farine (H1) ET du sucre (H2), alors vous obtiendrez un gâteau délicieux (C)." C'est une vérité absolue.
  2. Le Détournement (La Mutation) : Le robot prend cette recette et dit : "Et si on enlevait la farine ?" Il crée une nouvelle règle : "Si vous utilisez du sucre (H2), vous obtiendrez un gâteau délicieux (C)."
  3. Le Problème : Cette nouvelle règle est fausse ! Sans farine, le gâteau ne tient pas.
  4. La Mission du Robot : Le robot doit maintenant trouver un exemple concret (un "contre-exemple") où l'on a du sucre mais pas de farine, et où le résultat est un gâteau raté.

En faisant cela automatiquement sur des milliers de théorèmes, les chercheurs ont créé une énorme bibliothèque d'exercices où le robot doit systématiquement trouver les failles. C'est comme donner au robot des milliers de puzzles où il doit trouver l'erreur cachée.

🎯 Le Système de Récompense Double (Le "Double Score")

Entraîner un robot à trouver des erreurs est difficile. Si le robot échoue, il ne reçoit aucune récompense, et il ne sait pas comment s'améliorer (c'est ce qu'on appelle un "signal de récompense rare").

Pour résoudre ça, les chercheurs ont mis en place un système de double récompense :

  • Récompense 1 (La Preuve de l'Erreur) : Le robot doit prouver que son exemple (le gâteau raté) fonctionne bien pour la nouvelle règle fausse.
  • Récompense 2 (La Preuve de la Cause) : Le robot doit aussi prouver que ce qui manque (l'absence de farine) est bien la cause du problème.

Même si le robot ne trouve pas la solution parfaite immédiatement, s'il arrive à prouver la "cause" (Récompense 2), il reçoit quand même un petit point. Cela l'encourage à continuer d'essayer, même sur les problèmes très difficiles. C'est comme dire à un élève : "Tu n'as pas trouvé la réponse finale, mais tu as bien identifié la cause de l'erreur, bravo !"

🚀 Les Résultats : Un Robot qui devient un Détective

Grâce à cette méthode, les chercheurs ont entraîné un modèle d'IA capable de :

  1. Penser à l'aveugle (trouver un exemple concret dans sa tête).
  2. Écrire la preuve formelle (écrire le code mathématique rigoureux qui prouve que l'exemple est correct).
  3. Se faire vérifier par un ordinateur (un "juge" mathématique) qui dit : "C'est vrai, c'est un contre-exemple !"

Les résultats sont impressionnants. Sur des tests difficiles, leur modèle a surpassé les meilleurs modèles existants de 47 % à 74 %.

🌟 En Résumé

Imaginez que vous voulez apprendre à un enfant à ne pas se tromper en mathématiques. Au lieu de lui donner seulement des exercices où il doit prouver que $2+2=4,vousluidonnezdesexercicesouˋildoittrouverpourquoi, vous lui donnez des exercices où il doit trouver pourquoi 2+2=5$ est faux.

Ce papier montre que si on entraîne les intelligences artificielles à détruire des affirmations fausses (en trouvant des contre-exemples), elles deviennent non seulement de meilleurs détectives d'erreurs, mais aussi de meilleurs bâtisseurs de vérités. C'est un pas de géant vers des IA plus fiables et plus intelligentes en mathématiques.