Achieving Olympia-Level Geometry Large Language Model Agent via Complexity Boosting Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

🌟 Le Grand Défi : Résoudre les énigmes de géométrie comme un champion olympique

Imaginez que les problèmes de géométrie du niveau des Olympiades Internationales de Mathématiques (IMO) soient des énormes labyrinthes. Pour en sortir, il ne suffit pas de marcher tout droit ; il faut parfois creuser des tunnels secrets, construire des ponts invisibles ou trouver des passages cachés que personne n'avait vus avant.

Jusqu'à présent, les ordinateurs (les "experts" comme AlphaGeometry 2) étaient capables de résoudre ces labyrinthes, mais ils le faisaient de manière très "bête" : ils essayaient des milliards de combinaisons au hasard, comme un fourmis qui testerait chaque chemin possible en utilisant une quantité astronomique de nourriture (données). C'est efficace, mais c'est lourd et ça ne demande pas vraiment d'intelligence créative.

🚀 La Nouvelle Star : InternGeometry

Les chercheurs de Shanghai ont créé un nouveau personnage : InternGeometry. C'est un agent intelligent (une sorte de super-étudiant) qui ne se contente pas de tester des chemins au hasard. Il réfléchit, planifie et apprend de ses erreurs, exactement comme un humain.

Voici comment il fonctionne, avec trois ingrédients magiques :

1. Le "Crayon Magique" et le "Miroir de Vérité"

Imaginez que notre étudiant a un crayon magique pour dessiner des lignes supplémentaires sur son papier (ce qu'on appelle des constructions auxiliaires).

L'action : Il dessine une ligne ou un point.
Le miroir : Il utilise ensuite un "miroir de vérité" (un moteur symbolique) qui vérifie instantanément : "Est-ce que cette ligne aide vraiment ? Est-ce que ça mène à la solution ?"
La boucle : Si le miroir dit "Non", il efface, réfléchit, et essaie autre chose. Il peut faire cela plus de 200 fois pour un seul problème ! C'est comme un détective qui ne lâche rien, même après des centaines de fausses pistes.

2. La Mémoire Dynamique (Le Carnet de Notes)

Dans un labyrinthe de 200 passages, on oublie vite ce qu'on a essayé il y a 10 minutes.

InternGeometry a un carnet de notes intelligent. Au lieu de tout relire (ce qui serait trop long), il résume l'essentiel : "J'ai essayé le pont A, ça a échoué. J'ai essayé le tunnel B, ça a fonctionné un peu."
Cela lui permet de ne pas tourner en rond et de garder le cap sur la solution finale.

3. L'Entraînement "Escalade de Difficulté" (CBRL)

C'est ici que la magie opère pour l'apprentissage.

Imaginez un entraîneur sportif. Si vous donnez un problème de niveau "Olympiade" à un débutant, il va abandonner. Si vous lui donnez des problèmes trop faciles, il ne progresse pas.
L'algorithme CBRL agit comme un coach parfait. Il commence par des problèmes faciles. Dès que l'élève réussit, le coach augmente légèrement la difficulté.
C'est comme monter un escalier : on ne saute pas d'un coup au sommet, on monte marche par marche. À force de s'entraîner sur des problèmes de plus en plus durs, l'IA devient un champion.

🏆 Les Résultats : Un Record Étonnant

Le résultat est stupéfiant :

Performance : InternGeometry a résolu 44 problèmes sur 50 des Olympiades de 2000 à 2024. C'est mieux que la moyenne des médailles d'or humaines (qui est de 40,9) et mieux que les meilleurs experts précédents.
Efficacité : C'est là que ça devient fou. Les anciens experts avaient besoin de 300 millions d'exemples pour apprendre. InternGeometry n'en a besoin que de 13 000.
- L'analogie : C'est comme si un ancien champion devait lire toute la bibliothèque nationale pour apprendre à jouer aux échecs, alors que notre nouvel étudiant n'a besoin que d'un seul cahier de notes bien rempli pour devenir le meilleur.

🎨 La Créativité : Plus que des maths

Le plus beau, c'est que l'IA ne se contente pas de copier les solutions humaines. Parfois, elle trouve des solutions totalement nouvelles que les humains n'avaient jamais imaginées. Elle invente de nouvelles façons de construire des lignes pour résoudre le problème, montrant une forme de créativité géométrique pure.

En résumé

Cette recherche prouve qu'on n'a pas besoin de "forcer" les ordinateurs avec des milliards de données pour qu'ils deviennent intelligents. En leur apprenant à réfléchir longuement, à apprendre de leurs erreurs et à progresser pas à pas, on peut créer des agents capables de résoudre les problèmes les plus complexes du monde, avec une efficacité et une créativité surprenantes.

C'est le passage d'un ordinateur qui "calcule tout" à un ordinateur qui "comprend et invente".

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les modèles de langage (LLM) ont démontré des capacités remarquables pour résoudre des problèmes mathématiques complexes, notamment au niveau des Olympiades Internationales de Mathématiques (IMO), souvent en s'aidant de systèmes de preuve formelle. Cependant, la géométrie reste un domaine où les agents LLM peinent à rivaliser avec les modèles experts spécialisés comme AlphaGeometry 2.

Le défi principal réside dans la faiblesse des heuristiques pour les constructions auxiliaires. Contrairement à d'autres domaines mathématiques, la résolution de problèmes de géométrie de haut niveau nécessite non seulement l'application de théorèmes, mais aussi la création créative de points, lignes ou cercles supplémentaires (constructions auxiliaires) qui ne sont pas évidents. Les approches actuelles reposent massivement sur la synthèse de données à grande échelle et des recherches exhaustives, ce qui les rend peu généralisables et très gourmandes en données.

Question centrale : Peut-on utiliser un agent LLM généraliste pour résoudre des problèmes de géométrie de niveau IMO avec une meilleure efficacité et une meilleure généralisation, en surmontant le manque d'heuristiques pour les constructions auxiliaires ?

2. Méthodologie : InternGeometry et CBRL

Les auteurs proposent InternGeometry, un agent LLM capable de résoudre des problèmes de géométrie de niveau olympique, reposant sur deux piliers majeurs :

A. L'Agent InternGeometry et l'Interaction Longue Durée

L'agent interagit avec un moteur de preuve symbolique appelé InternGeometry-DDAR (une amélioration du système open-source Newclid).

Boucle de raisonnement : À chaque étape, l'agent :
1. Réfléchit (Think) : Utilise un raisonnement en chaîne de pensée (CoT) en langage naturel pour planifier une stratégie.
2. Agit (Action) : Propose soit une construction auxiliaire (ajout de points/lignes), soit une proposition à prouver, via un langage spécifique (DSL).
3. Reçoit un Feedback : Le moteur symbolique exécute l'action et renvoie le résultat (succès/échec, nouvelles propriétés déduites).
Mémoire Dynamique : Pour gérer des interactions pouvant dépasser 200 tours, l'agent utilise un module de mémoire dynamique qui compresse l'historique des échanges. Il conserve les actions clés et les résultats observés tout en éliminant les détails redondants, permettant à l'agent de maintenir un contexte cohérent sur le long terme.
Échantillonnage par Rejet : Pour éviter l'effondrement de l'action (répétition de schémas ou boucles), un mécanisme de rejet filtre les sorties qui ne respectent pas certaines règles (ex: pas d'actions répétées, pas de pensées infinies sans action).

B. Apprentissage par Renforcement à Complexité Croissante (CBRL)

Pour entraîner l'agent efficacement sans nécessiter des milliards d'exemples, les auteurs introduisent le Complexity-Boosting Reinforcement Learning (CBRL).

Principe : Au lieu d'entraîner l'agent sur un mélange fixe de données, le CBRL ajuste dynamiquement la difficulté des problèmes synthétisés au cours de l'entraînement.
Mesure de complexité : La difficulté est quantifiée par le nombre d'étapes de preuve nécessaires dans le moteur DDAR.
Algorithme :
1. L'agent est entraîné sur un lot de problèmes d'une complexité cible $\kappa$ .
2. Les récompenses (binaires : succès/échec) sont utilisées pour calculer l'avantage moyen.
3. Si le taux de réussite est trop élevé (> 0.5), la complexité $\kappa$ est augmentée. Si elle est trop faible, elle est diminuée.
4. L'objectif est de maintenir le modèle dans une zone de difficulté « modérée » (ni trop facile, ni trop dur) pour maximiser le signal d'apprentissage (l'avantage absolu attendu).
Pipeline de données : Un pipeline génère automatiquement des problèmes de géométrie avec des constructions auxiliaires contrôlées pour correspondre à la complexité souhaitée.

3. Contributions Clés

Premier agent LLM de niveau médaillé en géométrie : InternGeometry est le premier agent basé sur un LLM à atteindre un niveau de performance supérieur à la moyenne des médaillés d'or aux IMO en géométrie.
Efficacité des données exceptionnelle : Le modèle est entraîné avec seulement 13 000 exemples, soit 0,004 % des données utilisées par AlphaGeometry 2 (300 millions d'exemples). Cela démontre que la qualité de l'interaction et du curriculum d'apprentissage prime sur la quantité brute de données.
Gestion de l'horizon long : La démonstration que des interactions agent-outil de très longue durée (>200 étapes) avec une mémoire compressée sont essentielles pour surmonter le manque d'heuristiques en géométrie.
Créativité dans les constructions : L'agent est capable de proposer des constructions auxiliaires novatrices qui ne figurent pas dans les solutions humaines, prouvant sa capacité à explorer l'espace de recherche au-delà des patterns appris.

4. Résultats Expérimentaux

Les tests ont été réalisés sur le jeu de données IMO 50 (les problèmes de géométrie des IMO de 2000 à 2024).

Performance globale : InternGeometry résout 44 problèmes sur 50.
- Ce score dépasse la moyenne des médaillés d'or (40,9 points).
- Il surpasse AlphaGeometry 2 (42/50) et SeedGeometry (43/50).
- Il résout également le problème de géométrie de l'IMO 2025.
Comparaison des coûts :
- Données : 13K exemples vs 300M pour AlphaGeometry 2.
- Inférence : L'agent utilise une stratégie de passage (Pass@256) avec un budget d'inférence bien inférieur à l'ensemble de recherche arborescente (SKEST) complexe d'AlphaGeometry 2.
Études d'ablation :
- La suppression des étapes de « réflexion lente » (Slow Thinking) ou de la compression de contexte fait chuter la performance de 44/50 à 20-23/50.
- L'entraînement uniquement sur des données faciles ou uniquement sur des données difficiles (sans CBRL) conduit à une convergence médiocre ou à un manque de généralisation. Le CBRL est crucial pour la convergence.

5. Signification et Impact

Ce travail marque un tournant dans le domaine de la preuve automatique de théorèmes géométriques :

Paradigme Agent vs Expert : Il prouve que les agents LLM interactifs, guidés par un apprentissage par renforcement structuré, peuvent surpasser les modèles experts statiques qui dépendent de l'ingénierie manuelle et de la synthèse massive de données.
Généralisation : La capacité à résoudre des problèmes non vus durant l'entraînement (comme ceux de l'IMO 2025) suggère une forte capacité de généralisation, contrairement aux modèles qui mémorisent simplement des patterns de construction.
Créativité Mathématique : La découverte de nouvelles constructions auxiliaires par l'agent ouvre la voie à une collaboration homme-machine où l'IA peut proposer des intuitions géométriques inédites.
Efficacité : La méthode CBRL offre une nouvelle voie pour l'entraînement efficace d'agents sur des tâches complexes, en adaptant dynamiquement la difficulté pour maximiser l'apprentissage.

En résumé, InternGeometry démontre que la combinaison d'un raisonnement à long terme, d'une mémoire dynamique et d'un curriculum d'apprentissage adaptatif permet aux LLM d'atteindre un niveau d'expertise humaine, voire supérieur, dans des domaines autrefois réservés aux systèmes spécialisés.