DAG-Math: Graph-of-Thought Guided Mathematical Reasoning in LLMs

Each language version is independently generated for its own context, not a direct translation.

🧠 Le Problème : L'IA qui "triche" avec les maths

Imaginez que vous demandez à un élève très brillant (une Intelligence Artificielle) de résoudre un problème de mathématiques complexe. Il vous donne la bonne réponse. Bravo ! 🎉

Mais comment a-t-il fait ?

Le vrai génie : Il a compris la logique, étape par étape, en reliant les idées comme des maillons d'une chaîne solide.
Le tricheur : Il a essayé des milliers de combinaisons au hasard (comme un détective qui essaie toutes les clés d'un trousseau) jusqu'à ce qu'il trouve celle qui ouvre la porte. Il a la bonne réponse, mais il ne sait pas pourquoi elle est juste.

Jusqu'à présent, nous ne savions pas vraiment faire la différence. Nous regardions juste la réponse finale (comme un professeur qui ne corrige que le résultat sur la copie). Si c'est juste, c'est bon. Mais l'article DAG-MATH nous dit : "Attendez, il faut regarder comment il a pensé !"

🗺️ La Solution : Le Plan de la Ville (Le DAG)

Les auteurs proposent de voir le raisonnement de l'IA non pas comme une simple liste de phrases, mais comme une carte de ville (ce qu'ils appellent un DAG ou graphe acyclique dirigé).

Imaginez que résoudre un problème de maths, c'est comme construire un chemin pour aller de votre maison (le problème) à la gare (la réponse).

Les Nœuds (Les points sur la carte) : Ce sont les étapes intermédiaires (ex: "Je sais que x est positif", "Je simplifie cette équation").
Les Routes (Les flèches) : Ce sont les liens logiques. Une route ne peut aller que dans un sens (on ne peut pas revenir en arrière dans la logique).

Dans une bonne carte (un raisonnement parfait) :

Chaque point est relié à un point précédent.
Tout le monde arrive à la gare sans se perdre dans des impasses.
Il n'y a pas de routes qui partent de nulle part.

📏 La Nouvelle Règle du Jeu : La "Proximité Logique"

L'article introduit un nouveau concept clé : la Proximité Logique (Logical Closeness).

C'est comme si on demandait à l'élève : "Montre-moi ton plan de voyage."

Si l'élève a un plan clair où chaque étape découle logiquement de la précédente, il a une haute proximité logique. C'est du vrai raisonnement.
Si l'élève a un plan rempli de chemins qui ne mènent nulle part, ou de détours inutiles, même s'il arrive à la gare, sa proximité logique est faible. C'est du "bruit" ou de la chance.

L'article invente un score appelé PRR (Perfect Reasoning Rate). C'est comme une note de "pureté" du raisonnement.

PASS@1 (l'ancienne note) : "A-t-il trouvé la bonne réponse ?" (Oui/Non).
PRR (la nouvelle note) : "Sa réponse est-elle juste ET son chemin est-il logique ?"

🔍 Ce qu'ils ont découvert (Les Révélations)

En testant cette méthode sur des modèles d'IA modernes (comme Gemini, GPT, Qwen), ils ont trouvé des choses surprenantes :

L'illusion de la compétence : Beaucoup d'IA semblent très fortes en maths (elles ont de bonnes notes PASS@1). Mais quand on regarde leur "plan de ville" (leur raisonnement), on voit qu'elles font beaucoup de détours inutiles. Elles "trichent" en explorant au hasard jusqu'à tomber sur la bonne réponse.
Le vrai génie est rare : Même les meilleures IA ont du mal à maintenir un raisonnement parfaitement logique et sans détours sur des problèmes difficiles.
La difficulté change la carte : Plus le problème est dur, plus la carte de l'IA devient grande, désordonnée et remplie de fausses pistes. Les IA ont du mal à rester concentrées sur le chemin principal.

🛠️ Pourquoi c'est important ?

C'est comme passer d'un examen où l'on ne regarde que la note finale, à un examen où l'on exige de voir le brouillon et la méthode.

Pour les développeurs : Cela leur dit : "Arrêtez de juste entraîner vos IA à avoir la bonne réponse. Entraînez-les à avoir un raisonnement propre et structuré."
Pour nous, utilisateurs : Cela nous aide à comprendre que si une IA donne une réponse juste, ce n'est pas toujours parce qu'elle "comprend" le sujet. Elle a peut-être juste eu de la chance en explorant beaucoup de pistes.

En résumé 🎈

L'article DAG-MATH nous dit : "Ne vous contentez pas de regarder la destination, regardez le chemin !"

Ils ont créé un nouveau langage et un nouveau test pour s'assurer que les intelligences artificielles ne sont pas juste de super-tricheuses qui devinent la réponse, mais de véritables penseurs capables de construire un raisonnement solide, étape par étape, comme un architecte qui dessine un plan parfait avant de construire une maison.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les grands modèles de langage (LLM) démontrent des performances remarquables en résolution de problèmes mathématiques lorsqu'ils sont guidés par la méthode "Chain-of-Thought" (CoT). Cependant, il reste flou de savoir si cette réussite provient d'une véritable raisonnement logique, d'une simple recherche par essai-erreur (search), ou de procédures par cœur.

Les approches d'évaluation actuelles reposent principalement sur la justesse de la réponse finale (métrique PASS@k), ce qui occulte la qualité du processus de déduction. Un modèle peut obtenir la bonne réponse par hasard ou en explorant de nombreuses branches sans pour autant suivre un chemin logique cohérent. De plus, les systèmes de preuve formelle (comme LEAN) sont rigoureux mais nécessitent une formalisation préalable coûteuse en expertise humaine, ce qui les rend peu pratiques pour les problèmes mathématiques standards.

L'objectif de cet article est de combler ce fossé en proposant un cadre formel pour modéliser et évaluer la fidélité du raisonnement des LLM, au-delà de la simple exactitude de la réponse.

2. Méthodologie : Le Cadre DAG-MATH

Les auteurs proposent de modéliser le CoT comme un processus stochastique basé sur des règles opérant sur un graphe acyclique dirigé (DAG).

A. Formalisation du CoT en deux phases

Phase 1 : Construction du DAG spécifique à la tâche.
- Pour chaque problème, un DAG latent $G(x_{in})$ est défini.
- Nœuds : Représentent les états intermédiaires de déduction (conclusions).
- Arêtes : Encodent les justifications logiques et les dépendances entre les étapes (quelles prémises sont utilisées pour déduire une conclusion).
- Le graphe est divisé en nœuds sources (données du problème), nœuds intermédiaires et nœuds puits (réponses finales, correctes ou incorrectes).
- L'hypothèse fondamentale est l'acyclicité : aucune étape ne dépend de sa propre sortie.
Phase 2 : Génération de trajectoires stochastiques.
- Le LLM génère une trajectoire de CoT en échantillonnant des nœuds selon des règles de transition probabilistes.
- Une trajectoire est valide si elle respecte la structure du DAG (les parents d'un nœud doivent avoir été visités).
- Le processus est "absorbant" : il s'arrête lorsqu'un nœud puits (réponse finale) est atteint.

B. Nouvelle Métrique : La Proximité Logique (Logical Closeness)

Pour évaluer la qualité du raisonnement, les auteurs introduisent le concept de proximité logique :

Un DAG généré est dit "logiquement clos" si chaque nœud (sauf le nœud puits final) a un degré sortant d'au moins 1. Cela signifie que chaque étape intermédiaire est utilisée pour déduire une étape ultérieure.
Raisonnement Parfait (Perfect Reasoning) : Une trajectoire est qualifiée de "raisonnement parfait" si elle est logiquement close et qu'elle se termine sur le nœud puits correct.
Taux de Raisonnement Parfait (PRR) : Métrique principale définie comme la probabilité qu'un LLM génère une trajectoire de raisonnement parfait.
Score AUC (Area Under Curve) : En relaxant la contrainte de clôture logique (de 0% à 100%), les auteurs calculent une courbe de précision en fonction du taux de clôture, offrant une mesure plus nuancée que le PRR seul.

C. Benchmark DAG-MATH

Pour rendre cette évaluation applicable, les auteurs ont créé un format structuré DAG-MATH :

Chaque étape de raisonnement est explicitement formatée en JSON avec trois champs : Edge (justification), Parents (nœuds antérieurs utilisés), et Node (conclusion).
Un benchmark de 2 894 problèmes (issus d'Omni-MATH, AIME, BRUMO, HMMT) a été construit avec des "DAGs or" (gold-standard) générés via une stratégie de prompting en trois étapes et validés par des humains et des outils symboliques (SymPy).

3. Contributions Clés

Cadre Théorique Unifié : Une formalisation mathématique du CoT comme processus stochastique sur des DAG, intégrant à la fois l'identification des prémisses et l'inférence logique.
Nouvelles Métriques d'Évaluation : Introduction du PRR et de l'AUC de clôture logique, permettant de distinguer la réussite par recherche (search) de la réussite par inférence logique rigoureuse.
Benchmark Structuré : Création du benchmark DAG-MATH avec un format de sortie standardisé facilitant l'extraction automatique des graphes de dépendance.
Analyse Empirique : Une étude approfondie sur plusieurs modèles (Gemini-2.5, GPT-4.1, Qwen3) révélant des écarts significatifs entre la précision de la réponse finale et la fidélité du raisonnement.

4. Résultats Expérimentaux

Les expériences menées sur des ensembles de données difficiles (AIME 2025, BRUMO 2025, HMMT 2025) montrent :

Écart Significatif (Gap) : Il existe un écart statistiquement significatif entre le PASS@1 (précision de la réponse) et le PRR (raisonnement parfait).
- Exemple : Pour Gemini-2.5-Flash sur AIME 2025, le PASS@1 est de 52,4 %, tandis que le PRR n'est que de 17,0 %. Cela indique que plus de 35 % des réponses correctes sont obtenues via des trajectoires non logiquement closes (recherche, hasard, ou étapes redondantes).
Stabilité du Raisonnement Parfait : Bien que le PASS@1 varie considérablement d'un modèle à l'autre, le PRR reste relativement stable, suggérant que la capacité intrinsèque de raisonnement logique pur est similaire, mais que les modèles utilisent des stratégies de recherche différentes pour atteindre la réponse.
Impact de la Difficulté :
- Les problèmes plus difficiles génèrent des DAG plus grands, plus clairsemés (sparse) et avec une complexité de branchement plus élevée.
- Les trajectoires "Parfaites" correspondent à des graphes plus petits et denses (raisonnement concentré).
- Les trajectoires "Incorrectes" montrent un fort branchement exploratoire, indiquant que l'échec provient souvent d'une expansion spéculative plutôt que d'un manque d'agrégation d'informations.
Rôle du "Thinking" (Mode Réflexion) : L'utilisation de modes de pensée (comme DeepSeek-R1 ou Gemini avec réflexion) augmente à la fois le PASS@1 et le PRR, mais l'écart entre les deux persiste, confirmant que la réflexion améliore l'exploration mais n'élimine pas totalement la tendance à la recherche non structurée.

5. Signification et Implications

Diagnostic Fiable : Le cadre DAG-MATH offre un outil de diagnostic pour identifier si un modèle "devine" la réponse ou la déduit logiquement.
Équilibre "Goldilocks" : Il propose un compromis idéal entre la flexibilité du langage naturel (CoT libre) et la rigueur des systèmes de preuve formelle (LEAN), sans nécessiter de formalisation préalable complexe.
Orientation pour l'Amélioration des Modèles :
- Les métriques peuvent guider des algorithmes de recherche (comme Monte Carlo Tree Search) pour privilégier les chemins logiquement cohérents.
- Ils offrent une base pour le Reinforcement Learning (RL), permettant de récompenser non seulement la réponse correcte, mais aussi la structure logique du raisonnement (courbe d'apprentissage par curriculum).
Définition du Raisonnement : L'article suggère que le "raisonnement parfait" pourrait être défini mathématiquement pour les LLMs, de manière analogue à la généralisation en apprentissage supervisé, distinguant le sur-apprentissage (over-reasoning) et le sous-apprentissage (under-reasoning).

En conclusion, DAG-MATH démontre que la simple exactitude de la réponse est une mesure insuffisante pour évaluer les capacités de raisonnement des LLMs. En quantifiant la fidélité logique via des graphes, l'article ouvre la voie à des modèles plus robustes, interprétables et véritablement capables de déduction mathématique.