Breaking the Chain: A Causal Analysis of LLM Faithfulness to Intermediate Structures

Each language version is independently generated for its own context, not a direct translation.

Le Grand Mystère : Le LLM est-il un "Vrai" Raisonneur ?

Imaginez que vous demandez à un élève très brillant (un Grand Modèle de Langage ou LLM) de résoudre un problème complexe, comme corriger une copie d'examen de chimie ou vérifier un fait historique.

Pour être sûr qu'il ne triche pas, vous lui imposez une règle stricte : "Avant de donner la note finale, tu dois d'abord remplir une grille de correction détaillée (le 'médiateur')."

L'idée est que cette grille soit la cause de la note finale. Si la grille dit "3 points pour la partie A", la note finale doit être de 3 points. C'est ce qu'on appelle la fidélité : le modèle suit-il vraiment son propre raisonnement, ou est-ce juste une façade ?

L'Expérience : Le Test du "Bricolage"

Les chercheurs se sont demandé : "Si on modifie la grille de correction de l'extérieur, le modèle va-t-il changer sa note finale en conséquence ?"

C'est comme si vous regardiez l'élève remplir sa grille, puis vous preniez un stylo rouge et vous effaciez un "Vrai" pour écrire "Faux" à la place, sans toucher à la copie de l'élève.

Si l'élève est fidèle : Il regarde la grille modifiée, voit que le score a baissé, et donne une note finale plus basse.
Si l'élève est "faux" : Il ignore votre modification, regarde toujours la copie originale dans sa tête, et donne la même note qu'avant.

Ce qu'ils ont découvert (Les Résultats)

Les chercheurs ont testé cela sur 8 modèles différents avec 3 types de tâches. Voici ce qu'ils ont vu :

1. L'Illusion de la Fidélité

La plupart du temps, les modèles semblent très cohérents. Ils remplissent la grille et donnent une note qui correspond... tant qu'on ne les touche pas.
Mais dès qu'on modifie la grille (l'intervention), jusqu'à 60 % du temps, ils ignorent le changement !

L'analogie : C'est comme un chef cuisinier qui vous montre une liste de courses (la grille) et vous dit "Je vais faire une salade". Mais si vous lui enlevez le fromage de la liste, il continue quand même de mettre du fromage dans l'assiette, car il a déjà décidé de faire une salade avec du fromage en regardant votre visage (l'entrée originale), pas la liste.

2. Le Sens de la Modification

Curieusement, les modèles réagissent différemment selon le type de changement :

Ils sont plus faciles à perturber (si vous changez une bonne réponse en mauvaise, ils changent souvent d'avis).
Ils sont plus résistants à la correction (si vous corrigez une erreur, ils ont du mal à accepter la nouvelle version).

L'analogie : C'est comme un enfant têtu. Si vous lui dites "Arrête de faire ça, c'est mal", il arrête souvent. Mais si vous lui dites "Non, en fait, fais-le comme ça", il résiste plus, car il est déjà accroché à son idée initiale.

3. La Solution Magique : Le "Couteau Suisse" (Outil Externe)

Les chercheurs ont eu une idée brillante. Au lieu de demander au modèle de calculer la note finale lui-même (ce qui est difficile pour lui), ils lui ont dit : "Remplis la grille, puis envoie-la à une calculatrice automatique qui donnera le résultat."

Résultat ? La fidélité s'envole !
Quand le calcul est fait par un outil externe, le modèle ne peut plus "tricher" ou ignorer la grille. Il doit suivre la grille pour que l'outil fonctionne.

L'analogie : C'est comme si l'élève ne pouvait plus faire les calculs de tête. Il doit écrire ses chiffres sur un papier, et un robot (l'outil) fait le calcul. Si l'élève change un chiffre sur le papier, le robot change le résultat. L'élève n'a plus d'autre choix que de suivre son papier.

4. Les Ordres ne suffisent pas

Les chercheurs ont aussi essayé de dire au modèle : "Surtout, suis ta grille, c'est la vérité absolue !" (des instructions plus fortes).
Ça n'a presque rien changé.

L'analogie : C'est comme crier à un enfant "Écoute ta liste !" alors qu'il est déjà en train de faire ce qu'il veut. Le problème n'est pas qu'il n'écoute pas les ordres, c'est qu'il ne sait pas comment transformer la liste en action sans aide.

La Conclusion en Une Phrase

Les structures intermédiaires (les grilles, les listes de contrôle) que les IA produisent sont souvent de puissants indices contextuels (comme un décor de théâtre), mais pas de véritables leviers de commande.

Pour qu'une IA soit vraiment "fidèle" à son raisonnement, il ne suffit pas de lui demander de bien raisonner ; il faut souvent lui donner un outil externe pour transformer ce raisonnement en décision, car elle a du mal à faire le lien elle-même.

En résumé : L'IA ne suit pas toujours sa propre logique. Elle suit souvent son intuition. Pour la forcer à suivre sa logique, il faut lui mettre un "outil de calcul" entre les mains.

Each language version is independently generated for its own context, not a direct translation.

Titre : Briser la chaîne : Une analyse causale de la fidélité des LLM aux structures intermédiaires

1. Problématique

Les pipelines de raisonnement guidés par un schéma (Schema-Guided Reasoning - SGR) incitent les grands modèles de langage (LLM) à produire des structures intermédiaires explicites (rubriques, listes de contrôle, requêtes de vérification) avant de prendre une décision finale. L'hypothèse sous-jacente est que ces structures servent de médiateurs causaux : la décision finale devrait découler logiquement et nécessairement de ces étapes intermédiaires.

Cependant, une question critique demeure : ces structures déterminent-elles réellement la sortie du modèle, ou ne font-elles qu'accompagner la décision générée par d'autres mécanismes (raccourcis cognitifs, connaissances latentes) ? Les travaux précédents sur la "fidélité" (faithfulness) se sont souvent concentrés sur des chaînes de pensée (CoT) libres, ce qui rend difficile l'isolement des composants causaux en raison du contenu redondant et non structuré.

L'objectif de cet article est de déterminer si les structures intermédiaires structurées agissent comme des médiateurs causaux robustes ou simplement comme du contexte influent mais non déterminant.

2. Méthodologie

Les auteurs proposent un protocole d'évaluation causale basé sur le principe de la "porte avant" (front-door criterion) de Pearl. L'idée centrale est d'intervenir de manière contrôlée sur la structure intermédiaire ( $M$ ) pour observer si la décision finale ( $Y$ ) change en conséquence, sachant que l'entrée ( $X$ ) reste fixe.

A. Formulation du problème :
Le processus est modélisé en deux étapes :

Génération de la structure intermédiaire : $M \sim p_\theta(M | X)$ .
Génération de la décision : $Y \sim p_\theta(Y | X, M)$ .
Un modèle est considéré comme "fidèle" uniquement si $M$ est le médiateur opérationnel entre $X$ et $Y$ . Si $Y$ dépend directement de $X$ (ou de connaissances internes) en contournant $M$ , le modèle est non fidèle.

B. Protocole d'intervention :
Pour chaque instance, le modèle génère initialement $(\hat{M}, \hat{Y})$ . Ensuite, une intervention est appliquée sur $\hat{M}$ pour créer une version modifiée $M^* = I(\hat{M})$ .

Scénario 1 (Correction - COR) : Si $\hat{M}$ est erroné, il est remplacé par la version correcte (Gold Mediator). Un modèle fidèle devrait mettre à jour sa décision pour correspondre à la nouvelle structure.
Scénario 2 (Contrefactuel - CNF) : Si $\hat{M}$ est correct, une perturbation contrôlée est appliquée pour changer la décision implicite. Un modèle fidèle devrait modifier sa prédiction en conséquence.

C. Métriques d'évaluation :

FID (Fidélité In-Distribution) : Mesure la cohérence interne entre la structure générée $\hat{M}$ et la décision $\hat{Y}$ avant intervention ( $\hat{Y} = C(\hat{M})$ ).
FStrong (Fidélité Forte) : Mesure la cohérence à la fois avant et après intervention. Le modèle doit maintenir la cohérence initiale ET mettre à jour sa décision après l'intervention ( $\hat{Y}^* = C(M^*)$ ).
$\Delta$ (Écart de fragilité) : La différence $\Delta = FID - FStrong$ . Un écart positif indique que le modèle semble cohérent mais ignore les interventions, révélant un manque de causalité réelle.

D. Données et Modèles :

Benchmarks : Trois jeux de données avec des médiateurs déterministes :
- RiceChem : Notation chimique basée sur une rubrique (True/False).
- AVeriTeC : Vérification de faits basée sur des sous-questions binaires.
- TabFact : Vérification de faits sur tableaux via des requêtes structurées (SQL/DSL).
Modèles : 8 modèles instructés de différentes tailles (Qwen 3, Falcon 3, LLaMA 3, Gemma 2).

3. Contributions Clés

Cadre causal formel : Définition de la fidélité aux représentations intermédiaires structurées comme un problème de médiation causale avec des cibles contrefactuelles déterministes.
Protocole d'intervention systématique : Introduction d'une méthode permettant de tester la causalité en modifiant les étapes de raisonnement sans toucher à l'entrée originale.
Découverte d'une asymétrie directionnelle : Révélation que les modèles sont plus sensibles aux interventions contrefactuelles (perturbations) qu'aux corrections constructives.
Analyse des leviers d'amélioration : Démonstration que l'externalisation du calcul (outils) résout le problème, tandis que le renforcement des instructions (prompts) a un effet limité.

4. Résultats Principaux

A. La fidélité est fragile (Résultat Global) :

Les modèles affichent une forte cohérence interne ($FID$ élevé), suggérant qu'ils produisent des décisions alignées avec leurs propres structures.
Cependant, sous intervention, la fidélité forte ($FStrong$) chute drastiquement. L'écart $\Delta$ est positif pour tous les couples modèle-jeu de données (jusqu'à 60% de cas d'échec).
Conclusion : Les structures intermédiaires agissent comme du contexte influent plutôt que comme des médiateurs causaux stables. Le modèle semble souvent "simuler" le raisonnement tout en s'appuyant sur des raccourcis directs vers la réponse.

B. Asymétrie de la sensibilité :

Les modèles réagissent plus facilement aux interventions contrefactuelles (changer une réponse correcte en incorrecte) qu'aux corrections (réparer une erreur).
Cela suggère que les modèles sont plus faciles à "déranger" qu'à "corriger", indiquant une absence de mécanisme causal unique et stable.

C. Impact de l'externalisation (Étude de cas 2) :

Lorsque le calcul déterministe de la décision à partir de la structure ( $C(M)$ ) est délégué à un outil externe (au lieu d'être fait en contexte par le LLM), l'écart de non-fidélité $\Delta$ disparaît presque totalement (souvent < 0.03).
Cela prouve qu'une grande partie de la "non-fidélité" observée provient de la difficulté computationnelle du modèle à exécuter la logique de décision en contexte, et non d'un rejet intentionnel du médiateur.

D. Impact des instructions (Étude de cas 3) :

Renforcer les instructions pour prioriser la structure intermédiaire sur l'entrée originale (prompts "Max Detailed") n'apporte que des gains marginaux.
Cela indique que le problème n'est pas un manque de compréhension des instructions, mais une incapacité intrinsèque à utiliser la structure comme un goulot d'étranglement causal strict.

5. Signification et Implications

Illusion de transparence : Dans les pipelines guidés par des schémas, la présence d'une structure intermédiaire explicite ne garantit pas que le modèle raisonne réellement à travers cette structure. Les humains peuvent être trompés par la cohérence apparente du modèle.
Limites des prompts : S'appuyer uniquement sur des instructions plus fortes pour forcer la fidélité est inefficace.
Rôle des outils : L'intégration d'outils externes pour les étapes de décision déterministes est une solution pragmatique et efficace pour garantir la fidélité, car elle force le modèle à se conformer à la logique du médiateur sans avoir à simuler le calcul complexe lui-même.
Recherche future : Les travaux futurs doivent se concentrer sur l'architecture des modèles et l'intégration d'outils plutôt que sur l'optimisation des prompts pour améliorer la fiabilité des systèmes de raisonnement.

En résumé, l'article démontre que pour les LLM actuels, les structures intermédiaires sont souvent des signaux contextuels plutôt que des médiateurs causaux, et que la véritable fidélité nécessite une externalisation du processus de décision logique.