Directional Reasoning Trajectory Change (DRTC): Identifying Critical Trace Segments in Reasoning Models

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous regardez un ami résoudre un problème de mathématiques très difficile. Il écrit des dizaines de lignes, se trompe, efface, hésite, change de stratégie, et finit par trouver la bonne réponse.

La question est : quelles sont exactement les phrases ou les idées qui ont fait basculer sa pensée vers la bonne solution ?

C'est le défi que relève ce papier de recherche. Les méthodes actuelles pour comprendre les intelligences artificielles (IA) sont un peu comme un détective qui regarde seulement la photo finale du crime. Elles peuvent dire : "Ah, ce mot était important !" mais elles ne peuvent pas dire : "C'est à ce moment précis, après cette hésitation, que l'IA a décidé de changer de direction."

Voici l'explication de leur nouvelle méthode, DRTC, avec des analogies simples.

1. Le problème : L'IA est un voyageur qui fait des détours

Quand une IA réfléchit (ce qu'on appelle un "raisonnement"), elle ne va pas tout droit. Elle fait des boucles, elle teste des idées fausses, elle recule.

L'ancienne méthode : C'est comme regarder une carte routière et dire : "Le trajet a duré 2 heures, donc chaque minute a été importante." C'est trop vague.
Le vrai problème : Si vous effacez une partie du texte de l'IA pour voir si elle change d'avis, l'IA risque de devenir complètement folle et de générer une réponse totalement différente. C'est comme si vous enleviez une roue à une voiture en marche : elle ne s'arrête pas juste pour vérifier, elle se renverse.

2. La solution : Le "Point de Bascule" (Pivot)

Les chercheurs ont inventé une méthode pour trouver les moments critiques où l'IA hésite vraiment.

L'analogie du carrefour : Imaginez que l'IA est une voiture. La plupart du temps, elle roule tout droit (c'est facile). Mais parfois, elle arrive à un carrefour, le moteur tourne au ralenti (l'IA est incertaine), et elle doit choisir une direction.
La méthode DRTC repère ces carrefours précis. Ce sont les moments où l'IA va dire : "Attends, ma première idée était mauvaise, je vais essayer autre chose."

3. L'expérience : Le "Chirurgien Temporel"

Une fois le carrefour (le "pivot") trouvé, les chercheurs veulent tester une hypothèse : "Est-ce que ce paragraphe écrit 5 minutes avant a vraiment guidé l'IA vers ce choix ?"

L'ancienne façon (trop brutale) : On efface le paragraphe et on laisse l'IA continuer. Résultat : l'IA panique et invente une nouvelle histoire. On ne sait plus si c'est à cause du paragraphe ou parce qu'on a cassé le contexte.
La nouvelle façon (DRTC) : C'est comme un chirurgien temporel.
1. On laisse l'IA écrire son histoire jusqu'au carrefour.
2. Au moment précis où elle doit choisir sa direction, on lui coupe l'oreille pour qu'elle n'entende plus le paragraphe suspect.
3. On regarde si elle tourne encore dans la même direction.
4. Le plus important : On ne la laisse pas réécrire la suite ! On regarde juste la direction de sa tête à cet instant précis.

C'est comme si vous regardiez un nageur au moment où il va plonger. Vous lui cachez un objet sur la rive. Est-ce qu'il plonge quand même ? Si oui, l'objet n'était pas crucial. S'il hésite ou change de trajectoire, alors cet objet était le guide.

4. La boussole : La "Direction du Voyage"

Le papier ne se contente pas de dire "C'est important". Il dit "Dans quelle direction ?".

Si le paragraphe aide l'IA à aller vers la bonne réponse, la boussole pointe vers le "Nord" (Score positif).
Si le paragraphe est une distraction ou une erreur que l'IA a dû corriger plus tard, la boussole pointe vers le "Sud" (Score négatif).

C'est comme si vous analysiez une conversation :

"Ton idée de partir en vacances était géniale !" (Ceci pousse la conversation vers le projet de voyage).
"Mais il pleut, on ne peut pas y aller." (Ceci pousse la conversation vers l'annulation).
DRTC vous dit exactement quelle phrase a poussé la conversation dans quel sens.

5. La courbe de la route (La Géométrie)

Enfin, les chercheurs regardent aussi la "courbure" de la pensée.

Imaginez que la pensée de l'IA est une ligne dessinée sur du papier.
Parfois, la ligne est droite.
Parfois, elle fait un virage très serré (une U-turn).
La méthode mesure à quel point un paragraphe force l'IA à faire ce virage serré. C'est un indicateur supplémentaire pour voir si l'IA a vraiment eu un "moment de révélation" (un Aha! moment).

En résumé

Ce papier propose une nouvelle loupe pour regarder les IA qui réfléchissent. Au lieu de juste regarder la réponse finale, il permet de :

Trouver les moments d'hésitation (les carrefours).
Couper l'oreille de l'IA à ces moments précis pour voir si elle change d'avis, sans casser toute sa logique.
Mesurer la direction : Est-ce que ce texte a aidé ou a fait perdre du temps ?

C'est comme passer d'une photo floue d'un match de football à une vidéo en haute définition qui vous montre exactement quel joueur a fait la passe décisive et à quel moment précis, sans avoir besoin de rejouer tout le match.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles de langage modernes (LLM) résolvent de plus en plus de problèmes complexes en générant des traces de raisonnement longues et sinueuses, impliquant des rebondissements, des vérifications et des changements de stratégie. Cependant, les méthodes d'interprétabilité existantes présentent des limites majeures pour analyser ces processus :

Corrélation vs Causalité : Les méthodes actuelles identifient souvent des tokens corrélés à la réponse finale, mais ne révèlent pas où se produisent les tournants décisionnels critiques ni quels contextes antérieurs les déclenchent causalement.
Problème de la trajectoire : Dans une génération autoregressive, le raisonnement est path-dépendant. Modifier un contexte antérieur et resampler la suite crée une trajectoire qualitativement différente (hors politique), rendant la comparaison difficile.
Manque de granularité temporelle : Il est difficile d'isoler les étapes de décision spécifiques au sein d'une chaîne de pensée (CoT) longue où les étapes exploratoires, correctives et déterminantes sont entrelacées.

L'objectif est donc de développer une méthode capable d'identifier, au sein d'une seule trajectoire réalisée (on-policy), quels segments de contexte antérieur influencent causalement les points de décision critiques et comment ils orientent la trajectoire de raisonnement.

2. Méthodologie : Directional Reasoning Trajectory Change (DRTC)

DRTC est un cadre d'interprétabilité processus-causal conçu pour analyser une seule génération de modèle sans resampling. Il repose sur trois piliers méthodologiques :

A. Découverte de points pivots (Pivot Discovery)

La méthode identifie automatiquement des positions clés dans la trace où le modèle est susceptible de prendre une décision, de réviser sa stratégie ou de se réorienter.

Signaux utilisés : L'incertitude (entropie), la marge de probabilité (top-2 margin) et le décalage de distribution (divergence de Jensen-Shannon entre fenêtres de tokens avant et après la position).
Pondération : Les pivots sont pondérés par une importance normalisée (softmax) basée sur ces signaux.

B. Interventions causales côté récepteur (Receiver-side Interventions)

Au lieu de modifier le texte généré ou de resampler la suite, DRTC applique une intervention locale et déterministe :

Masquage d'attention : À chaque point pivot $\tau_k$ , l'attention du modèle vers un chunk de contexte antérieur spécifique $c_i$ est bloquée (masquée à $-\infty$ ) uniquement à cette position pivot.
Préservation de la trajectoire : Le reste de la génération (le préfixe et la suite réalisée) reste inchangé. Cela permet de mesurer l'effet causal d'un chunk sur un point de décision spécifique sans altérer l'ensemble de la trajectoire (contra-tréfactuel local).

C. Attribution de trajectoire directionnelle

L'objectif n'est pas seulement de voir si la réponse change, mais comment la trajectoire de probabilité est redirigée.

Espace des log-probabilités : La méthode compare la direction du vecteur de log-probabilités avant et après l'intervention.
Projection directionnelle : On calcule la projection scalaire ( $\delta_{k,i}$ ) du changement de trajectoire local par rapport à la direction globale de la trajectoire réalisée (définie par les extrémités de la séquence de pivots).
Score DRTC : Le score final pour un chunk est une agrégation pondérée de ces effets directionnels, signée (positive si le chunk soutient la trajectoire réalisée, négative s'il s'y oppose).

D. Diagnostic géométrique (Courbure)

En complément, DRTC calcule la variation de l'angle de courbure dans l'espace des logits (logit-space curvature) pour mesurer l'intensité des réorientations locales. Ce signal est purement diagnostique et ne sert pas à calculer les scores d'attribution.

3. Contributions Clés

Localisation des points de décision : Identification automatique des moments d'instabilité et de changement de stratégie au sein d'une trace unique.
Interventions causales valides temporellement : Utilisation de masquages d'attention côté récepteur pour tester l'influence de contextes antérieurs sans resampling, évitant ainsi les biais hors-politique.
Attribution directionnelle signée : Une métrique qui capture non seulement l'importance, mais aussi la direction de l'influence (soutien ou opposition à la trajectoire réalisée).
Signatures de courbure : Un outil diagnostique pour regrouper les chunks par similarité de réponse géométrique aux interventions, révélant des rôles structurels dans le raisonnement.

4. Résultats Expérimentaux

Les expériences ont été menées sur quatre modèles de raisonnement (LFM2.5, Ministral-3B, Phi-4-Mini, R1-Distill-Qwen-1.5B) sur des tâches mathématiques (MATH).

Concentration de l'influence : L'influence causale est fortement concentrée sur un petit nombre de chunks. Les coefficients de Gini se situent entre 0,50 et 0,58, et les 5 % supérieurs des chunks représentent environ 23-28 % de l'influence totale.
Validation par falsification (Random Span Falsification) : Les pivots appris (C8) induisent des effets d'intervention significativement plus forts que des segments aléatoires appariés (C9). Sur 500 problèmes MATH, la différence médiane est de 0,409 (p = $2,3 \times 10^{-21}$ ), confirmant que la méthode détecte des structures causales réelles et non du bruit.
Robustesse et Invariance : Les résultats sont stables face aux variations des hyperparamètres (taille de fenêtre, nombre de pivots). L'ajout des diagnostics de courbure (C8) ne modifie pas les scores DRTC (corrélation de Spearman = 1,00), prouvant que la courbure est purement diagnostique.
Comparaison avec les baselines : DRTC montre une meilleure concordance avec les méthodes d'attribution basées sur le gradient ou le masquage optimisé que les méthodes d'occlusion ou de patching d'activation standards.
Lien avec le résultat (Outcome Linkage) : Sur un sous-ensemble filtré, les chunks classés en haut par DRTC dégradent davantage la probabilité de la réponse correcte (log-probabilité) lorsqu'ils sont perturbés par interpolation d'embedding, comparé à des contrôles aléatoires.

5. Signification et Conclusion

DRTC représente une avancée significative pour l'interprétabilité des modèles de raisonnement à long horizon :

Cartographie du pilotage : Elle fournit une "carte de pilotage" (steering map) qui montre comment des éléments de contexte spécifiques orientent la trajectoire de raisonnement d'un modèle.
Interprétabilité processuelle : Contrairement aux méthodes qui se concentrent sur le résultat final, DRTC éclaire le processus de décision, identifiant les étapes de "reformatage" (reframing) et de correction qui sont cruciales pour la résolution de problèmes.
Auditabilité : La méthode exporte des artefacts complets permettant aux chercheurs de vérifier étape par étape la découverte des pivots et les effets d'intervention.
Limites et Perspectives : La méthode repose actuellement sur des chunks de taille fixe et un budget de pivots fixe. Les travaux futurs visent à adapter la granularité et à étendre l'évaluation à d'autres domaines et stratégies de décodage.

En résumé, DRTC offre une vue causale fondée sur la trajectoire, permettant de comprendre non seulement ce que le modèle répond, mais comment et quand il prend ses décisions critiques au cours de son raisonnement.