Truth as a Trajectory: What Internal Representations Reveal About Large Language Model Reasoning

Each language version is independently generated for its own context, not a direct translation.

🧠 La Vérité est un Voyage, pas une Photo

(Explication du papier "Truth as a Trajectory")

Imaginez que vous essayez de comprendre si un élève a vraiment compris un problème de mathématiques ou s'il a simplement deviné la réponse en regardant les options.

1. Le Problème : La Photo vs. Le Film

Jusqu'à présent, les chercheurs qui étudient les grands modèles de langage (comme ceux qui écrivent des textes ou répondent à des questions) regardaient le cerveau de la machine comme une série de photos fixes.

L'ancienne méthode : Ils prenaient une "photo" du cerveau de l'IA à un moment précis (par exemple, à la 10ème étape de sa réflexion) et demandaient : "Est-ce que cette photo ressemble à une bonne réponse ?"
Le problème : C'est comme essayer de deviner le scénario d'un film en regardant une seule image figée. L'IA peut avoir l'air intelligente sur cette photo (elle utilise les bons mots), mais elle peut avoir suivi un chemin de pensée faux ou trompeur. De plus, l'IA est très bonne pour imiter les apparences (elle utilise les bons mots-clés) sans vraiment raisonner.

2. La Solution : "La Vérité en tant que Trajectoire" (TaT)

Les auteurs de ce papier proposent une idée géniale : ne regardez pas la photo, regardez le film.

Imaginez que la réflexion de l'IA est un voyage en voiture à travers un paysage complexe.

L'ancienne méthode regardait où se trouvait la voiture à un instant T.
La nouvelle méthode (TaT) regarde comment la voiture a conduit pour arriver là.

Ils appellent cela une Trajectoire. Au lieu de s'arrêter sur une seule image, ils analysent le mouvement complet de la voiture à travers toutes les étapes de la route (de la première couche du cerveau de l'IA jusqu'à la dernière).

3. L'Analogie du "Mouvement" vs. Le "Contenu"

Pour comprendre la différence, imaginez deux personnes qui écrivent une lettre :

Personne A (Le menteur) : Elle a appris par cœur un texte. Elle écrit chaque mot parfaitement, mais son stylo ne bouge pas vraiment de manière fluide. Elle fait des pauses bizarres, elle efface, elle reprend. C'est comme une voiture qui avance en faisant des à-coups.
Personne B (Le vrai penseur) : Elle réfléchit vraiment. Son stylo glisse avec une fluidité naturelle. Chaque mouvement découle logiquement du précédent. C'est une trajectoire lisse et cohérente.

Les chercheurs ont découvert que les IA qui réfléchissent vraiment suivent une trajectoire géométrique spécifique (un chemin fluide et logique) dans leur "espace de pensée". Celles qui trichent ou qui utilisent des raccourcis suivent un chemin saccadé, plein de virages brusques.

4. Comment ça marche ? (Le Détective de Mouvement)

Au lieu de regarder ce que l'IA dit (les mots), TaT regarde comment elle change d'idée à chaque étape.

Ils ne regardent pas la position finale (la réponse).
Ils regardent le déplacement : "Comment l'IA est-elle passée de la pensée A à la pensée B ?"

C'est comme si vous regardiez la danse d'un patineur. Peu importe la musique (le sujet), si le patineur est un vrai champion, ses mouvements suivent une logique physique précise. Si c'est un débutant qui triche, ses mouvements seront maladroits, même s'il porte le même costume.

5. Les Résultats Magiques

Ce système est incroyable pour deux raisons :

Il ne se fait pas avoir par les mots : Si l'IA utilise des mots toxiques ou dangereux, mais dans un contexte éducatif (comme citer un exemple), TaT voit que la "danse" est calme et logique, donc il comprend que ce n'est pas dangereux. Les anciennes méthodes, elles, paniquaient juste à cause des mots.
Il est polyvalent : Un détective formé pour repérer les menteurs dans un jeu de cartes peut aussi les repérer dans un jeu de dés. De la même façon, TaT, entraîné sur un type de raisonnement, fonctionne très bien sur d'autres sujets (médecine, histoire, logique) sans avoir besoin d'être réentraîné.

🎯 En Résumé

Ce papier nous dit : "Ne vous fiez pas à la destination, fiez-vous au chemin."

Pour savoir si une Intelligence Artificielle a vraiment raison, il ne faut pas seulement regarder sa réponse finale. Il faut observer le voyage de sa pensée, étape par étape. Si le trajet est fluide et logique, c'est probablement la vérité. Si le trajet est saccadé et bizarre, c'est probablement une illusion.

C'est une nouvelle façon de donner des lunettes à l'humain pour voir ce qui se passe vraiment à l'intérieur de la "boîte noire" de l'IA.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les méthodes d'explicabilité actuelles pour les Grands Modèles de Langage (LLM) reposent principalement sur l'hypothèse de représentation linéaire. Elles traitent les états cachés (activations) comme des points statiques dans un espace d'activation, supposant que les inférences correctes et incorrectes peuvent être séparées par des sondes linéaires (linear probes) appliquées à une couche spécifique.

Cependant, les auteurs identifient plusieurs limites majeures à cette approche :

Polysemanticité : Les activations sont saturées de caractéristiques polysémantiques (contenu lexical, structure syntaxique, artefacts de tâche), ce qui pousse les sondes linéaires à apprendre des motifs lexicaux de surface plutôt que la structure sous-jacente du raisonnement.
Manque de généralisation : Les "géométries de la vérité" sont souvent spécifiques à une tâche et orthogonales entre différents domaines. Une sonde entraînée pour détecter la justesse dans un contexte échoue souvent à se généraliser à d'autres.
Nature statique : L'analyse d'une couche isolée ignore l'évolution temporelle et dynamique du processus de raisonnement à travers les différentes couches du modèle.

L'objectif est de dépasser l'analyse des états statiques pour comprendre la dynamique interne du modèle afin de distinguer un raisonnement valide d'un comportement erroné ou spurious (basé sur des heuristiques de surface).

2. Méthodologie : Truth as a Trajectory (TaT)

Les auteurs proposent Truth as a Trajectory (TaT), un cadre qui modélise l'inférence du LLM non pas comme une collection d'images statiques, mais comme une trajectoire dynamique dans l'espace des représentations.

A. Construction de la Trajectoire

Au lieu d'analyser les vecteurs d'activation bruts ( $h_{t,\ell}$ ), TaT se concentre sur les vecteurs de déplacement (displacement vectors) entre les couches successives :
$d_{t,\ell} = h_{t,\ell+1} - h_{t,\ell}$
Cette transformation est motivée par l'hypothèse de la "base privilégiée" : les activations brutes contiennent beaucoup de contenu statique (identité du token, contexte persistant) qui masque les mises à jour actives du raisonnement. En calculant la différence, on atténue ce bruit de fond et on isole la mécanique de la mise à jour résiduelle ( $f_\theta$ ), révélant ainsi comment la représentation évolue en profondeur.

La trajectoire $S_i$ est construite en empilant ces vecteurs de déplacement pour tous les tokens et toutes les couches, formant une séquence temporelle unifiée.

B. Modélisation Dynamique

Pour capturer les invariants structurels non linéaires de ce raisonnement, les auteurs utilisent un classifieur LSTM (Long Short-Term Memory) léger.

Le LSTM traite la séquence de déplacements étape par étape.
L'état caché final encode la géométrie de la trajectoire entière.
Une tête de classification linéaire prédit la probabilité de validité du raisonnement.

Contrairement aux sondes linéaires qui cherchent une direction fixe, TaT apprend les frontières de décision directement sur la variété (manifold) de la dynamique de la trajectoire.

3. Contributions Clés

Explicabilité basée sur la trajectoire : Introduction d'un cadre qui modélise l'inférence comme un processus dynamique, capturant l'évolution géométrique continue du raisonnement plutôt que des états statiques.
Invariants géométriques inter-tâches : En analysant les vecteurs de déplacement plutôt que les activations brutes, la méthode atténue la dépendance aux caractéristiques lexicales statiques et expose une structure au niveau de la trajectoire invisible aux sondes linéaires.
Détection de comportement robuste : Démonstration que l'analyse de trajectoire s'étend efficacement à des propriétés comportementales complexes comme la détection de toxicité, surpassant les méthodes traditionnelles pour distinguer l'intention toxique du vocabulaire toxique cité ou contextuel.

4. Résultats Expérimentaux

Les expériences ont été menées sur des architectures denses (Llama-3.1-8B, Qwen2.5-14B/32B) et des architectures MoE (Mixture-of-Experts), couvrant le raisonnement de bon sens, la réponse aux questions, la factualité et la détection de toxicité.

Généralisation Hors Distribution (OOD) : TaT démontre une capacité de généralisation remarquable. Un classifieur entraîné sur un seul jeu de données (ex: ARC-Challenge) se transfère efficacement à d'autres tâches sans ajustement fin, surpassant systématiquement les sondes linéaires et les performances "zero-shot" ou "few-shot" du modèle de base.
Robustesse aux confusions lexicales : Dans la détection de toxicité (benchmarks RealToxicityPrompts et ToxiGen), TaT (basé sur le déplacement) obtient des résultats supérieurs aux sondes linéaires et aux trajectoires brutes. Il réussit mieux à distinguer l'intention toxique du simple usage de mots toxiques dans un contexte éducatif ou de citation.
Analyse des ablations :
- Les descripteurs cinématiques simples (vitesse, accélération) seuls sont insuffisants pour une généralisation cohérente, justifiant l'approche d'apprentissage (LSTM).
- L'utilisation des déplacements (displacement) est cruciale : l'entraînement sur les activations brutes conduit à un surapprentissage sémantique et à une moins bonne généralisation OOD.
- La structure complète de la grille (tokens × couches) est nécessaire ; réduire la trajectoire à une seule couche ou un seul token final dégrade fortement les performances.
- L'ordre séquentiel est important : un modèle invariant à l'ordre (Set MLP) sous-performe par rapport au LSTM, prouvant que la dynamique temporelle de l'inférence porte l'information critique.

5. Signification et Impact

Ce travail remet en question le paradigme dominant de l'interprétabilité statique des LLM. Il suggère que la validité du raisonnement est une propriété dynamique encodée dans la géométrie du flux d'activation à travers les couches, et non dans une position statique dans l'espace latent.

Sécurité et Fiabilité : TaT offre un outil robuste pour surveiller les modèles en production, capable de détecter des raisonnements erronés ou des comportements toxiques même lorsque le modèle utilise des heuristiques de surface ou des vocabulaires ambigus.
Efficacité : Bien que l'extraction de la trajectoire complète ait un coût computationnel légèrement supérieur à une sonde statique (environ 16% de temps d'inférence supplémentaire dans le pire des cas, mais négligeable avec un pipeline intégré), le gain en robustesse et en capacité de transfert justifie cet investissement pour les applications critiques.
Perspectives Futures : Les auteurs envisagent d'utiliser TaT non seulement pour la détection, mais aussi pour l'interprétabilité causale (identification des couches et têtes spécifiques responsables d'une déviation de trajectoire) et l'extension au raisonnement auto-généré (chaines de pensée).

En résumé, Truth as a Trajectory établit que l'analyse de la géométrie du mouvement des représentations internes offre une signature invariante et transférable de la validité du raisonnement, dépassant les limitations des approches statiques actuelles.