Off-Trajectory Reasoning: Can LLMs Collaborate on Reasoning Trajectory?

Each language version is independently generated for its own context, not a direct translation.

🧠 Le Grand Test de la "Pensée à Deux" : Les IA peuvent-elles vraiment travailler en équipe ?

Imaginez que vous avez un groupe d'élèves très intelligents (les modèles d'IA) qui apprennent à résoudre des énigmes mathématiques ou à écrire du code. Jusqu'à présent, on les a entraînés à travailler seuls, comme des solitaires qui réfléchissent tout haut dans leur tête pour trouver la réponse. C'est ce qu'on appelle le "raisonnement en solo".

Mais dans le monde réel, les IA vont devoir collaborer : un humain pourrait les corriger, ou une IA plus forte pourrait aider une IA plus faible. Le problème ? Ces IA sont-elles capables de changer de cap si quelqu'un d'autre intervient dans leur pensée ?

C'est exactement ce que les chercheurs de l'Université Cornell ont voulu tester. Ils ont inventé deux jeux d'entraînement pour voir si ces "génies solitaires" savent vraiment jouer en équipe.

🎮 Les Deux Jeux de l'Équipe (Les "Tests Jumeaux")

Pour comprendre si une IA est une bonne collaboratrice, les chercheurs ont créé deux scénarios extrêmes :

1. Le Test de la "Résilience" (Recoverability) : L'IA face à la distraction

Imaginez que vous êtes en train de résoudre un problème de mathématiques. Soudain, quelqu'un vous chuchote à l'oreille une idée fausse et très convaincante, mais qui n'a rien à voir avec votre problème (par exemple, vous parle de la datation au carbone-14 alors que vous faites une équation algébrique).

Le défi : L'IA va-t-elle paniquer, suivre ce faux conseil et échouer ? Ou va-t-elle dire : "Attends, ça ne colle pas, je reprends mon fil" ?
La découverte surprenante : Les chercheurs ont trouvé que les IA les plus "intelligentes" (celes qui ont les meilleures notes aux examens standards) sont souvent les plus fragiles. Elles sont comme des élèves très confiants qui, une fois qu'ils entendent une erreur, ont du mal à se remettre en question. À l'inverse, les modèles plus petits et moins "célèbres" sont souvent plus robustes et savent mieux dire : "Non, ce n'est pas ça, je continue ma route".

2. Le Test de la "Guidance" (Guidability) : L'IA face à un mentor

Imaginez maintenant que vous êtes bloqué sur un problème trop difficile. Un expert (une IA plus forte) commence à vous expliquer la solution, mais s'arrête avant de donner la réponse finale.

Le défi : L'IA "étudiante" va-t-elle pouvoir utiliser cette explication partielle pour finir le travail et réussir là où elle aurait échoué seule ?
La découverte frustrante : C'est là que ça coince. Même avec l'aide d'un expert, la plupart des IA n'arrivent pas à dépasser leurs propres limites. C'est comme si l'étudiant regardait la solution de l'enseignant, mais qu'il était incapable de la comprendre ou de l'appliquer. Pour les maths, le taux de réussite reste très bas (moins de 9 %). L'IA semble dire : "Je vois ce que tu dis, mais je ne peux pas le faire moi-même."

🔍 Pourquoi cela arrive-t-il ? (Les causes cachées)

Les chercheurs ont creusé pour comprendre d'où venait ce problème. Ils ont découvert que ce n'est pas un hasard, mais le résultat de la façon dont on entraîne ces IA :

L'effet "Mauvaise Copie" (Distillation) : Quand on entraîne une petite IA en lui faisant copier les réponses d'une grande IA (le "professeur"), elle hérite aussi de ses défauts. Si le professeur est fragile face aux distractions, l'élève le sera aussi, même si l'élève ne voit que les bonnes réponses. C'est comme si un élève apprenait à faire du vélo en copiant un cycliste qui a peur des virages : il apprendra à avoir peur aussi.
L'entraînement par la récompense (RL) : Les chercheurs ont vu que l'entraînement par renforcement (où l'IA apprend par essais et erreurs, comme un jeu vidéo) aide beaucoup plus à devenir résilient que l'apprentissage par simple imitation. C'est l'équivalent de dire : "Non, tu as fait une erreur, réessaie !", ce qui apprend à l'IA à se corriger.
Le mythe du "Moins, c'est Mieux" : Certains pensent qu'entraîner une IA avec très peu de données de très haute qualité est le secret. Or, cette étude montre que cela rend l'IA très instable. Elle peut être excellente un jour et catastrophique le lendemain. Mieux vaut un entraînement plus large et stable.

💡 La Leçon à retenir

Cette recherche nous apprend une chose fondamentale : Être bon tout seul ne signifie pas être bon en équipe.

Aujourd'hui, nous choisissons nos IA en fonction de leurs notes aux examens (leur capacité à résoudre des problèmes seuls). Mais si nous voulons construire un futur où les IA travaillent avec des humains ou entre elles, nous devons les entraîner différemment. Nous devons leur apprendre non seulement à trouver la bonne réponse, mais aussi à écouter, à ne pas se laisser distraire par les erreurs des autres, et à savoir rebondir quand le chemin est perturbé.

En résumé : pour que l'IA devienne un véritable partenaire de travail, il faut arrêter de la former comme un solitaire génial, et commencer à la former comme un collaborateur résilient.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les modèles de langage (LLM) de nouvelle génération, entraînés pour verbaliser leur processus de pensée (raisonnement), excellent dans des tâches complexes comme les mathématiques et la programmation. Cependant, ces modèles sont actuellement conçus pour un raisonnement en solo (solo-reasoning).

L'article pose une question fondamentale : Les LLMs peuvent-ils collaborer efficacement sur une même trajectoire de raisonnement ? Dans un scénario de collaboration, un modèle doit pouvoir :

Se remettre d'erreurs introduites par un autre agent (ou un humain) qui a dévié le raisonnement (ex: un outil de code erroné ou une suggestion humaine trompeuse).
Bâtir sur des indices corrects fournis par un modèle plus puissant pour résoudre des problèmes au-delà de ses capacités intrinsèques.

Les auteurs définissent ce concept d'"Off-Trajectory Reasoning" (raisonnement hors-trajectoire) comme la capacité d'un modèle à traiter et à intégrer des tokens de raisonnement provenant d'autres sources (hors de sa propre distribution) au sein d'une trajectoire partagée. Le papier s'interroge sur la capacité des LLMs standards, entraînés uniquement en solo, à gérer ces situations.

2. Méthodologie : Les "Twin Tests" (Tests Jumeaux)

Pour évaluer cette capacité, les auteurs proposent un cadre d'évaluation systématique basé sur deux tests complémentaires, illustrés par la Figure 2 du papier :

A. Test de Récupérabilité (Recoverability)

Objectif : Mesurer la capacité d'un modèle à revenir sur ses pas et à corriger le cours d'un raisonnement après avoir été exposé à une distractor steer (une déviation trompeuse).
Protocole :
1. On prend un problème que le modèle résout correctement en solo.
2. On interrompt sa trajectoire de raisonnement après $m$ tokens.
3. On injecte une séquence de tokens ( $r_{steer}$ ) provenant du même modèle mais générée pour une question différente (garantissant ainsi que la poursuite aveugle de cette séquence mène à une erreur pour la question originale).
4. On demande au modèle de continuer le raisonnement.
Critère de succès : Le modèle réussit-il à ignorer la distraction et à retrouver le chemin vers la bonne réponse ?

B. Test de Guidabilité (Guidability)

Objectif : Mesurer la capacité d'un modèle à utiliser un guiding steer (un raisonnement correct mais incomplet fourni par un modèle plus fort) pour résoudre un problème qu'il ne peut pas résoudre seul.
Protocole :
1. On sélectionne des problèmes que le modèle cible ne résout pas (taux de réussite $\le 1/8$ ).
2. On place au début de la trajectoire (avant que le modèle n'ait généré de token) un extrait de raisonnement ( $r_{steer}$ ) provenant d'un modèle "tuteur" plus performant.
3. On varie la longueur de ce guide (20%, 40%, etc. de la trajectoire complète).
Critère de succès : Le modèle utilise-t-il correctement l'information fournie pour atteindre la solution ?

3. Contributions Clés

Cadre d'évaluation nouveau : Introduction des tests de Récupérabilité et de Guidabilité pour évaluer le raisonnement collaboratif, complétant les benchmarks standards de raisonnement en solo.
Évaluation à grande échelle : Analyse de 15 LLMs open-weight (de 1,5B à 32B paramètres), couvrant différentes familles (DeepSeek-R1, Qwen3, QwQ, etc.) et méthodes d'entraînement (SFT, RL, distillation).
Étude de contrôle post-entraînement : Première étude isolant l'impact de trois facteurs post-entraînement sur le comportement hors-trajectoire :
- Le choix du modèle enseignant pour la distillation.
- L'utilisation de l'apprentissage par renforcement (RL).
- Les stratégies de sélection de données (filtrage).

4. Résultats Principaux

Les résultats révèlent des constats contre-intuitifs et des limites majeures :

Performance en solo $\neq$ Robustesse en collaboration : Il n'y a pas de corrélation entre la performance sur les benchmarks standards et la capacité de raisonnement hors-trajectoire.
- Exemple frappant : Le modèle AM-Thinking-32B, le meilleur sur les benchmarks mathématiques (82,6 %), a l'une des pires capacités de récupération (33,4 %). À l'inverse, Qwen3-1.7B (59,9 % en solo) récupère dans 98,4 % des cas.
- En moyenne, la récupérabilité chute de 100 % (en solo) à 74,9 % pour les mathématiques et 59,1 % pour le code lorsque la trajectoire est perturbée.
Plafond de guidabilité invisible : Aucun modèle testé ne parvient à dépasser significativement ses limites intrinsèques en mathématiques grâce à un guide.
- Les taux de réussite restent inférieurs à 9,2 % pour les mathématiques, même avec des guides provenant de modèles supérieurs.
- Les auteurs constatent que les modèles échouent souvent à reconnaître un raisonnement correct s'il provient d'une distribution différente, ou qu'ils abandonnent la bonne voie pour suivre une logique erronée.
Importance du début de la trajectoire : La récupération est particulièrement difficile lorsque la distraction intervient au tout début (0 % de la trajectoire). Le fait de préserver la première phrase du raisonnement original (qui reformule souvent le problème) améliore considérablement la récupération (passant de <60 % à >83 % pour la plupart des modèles).
Transfert des vulnérabilités par distillation : Les faiblesses de récupération des modèles enseignants se transmettent aux modèles étudiants distillés, même si l'entraînement ne utilise que des trajectoires correctes. Cela suggère que le "style" de raisonnement (et non juste la correction) encode la fragilité.
Impact du RL et des données :
- Le RL (Reinforcement Learning) améliore considérablement la robustesse hors-trajectoire là où le SFT (Supervised Fine-Tuning) stagne, probablement parce qu'il expose le modèle à des échecs et l'entraîne à récupérer.
- Le filtrage agressif des données ("Less is more") réduit la variance des benchmarks mais introduit une forte variance dans la robustesse hors-trajectoire entre différents points de contrôle (checkpoints).

5. Signification et Implications

Ce travail remet en question l'hypothèse selon laquelle l'optimisation des benchmarks de raisonnement en solo suffit pour déployer des systèmes d'agents collaboratifs.

Limites des modèles actuels : Les LLMs "forts" sur les benchmarks sont souvent fragiles face aux perturbations ou incapables d'intégrer des conseils externes, ce qui pose un risque pour les systèmes multi-agents ou l'assistance humaine.
Nouvelles métriques d'entraînement : Pour entraîner de véritables collaborateurs, il ne suffit pas d'optimiser pour la justesse de la réponse finale. Il faut explicitement entraîner les modèles à :
1. Détecter et rejeter les trajectoires de raisonnement erronées (récupérabilité).
2. Intégrer et suivre des guides externes corrects (guidabilité).
Choix des enseignants : La distillation doit prendre en compte la robustesse hors-trajectoire des enseignants, pas seulement leur précision.
Rôle du RL : L'apprentissage par renforcement apparaît comme une méthode clé pour renforcer la résilience des modèles face aux erreurs et aux interruptions de raisonnement.

En conclusion, l'article établit que le raisonnement hors-trajectoire est une compétence distincte qui ne se développe pas automatiquement avec l'optimisation des benchmarks standards, et propose des pistes concrètes pour construire des systèmes d'IA plus robustes et collaboratifs.