TERMINATOR: Learning Optimal Exit Points for Early Stopping in Chain-of-Thought Reasoning

Each language version is independently generated for its own context, not a direct translation.

🧠 Le Problème : Le "Grand Penseur" qui ne s'arrête jamais

Imaginez un génie des mathématiques (un Grand Modèle de Raisonnement ou LRM) à qui vous posez une question simple : "Combien font 2 + 3 ?".

Au lieu de répondre immédiatement "5", ce génie se met à réfléchir à voix haute :

"Bon, 2 plus 3... attendez, je devrais vérifier si c'est bien 5. Peut-être que c'est 4 ? Non, 2 plus 3, c'est 5. Mais est-ce que j'ai bien lu l'énoncé ? Et si je faisais une autre méthode pour confirmer ? 2 fois 1 plus 3... oui, c'est bien 5. Mais je devrais peut-être écrire une petite preuve..."

Il continue de parler pendant des pages, alors qu'il a déjà trouvé la réponse dès la première phrase. C'est ce qu'on appelle le "sur-réflexion" (overthinking). Le modèle gaspille énormément de temps de calcul et d'énergie pour répéter des choses qu'il sait déjà, comme un étudiant qui relit son devoir 10 fois alors qu'il l'a fini depuis longtemps.

🛑 La Solution : TERMINATOR, le "Stop-Go" intelligent

Les chercheurs ont créé un outil appelé TERMINATOR. Son but est simple : dire au modèle "Stop ! Tu as la réponse, on arrête là !" au moment exact où la réponse apparaît, sans attendre la fin du texte.

Mais comment savoir exactement quand le modèle a trouvé la réponse, alors qu'il continue de parler ? C'est là que ça devient fascinant.

🔍 L'Analogie du "Battement de Cœur" et du "Changement de Ton"

Les chercheurs ont observé deux signes révélateurs dans la façon dont le modèle "pense" :

Le Pic de Confiance (Le Battement de Cœur) :
Imaginez que le modèle a un "battement de cœur" numérique (une mesure de confiance). Quand il est en train de chercher, son cœur bat vite et irrégulièrement (il hésite, il essaie des choses). Mais au moment précis où il trouve la réponse, son "cœur" fait un pic de confiance énorme. Il sait qu'il a raison. Juste après ce pic, il commence à douter à nouveau et à faire des vérifications inutiles.
- L'analogie : C'est comme un coureur qui franchit la ligne d'arrivée. Il accélère un dernier coup (le pic), puis il commence à ralentir et à marcher en regardant ses chaussures (la sur-réflexion). TERMINATOR détecte ce pic pour arrêter le modèle juste à la ligne d'arrivée.
Le Changement de Vocabulaire (Les Mots "Penseurs") :
Avant de trouver la réponse, le modèle utilise des mots comme "Hmm...", "Attends...", "Voyons...". Une fois la réponse trouvée, il change de ton et utilise des mots comme "Donc...", "En conclusion...", "Autrement...".
- L'analogie : C'est comme un détective. Tant qu'il enquête, il dit "Je me demande si...". Une fois qu'il a le coupable, il dit "Voilà, c'est lui !" et il ferme son dossier. TERMINATOR apprend à reconnaître ce changement de vocabulaire pour fermer le dossier.

🎓 Comment a-t-on appris à TERMINATOR ? (L'École de la "Rétrospective")

Pour entraîner TERMINATOR, les chercheurs ont utilisé une astuce géniale appelée "l'optimisme rétrospectif".

Imaginez que vous regardez un film de fin en début. Vous savez déjà la fin du film. Vous vous dites : "Ah, le héros a trouvé la solution à la minute 45. Tout ce qui se passe après, c'est juste du remplissage."

Les chercheurs ont pris des milliers de conversations où le modèle a déjà répondu.
Ils ont regardé en arrière pour trouver le tout premier moment où la réponse correcte est apparue.
Ils ont dit à TERMINATOR : "À partir de ce moment précis, tu dois dire 'STOP'. Tout ce qui suit est du gaspillage."

C'est comme apprendre à un garde du corps à protéger son chef : il ne doit pas attendre que le danger arrive, il doit savoir exactement quand la mission est accomplie pour arrêter la sécurité.

🚀 Les Résultats : Plus rapide, tout aussi intelligent

Grâce à cette méthode, TERMINATOR a permis de :

Réduire la longueur des réponses de 14% à 55% (selon la difficulté).
Gagner énormément de temps (parfois la moitié du temps de calcul).
Ne pas perdre en précision : Le modèle donne toujours la bonne réponse, il ne fait juste plus de blabla inutile.

🌟 En Résumé

TERMINATOR, c'est comme un chef d'orchestre pour les intelligences artificielles. Au lieu de laisser le musicien jouer une symphonie entière alors qu'il a fini le solo à la 10ème mesure, TERMINATOR lève sa baguette au bon moment pour dire : "Bravo, c'est fini, on arrête la musique."

C'est une façon intelligente d'économiser de l'énergie, de l'argent et du temps, tout en gardant la même qualité de réponse.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique : Le Sur-pensée (Overthinking) des Modèles de Raisonnement

Les Modèles de Raisonnement à Grande Échelle (LRM) ont démontré des performances exceptionnelles sur des tâches complexes grâce au raisonnement de type "Chaîne de Pensée" (Chain-of-Thought ou CoT). Cependant, ces modèles souffrent d'un phénomène majeur appelé sur-pensée (overthinking).

Le problème : Une fois que le modèle a généré la réponse finale correcte, il continue souvent à générer des milliers de tokens supplémentaires pour "vérifier" son travail, explorer des solutions alternatives ou douter de sa réponse.
La conséquence : Cela entraîne un gaspillage considérable de ressources de calcul (latence et coût) sans amélioration significative de la précision.
Le défi existant : Bien qu'il existe une "longueur de raisonnement optimale" (le point où l'on peut arrêter la génération sans perdre en précision), déterminer ce point de manière dynamique et précise pour chaque tâche et chaque modèle est extrêmement difficile. Les méthodes actuelles reposent souvent sur des seuils fixes ou des réentraînements coûteux.

2. Méthodologie : TERMINATOR

L'article propose TERMINATOR, une stratégie d'arrêt anticipé (early stopping) conçue pour être utilisée lors de l'inférence, sans réentraînement du modèle de base.

A. Concept Clé : La Longeur de Raisonnement Optimale Rétrospective (HORL)

Les auteurs introduisent la notion de Hindsight-Optimal Reasoning Length (HORL). Pour un CoT donné, la HORL est définie comme le nombre minimum de tokens nécessaires pour que le modèle atteigne sa réponse finale $\hat{a}$ pour la première fois.

L'idée centrale est que la première apparition logique de la réponse finale est un signal détectable.
Tout token généré après ce point est considéré comme redondant.

B. Pipeline de Création de Données (Curation)

Pour entraîner TERMINATOR, les auteurs ont dû construire un jeu de données étiquetant précisément la position de la première apparition de la réponse. Ils ont développé un pipeline automatisé en trois étapes utilisant un LRM puissant (Qwen3-30B) :

Extraction : Extraire la réponse finale $\hat{a}$ de la solution complète.
Identification : Identifier la plus petite séquence de texte dans le CoT qui mène à la première occurrence logique de $\hat{a}$ .
Vérification : Vérifier que cette séquence contient bien la réponse. Si l'échec se produit, le système itère avec un feedback jusqu'à un nombre maximal de tentatives.
Ce processus permet de créer un jeu de données d'entraînement à l'échelle de dizaines de milliers d'exemples.

C. Architecture du Modèle TERMINATOR

TERMINATOR est un classifieur binaire (probe) léger :

Entrée : Les états cachés de la dernière couche du LRM à chaque token du CoT.
Sortie : Une probabilité binaire indiquant si la réponse finale a déjà été générée (1) ou non (0).
Entraînement : Le modèle est entraîné avec une fonction de perte de type cross-entropy binaire pondérée par classe (pour gérer le déséquilibre entre les tokens avant et après la réponse).
Mécanisme d'arrêt : Pendant l'inférence, TERMINATOR analyse les prédictions sur une fenêtre glissante (10 tokens). Si la majorité des prédictions dans cette fenêtre sont positives (>50%), le token de fin `

TERMINATOR: Learning Optimal Exit Points for Early Stopping in Chain-of-Thought Reasoning

🧠 Le Problème : Le "Grand Penseur" qui ne s'arrête jamais

🛑 La Solution : TERMINATOR, le "Stop-Go" intelligent

🔍 L'Analogie du "Battement de Cœur" et du "Changement de Ton"

🎓 Comment a-t-on appris à TERMINATOR ? (L'École de la "Rétrospective")

🚀 Les Résultats : Plus rapide, tout aussi intelligent

🌟 En Résumé

1. Problématique : Le Sur-pensée (Overthinking) des Modèles de Raisonnement

2. Méthodologie : TERMINATOR

A. Concept Clé : La Longeur de Raisonnement Optimale Rétrospective (HORL)

B. Pipeline de Création de Données (Curation)

C. Architecture du Modèle TERMINATOR

Articles similaires

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank