DiSCTT: Consensus-Guided Self-Curriculum for Efficient Test-Time Adaptation in Reasoning

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez un élève très intelligent, mais qui a un défaut : il traite toutes les questions de la même manière, qu'elles soient simples ou extrêmement complexes. S'il doit résoudre une addition de 2 + 2, il utilise la même énergie mentale et la même méthode que pour résoudre un problème de physique quantique. Résultat ? Il gaspille de l'énergie sur les tâches faciles et se perd parfois sur les tâches difficiles.

C'est exactement le problème que les chercheurs ont résolu avec une nouvelle méthode appelée DiSCTT.

Voici une explication simple de leur idée, en utilisant des analogies de la vie quotidienne.

1. Le Problème : L'approche "Une taille unique"

Actuellement, les grands modèles d'intelligence artificielle (comme ceux qui écrivent ce texte) apprennent souvent de la même façon pour tout le monde.

L'analogie : Imaginez un professeur qui donne le même devoir de révision à tous ses élèves, du plus doué au plus en difficulté. Les élèves qui savent déjà la réponse s'ennuient et ne progressent pas. Les élèves en difficulté, eux, sont submergés et ne comprennent rien. C'est inefficace et instable.

2. La Solution : Le "DiSCTT" (Le Professeur Intuitif)

DiSCTT est comme un professeur très observateur qui ne se contente pas de donner un devoir. Il observe d'abord comment l'élève réfléchit avant de décider de l'aider.

Le système fonctionne en deux étapes clés, basées sur un concept appelé le "Consensus" (l'accord).

Étape A : La "Réunion de l'équipe" (Estimer la difficulté)

Avant de donner une réponse finale, le modèle imagine plusieurs versions de sa propre réponse (comme si plusieurs experts discutaient du problème).

Si les experts sont d'accord : "Ah, tout le monde pense que la réponse est 42." -> C'est une tâche facile. Le modèle est sûr de lui.
Si les experts se disputent : "L'un dit 42, l'autre dit 100, un troisième dit que c'est impossible." -> C'est une tâche difficile. Le modèle est incertain.

Étape B : Le "Plan de cours dynamique" (Deux méthodes d'apprentissage)

Selon le résultat de cette "réunion", le modèle choisit une stratégie différente :

Pour les tâches faciles (Haut consensus) : La "Répétition"
- L'analogie : C'est comme réviser ses tables de multiplication. Tout le monde est d'accord, alors on ne cherche pas de nouvelles idées folles. On répète simplement la bonne réponse pour la graver dans la mémoire.
- En technique : Le modèle utilise un apprentissage supervisé simple pour consolider ce qu'il sait déjà. C'est rapide, stable et ne consomme pas beaucoup d'énergie.
Pour les tâches difficiles (Faible consensus) : L'"Exploration Guidée"
- L'analogie : C'est comme un détective face à un mystère. Puisque personne n'est d'accord, il faut explorer de nouvelles pistes. Mais attention ! Le détective ne doit pas courir dans tous les sens (ce qui serait chaotique). Il doit explorer de nouvelles idées, mais seulement si elles restent liées à l'enquête (le sujet de la question).
- En technique : Le modèle utilise l'apprentissage par renforcement (comme un jeu vidéo où l'on gagne des points). Il essaie de nouvelles façons de raisonner, mais avec une règle stricte : "N'essaie de nouvelles choses que si tu restes pertinent par rapport à la question." Cela évite que le modèle ne devienne fou ou ne s'éloigne du sujet.

3. Pourquoi est-ce génial ? (Les Résultats)

Grâce à cette méthode, le modèle devient plus intelligent, plus rapide et plus stable.

Moins de gaspillage : Il ne perd pas de temps à "réinventer la roue" sur des questions faciles.
Plus de courage là où il faut : Il ose explorer des solutions complexes uniquement quand c'est nécessaire.
Économie d'énergie : Comme il ne fait pas d'efforts inutiles, il consomme beaucoup moins d'électricité (calculs) pour atteindre de meilleurs résultats.

En résumé

DiSCTT, c'est comme donner à un robot un instinct de difficulté. Au lieu de traiter chaque problème comme un ennemi à abattre avec la même force, il apprend à dire :

"Oh, c'est facile, je vais juste confirmer ma réponse."
"Oh là là, c'est dur, je vais prendre mon temps, essayer plusieurs angles, mais rester concentré."

C'est cette capacité à adapter sa stratégie à la difficulté du moment qui permet aux intelligences artificielles de devenir de véritables experts en raisonnement, sans avoir besoin d'un professeur humain pour les corriger à chaque fois.

Each language version is independently generated for its own context, not a direct translation.

Titre

DiSCTT : Un curriculum auto-généré guidé par le consensus pour une adaptation efficace au moment du test dans les tâches de raisonnement.

1. Problématique

Les modèles de langage (LLM) performants en raisonnement (mathématique et général) reposent souvent sur des politiques d'inférence fixes une fois déployés. Bien que l'adaptation au moment du test (Test-Time Adaptation ou TTA) offre une voie prometteuse pour améliorer ces performances sans supervision externe, les approches existantes souffrent de limitations majeures :

Hétérogénéité des problèmes : Les tâches de raisonnement varient considérablement en difficulté. Appliquer un objectif d'optimisation unique (uniforme) à tous les inputs est inefficace.
Inefficacité des méthodes uniformes :
- L'apprentissage supervisé (Self-Training) sature rapidement sur les problèmes difficiles et n'apporte que peu de bénéfices.
- L'apprentissage par renforcement (RL) uniforme introduit une variance inutile sur les instances déjà résolues, menant à une instabilité ou à un effondrement de la politique (policy collapse).
Estimation de l'incertitude : Les scores de confiance au niveau des tokens sont mal adaptés au raisonnement multi-étapes. Il manque une méthode robuste pour estimer la difficulté d'une instance spécifique sans accès aux étiquettes de vérité terrain (ground-truth).

2. Méthodologie : DiSCTT

Les auteurs proposent DiSCTT (Difficulty-aware Consensus-Guided Self-Curriculum Test-Time Adaptation), un cadre qui alloue dynamiquement des stratégies d'optimisation différentes en fonction de l'incertitude épistémique estimée au niveau de l'instance.

A. Estimation de la difficulté par consensus

Pour chaque entrée $x$ , le modèle génère $M$ trajectoires de raisonnement indépendantes.

Le taux de consensus ( $c_j$ ) est calculé comme la proportion de trajectoires convergeant vers la même réponse finale.
Hypothèse : Un consensus élevé indique une faible incertitude (instance "facile"), tandis qu'un faible consensus signale une ambiguïté ou une instabilité de raisonnement (instance "difficile").
Les données sont partitionnées dynamiquement en deux ensembles :
- $D_{easy}$ : Consensus $\ge$ seuil $\rho$ (optimisées par SFT).
- $D_{hard}$ : Consensus $<$ seuil $\rho$ (optimisées par RL).
Ce partitionnement est recalculé périodiquement, créant un curriculum auto-évolutif qui s'adapte à la compétence croissante du modèle.

B. Double objectif d'apprentissage

Le cadre alterne entre deux phases d'optimisation :

Consolidation Supervisée (SFT) sur $D_{easy}$ :
- Les solutions majoritaires (consensus) sont utilisées comme pseudo-étiquettes.
- L'objectif est de renforcer les trajectoires de raisonnement stables et à faible variance, consolidant ainsi les comportements corrects.
Apprentissage par Renforcement (RL) sur $D_{hard}$ :
- Utilise l'algorithme GRPO (Group Relative Policy Optimization).
- Fonction de récompense innovante : Elle est conçue pour stabiliser l'exploration sans supervision externe. Elle combine trois composantes multiplicatives :
  - Porte de correction (Correctness Gate) : Seules les trajectoires correspondant à la réponse majoritaire (pseudo-label) reçoivent une récompense non nulle.
  - Nouveauté relative à la population (Population-relative Novelty) : Encourage la diversité des trajectoires de raisonnement par rapport à la distribution dominante, mesurée via la divergence Jensen-Shannon (JSD). Cela évite la redondance sans introduire de bruit excessif.
  - Porte sémantique consciente de la pertinence (Relevance-aware Semantic Gating) : Pénalise les trajectoires dont les étapes intermédiaires s'éloignent sémantiquement de l'entrée (détection de "dérive" hors sujet), assurant que la nouveauté reste pertinente.

3. Contributions Clés

Estimation de difficulté basée sur le consensus : Formalisation de l'accord entre trajectoires de raisonnement comme un estimateur d'incertitude épistémique en ligne, éliminant le besoin d'étiquettes de vérité terrain.
Curriculum auto-généré dynamique : Un mécanisme de routage qui assigne le SFT aux instances sûres et le RL aux instances incertaines, permettant au modèle de s'adapter à sa propre évolution de compétence.
RL stabilisé sans étiquettes : Une fonction de récompense combinant vérification de cohérence, diversité contrôlée et contraintes sémantiques pour permettre une exploration efficace sans instabilité.
Évaluation empirique exhaustive : Validation sur une large gamme de benchmarks (mathématiques et raisonnement général) et de tailles de modèles.

4. Résultats Expérimentaux

Les expériences ont été menées sur six benchmarks (AMC, MATH-500, AIME-2024, GPQA, HotpotQA, MMLU) avec divers modèles (Qwen, LLaMA).

Performance : DiSCTT surpasse systématiquement les bases de référence (TTRL, EVOL-RL, SFT seul, RL seul) en termes de précision moyenne.
- Exemple : Sur MATH-500 avec Qwen-2.5-7B, DiSCTT atteint 82,2 % contre 74,2 % pour TTRL.
Stabilité et Variance : DiSCTT réduit considérablement la variance des résultats entre les exécutions indépendantes par rapport aux méthodes uniformes.
Efficacité Computationnelle :
- DiSCTT réduit la charge de calcul (FLOPs) et le temps d'entraînement jusqu'à 50 % par rapport au RL uniforme (TTRL).
- Cela est dû au fait que le RL coûteux n'est appliqué qu'aux instances difficiles, tandis que les instances faciles sont traitées par un SFT léger.
Généralisation Hors Distribution (OOD) : Le modèle conserve ses capacités de raisonnement général et montre une meilleure robustesse face aux changements de distribution, évitant le surapprentissage (overfitting) aux corrélations spurious du jeu de test.
Analyse par niveau de difficulté : Contrairement au SFT seul (qui plafonne sur les problèmes difficiles) ou au RL seul (qui converge lentement), DiSCTT combine les avantages des deux, offrant une amélioration rapide et soutenue sur tous les niveaux de difficulté.

5. Signification et Impact

Ce travail démontre que l'adaptation au moment du test ne doit pas être une approche "taille unique". En reconnaissant explicitement l'hétérogénéité des problèmes de raisonnement et en utilisant l'incertitude du modèle pour guider l'allocation des ressources d'apprentissage, DiSCTT offre un paradigme plus stable, efficace et évolutif.

Pour la recherche : Il propose un nouveau design pattern pour l'inférence adaptative, unifiant l'apprentissage supervisé et par renforcement via un mécanisme de curriculum dynamique.
Pour l'industrie : La réduction significative des coûts de calcul tout en améliorant les performances rend l'adaptation en temps réel plus viable pour des applications réelles (éducation, analyse scientifique, aide à la décision).
Sécurité : La méthode est décrite comme une contribution algorithmique neutre, mais les auteurs soulignent l'importance d'un déploiement responsable pour éviter la génération de raisonnements trompeurs ou trop confiants.

En résumé, DiSCTT transforme l'adaptation au moment du test d'un processus d'optimisation uniforme en un processus intelligent et sélectif, capable de consolider ce qui est déjà acquis et d'explorer de manière structurée ce qui reste incertain.