Evaluating Performance Drift from Model Switching in Multi-Turn LLM Systems

Each language version is independently generated for its own context, not a direct translation.

🎭 Le Grand Jeu de la "Passerelle" : Quand les robots changent de peau en plein milieu de la conversation

Imaginez que vous êtes en train de raconter une histoire à un ami. Soudain, votre ami se lève, part faire un tour, et revient avec un tout autre ami qui doit continuer l'histoire exactement là où le premier l'a laissée.

C'est exactement ce qui arrive dans les systèmes d'intelligence artificielle (les LLM) que nous utilisons aujourd'hui. Souvent, le modèle qui parle au début de la conversation n'est pas le même que celui qui parle à la fin. Pourquoi ? Parce que les entreprises mettent à jour leurs logiciels, changent de fournisseur, ou utilisent un modèle de secours si le premier plante.

Les chercheurs de ce papier (NatWest et UCL) se sont demandé : « Est-ce que ce changement de modèle en plein milieu pose problème ? »

🧩 L'expérience : Le test du "Switch-Matrix"

Pour le savoir, ils ont créé un jeu de rôle géant qu'ils appellent le « Switch-Matrix » (la matrice de changement).

Imaginez un tableau de 9x9. Sur les lignes, vous avez le Premier Modèle (celui qui écrit le début de la conversation). Sur les colonnes, vous avez le Deuxième Modèle (celui qui doit finir l'histoire).

Ils ont fait faire des milliers de conversations à des robots de chez Google, OpenAI, Anthropic, etc., en changeant de robot à la dernière minute. Ensuite, ils ont comparé le résultat avec une conversation où le même robot a tout fait du début à la fin (la référence).

🌊 Ce qu'ils ont découvert : Le "Choc des Cultures"

Leurs résultats sont surprenants et très importants :

Le changement de voix crée un "choc" invisible : Même si le changement ne dure qu'un seul tour de parole, cela modifie radicalement la qualité de la réponse. C'est comme si vous passiez d'un chef cuisinier français à un chef japonais au milieu de la préparation d'un plat : le goût change, même si les ingrédients sont les mêmes.
- Dans certains cas, la qualité chute de 8 % à 13 %. C'est énorme ! C'est comme si un étudiant brillant se mettait à faire des fautes d'orthographe soudaines juste parce qu'un autre étudiant a écrit la phrase précédente.
Ce n'est pas toujours une mauvaise nouvelle (Parfois, ça aide !) :
- L'effet "Mentor" : Parfois, si le premier modèle est très strict et bien organisé, le deuxième modèle (même plus faible) s'améliore car il suit le bon exemple. C'est comme un élève en difficulté qui, en copiant les notes impeccables d'un élève brillant, réussit mieux son examen.
- L'effet "Contagion" : À l'inverse, si le premier modèle est un peu "brouillon" ou confus, le deuxième modèle peut hériter de ce chaos et faire des erreurs, même s'il est normalement très intelligent.
Le problème de l'habitude (Le "Contexte Mismatch") :
- Les modèles ont des habitudes. L'un aime les phrases courtes, l'autre les longues. L'un utilise des majuscules pour tout, l'autre non.
- Quand le deuxième modèle arrive, il ne lit pas seulement le texte ; il "sent" l'ambiance créée par le premier. S'il ne s'adapte pas, il se trompe. C'est comme si vous changiez de langue au milieu d'une phrase : le cerveau du deuxième modèle est un peu perdu.

📉 Deux types de réactions

Les chercheurs ont classé les modèles en deux catégories amusantes :

Les "Fragiles" : Certains modèles sont comme des caméléons qui ne supportent pas de changer de décor. Si le premier modèle n'est pas exactement eux, ils s'effondrent. (Exemple : DeepSeek dans ce test).
Les "Adaptatifs" : D'autres modèles sont comme des acteurs de théâtre polyvalents. Peu importe qui a joué la scène avant, ils s'adaptent et parfois, ils jouent encore mieux ! (Exemple : Gemini ou Qwen dans certains cas).

🛠️ Pourquoi est-ce important pour nous ?

Aujourd'hui, les entreprises surveillent la qualité de leurs IA en regardant des notes moyennes (ex: "Ce modèle a 90/100"). Mais ce papier dit : « Attention ! Cette note ne veut rien dire si vous changez de modèle en cours de route. »

C'est comme si vous testiez une voiture sur une piste lisse, mais que vous la conduisiez ensuite sur des pavés en changeant de pneus à mi-chemin sans vérifier si ça tient.

💡 La solution proposée : Le "Radar de Transition"

Les auteurs suggèrent de ne plus seulement regarder la performance d'un modèle seul, mais de mesurer sa résistance au changement.
Ils ont créé une sorte de "carte de compatibilité" qui permet de prédire :

Si je passe du Modèle A au Modèle B, vais-je perdre de la qualité ?
Dois-je ajouter une petite phrase de transition (un "pont") pour aider le deuxième modèle à comprendre le contexte ?

En résumé

Ce papier nous apprend que l'IA n'est pas un bloc monolithique. C'est une conversation vivante. Si vous changez l'interlocuteur en cours de route, la conversation change de nature. Pour que nos assistants virtuels soient fiables, il faut s'assurer qu'ils savent bien "passer le relais" sans trébucher, tout comme un relais de 4x100 mètres en athlétisme.

Si le relais est mal passé, même le coureur le plus rapide du monde peut perdre la course.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les systèmes de dialogue multi-tours déployés en production font souvent l'objet de changements de modèles en cours de session (mises à niveau, routage inter-fournisseurs, mécanismes de repli/fallback). Ce phénomène crée un décalage de contexte : le modèle générant les tours suivants (le modèle « suffixe ») doit conditionner sa réponse sur un historique de dialogue rédigé par un modèle différent (le modèle « préfixe »).

L'article identifie que cette transition constitue un changement de distribution structuré. Les conventions implicites (niveau de détail, formatage, engagements antérieurs) établies par le premier modèle peuvent induire une dérive de performance silencieuse (« silent performance drift ») pour le second modèle, même si les capacités intrinsèques de ce dernier sont supérieures. Les évaluations actuelles, basées sur des modèles fixes, ne capturent pas ce risque opérationnel.

2. Méthodologie

Les auteurs proposent une méthode d'évaluation par matrice de commutation (switch-matrix) pour isoler et quantifier cette dérive.

Protocole d'expérience :
- Pour chaque paire ordonnée de modèles $(A, B)$ , le modèle $A$ génère les $T-1$ premiers tours de la conversation, et le modèle $B$ génère le tour final (ou les tours restants).
- La politique de commutation se concentre sur le dernier tour ( $T = L-1$ ), isolant ainsi le problème de la continuation.
- La ligne diagonale $(B \to B)$ sert de référence « sans commutation » (no-switch baseline).
Mesure de la dérive :
- La dérive est calculée comme la différence appariée par épisode : $\delta_{A \to B}(e) = s_{A \to B}(e) - s_{B \to B}(e)$ , où $s$ est le score de l'épisode.
- L'effet moyen $\Delta_{A \to B}$ est obtenu via des intervalles de confiance bootstrap appariés (BCa) pour garantir la signification statistique.
Benchmarks utilisés :
- CoQA : Réponse aux questions conversationnelles sur un texte. Le modèle doit maintenir la cohérence des références et des entités.
- Multi-IF : Évaluation de l'adhésion aux instructions cumulatives (formatage, mots-clés, contraintes) sur plusieurs tours.
Optimisation : Utilisation de la mise en cache des préfixes pour rendre le calcul de la matrice $K \times K$ économiquement et computationnellement viable.

3. Contributions Clés

Formalisation du risque opérationnel : Définition de la commutation de modèle comme une source de dérive distincte, nécessitant des métriques spécifiques au-delà des scores de référence standards.
Infrastructure d'évaluation : Introduction d'un protocole de matrice de commutation avec analyse bootstrap appariée pour isoler l'effet de la commutation de la variance des épisodes.
Cartographie des performances : Première étude mesurant systématiquement les effets de commutation entre fournisseurs (Anthropic, OpenAI, Google, etc.) sur des tâches multi-tours.
Décomposition factorielle : Démonstration que la dérive peut être décomposée en deux facteurs par modèle, permettant un monitoring compressé.

4. Résultats Principaux

Les expériences sur 200 épisodes par benchmark avec 9 modèles montrent que la dérive est directionnelle, mesurable et statistiquement significative, même avec une seule commutation de tour.

Amplitude de l'impact :
- Sur Multi-IF, une commutation peut faire varier le taux de réussite strict de -8 % à +13 %.
- Sur CoQA, l'impact est d'environ ±4 points F1 absolus.
- Ces écarts sont comparables à la différence de performance entre différents niveaux de modèles (ex: GPT-5-nano vs GPT-5-mini).
Asymétrie et Compatibilité :
- L'effet n'est pas symétrique : une commutation $A \to B$ peut être néfaste tandis que $B \to A$ est neutre ou bénéfique.
- Exemples notables :
  - GPT-5-nano agit comme un préfixe très influent (positif ou négatif selon le suffixe).
  - DeepSeek-v3.2 montre une grande fragilité face aux préfixes hétérogènes (détérioration significative).
  - Gemini-2.5-flash et Qwen-2.5-72B tendent à s'améliorer sous des préfixes étrangers (deltas positifs), suggérant une capacité à s'adapter ou à bénéficier d'une structure de dialogue établie.
Mécanismes de dérive :
- Sur CoQA, la dérive provient d'une « calibration erronée » : le modèle suffixe traite les réponses précédentes comme un état conversationnel (engagements implicites) plutôt que de se réancrer sur le texte source.
- Sur Multi-IF, la dérive est liée à l'adhésion aux protocoles de formatage. Un préfixe fort peut stabiliser un protocole de sortie, boostant un suffixe plus faible (ex: Claude-Sonnet $\to$ GPT-5-nano améliore le succès de +13 points).

5. Analyse Factorielle et Monitoring

Les auteurs montrent que la matrice de dérive présente une structure de faible rang. Ils modélisent l'effet moyen comme :
$\Delta_{A \to B} = \mu + \alpha_A + \beta_B + \epsilon_{A,B}$
Où :

$\alpha_A$ : Influence du préfixe (impact moyen du modèle A sur les autres).
$\beta_B$ : Susceptibilité du suffixe (tendance du modèle B à s'améliorer ou se dégrader avec des historiques étrangers).

Ce modèle explique ~70 % de la variance (CoQA) et ~74 % (Multi-IF). Cela permet de créer un système de monitoring compressé en suivant les scores d'influence et de susceptibilité de chaque modèle, plutôt que de tester exhaustivement toutes les paires.

6. Signification et Implications

Fiabilité Opérationnelle : La robustesse à la commutation doit être considérée comme une dimension critique de fiabilité, absente des benchmarks actuels.
Stratégies de Déploiement :
- Nécessité d'un monitoring conscient de la commutation (logging du modèle auteur par tour).
- Mise en place de régressions de commutation (« handoff regression ») avant les mises à jour ou les changements de fournisseur pour identifier les paires à risque.
- Possibilité d'appliquer des atténuations (ex: injection d'instructions de transition) lorsque la dérive prévue est élevée.
Recherche Future : Extension aux commutations multi-tours, à d'autres tâches, et développement de stratégies de routage optimisées pour la continuité inter-modèles.

En résumé, cet article démontre que changer de modèle en cours de conversation n'est pas une opération neutre et peut soit dégrader, soit améliorer significativement les performances, selon la compatibilité comportementale entre les modèles.