Evaluating Performance Drift from Model Switching in Multi-Turn LLM Systems

Each language version is independently generated for its own context, not a direct translation.

Titel: Wat gebeurt er als je een gesprek overdraagt aan een ander?

Stel je voor dat je een lang gesprek voert met een vriend. Je bent diep in de discussie, jullie hebben een bepaalde manier van praten ontwikkeld, en alles loopt soepel. Plotseling, halverwege het gesprek, wordt je vriend vervangen door een ander persoon. Misschien is je oorspronkelijke vriend ziek geworden, of misschien heeft de organisatie besloten dat de nieuwe persoon beter geschikt is voor het laatste deel van het gesprek.

Deze nieuwe persoon moet nu verder praten op basis van wat er al gezegd is, maar hij heeft die eerste helft niet zelf geschreven. Dit is precies het probleem dat dit wetenschappelijke papier onderzoekt, maar dan met kunstmatige intelligentie (AI) in plaats van mensen.

Hier is de uitleg in gewone taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Gespreks-Overdracht"

In de echte wereld gebruiken bedrijven vaak meerdere AI-modellen. Soms schakelen ze over naar een nieuwere versie, soms gebruiken ze een goedkopere AI voor het begin en een slimmere voor het einde, of ze wisselen over naar een andere leverancier als één systeem vastloopt.

Het papier noemt dit een "handoff" (overdracht). Het probleem is dat de AI die het gesprek moet afmaken (de suffix-model), moet praten in de stijl en met de regels die de vorige AI (de prefix-model) heeft bedacht.

De Analogie: Stel je voor dat je een verhaal schrijft. De eerste schrijver gebruikt heel formele taal, lange zinnen en veel poëzie. De tweede schrijver, die het verhaal moet afmaken, is gewend aan korte, strakke nieuwsberichten. Als de tweede schrijver de eerste tekst leest, raakt hij in de war. Hij probeert misschien te blijven in de stijl van de eerste schrijver (en faalt), of hij breekt plotseling door de stijl heen (en dat voelt vreemd voor de lezer).

2. Wat hebben de onderzoekers gedaan?

De onderzoekers hebben een soort "Switch-Matrix" (een switch-kaart) gemaakt. Ze hebben 9 verschillende AI-modellen op elkaar laten inwerken.

Ze lieten Model A de eerste helft van een gesprek doen.
Dan lieten ze Model B het laatste stukje doen.
Vervolgens vergeleken ze dit met een gesprek waar Model B het hele gesprek had gedaan.

Ze keken: "Draait het gesprek soepel, of valt de kwaliteit van Model B flink tegen (of juist mee) omdat het op de schouders van Model A staat?"

3. De Verassende Resultaten

De uitkomsten waren verrassend en belangrijk:

Het is niet altijd slecht: Soms wordt een gesprek beter door de overdracht.
- Vergelijking: Stel je voor dat je een slecht begin hebt met een onzeker schrijver. Als een zeer ervaren schrijver het overneemt, kan die de draad oppakken en het verhaal redden. In hun tests bleek dat een "zwakke" AI soms beter presteerde als hij werd voorafgegaan door een "sterke" AI, omdat de sterke AI een duidelijk pad had uitgestippeld.
Het is niet altijd goed: Soms zakt de prestatie enorm in.
- Vergelijking: Als een AI gewend is aan heel specifieke regels (bijvoorbeeld: "gebruik altijd hoofdletters voor namen"), en de vorige AI heeft die regels genegeerd, kan de nieuwe AI in de war raken en fouten maken.
Het hangt af van de combinatie: Het maakt niet alleen uit welke AI je gebruikt, maar met wie hij samenwerkt. Een combinatie van AI A en AI B kan werken, maar AI B en AI C kan een ramp zijn. Het is alsof je een voetbalteam samenstelt: niet elke speler past bij elke andere speler, zelfs als ze allemaal individueel goed zijn.

4. Waarom is dit belangrijk?

Vroeger dachten mensen: "Als een AI 90% goed presteert op tests, is hij goed." Dit papier zegt: "Nee, dat is niet genoeg."

Als je een AI gebruikt die halverwege het gesprek verandert (bijvoorbeeld omdat je van provider wisselt of een update doet), kan de kwaliteit van het antwoord drastisch veranderen, zelfs als je niet merkt dat er iets is veranderd. Dit noemen ze "stille drift" (stille afwijking).

De Metafoor: Het is alsof je een auto rijdt. Je denkt dat je 100 km/u rijdt, maar omdat de motor halverwege is vervangen door een ander type, rijdt je ineens 80 km/u of 120 km/u, zonder dat je dat direct ziet. Je komt misschien niet op tijd aan, of je rijdt te snel.

5. De Oplossing: "Overdrachts-Check"

De onderzoekers stellen voor dat bedrijven niet alleen kijken naar hoe goed een AI alleen werkt, maar ook naar hoe goed hij werkt als hij een gesprek moet overnemen.

Ze hebben een formule bedacht om dit te voorspellen:

Invloed van de eerste: Hoe sterk is de AI die het gesprek begint? (Zet hij een stevig fundament?)
Gevoeligheid van de tweede: Hoe makkelijk raakt de AI die het gesprek afmaakt in de war door een vreemde stijl?

Door dit te meten, kunnen bedrijven risicovolle combinaties voorkomen. Ze kunnen bijvoorbeeld beslissen: "We schakelen niet over van AI A naar AI B, want die twee praten niet goed met elkaar." Of ze kunnen een extra instructie toevoegen om de overgang soepeler te maken.

Conclusie

Kortom: AI-gesprekken zijn kwetsbaar voor wisselingen. Als je een gesprek overdraagt aan een ander model, is het alsof je een danspaar wisselt midden op de dansvloer. Soms dansen ze nog beter samen, maar vaak struikelen ze over elkaars pasjes. Dit onderzoek waarschuwt bedrijven om hierop te letten, zodat hun AI-systemen niet plotseling "stotteren" als ze van model wisselen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

In de productieomgeving van Large Language Models (LLM's) vinden interacties vaak plaats in meerdere rondes (multi-turn dialogen). Tegenwoordig wisselen systemen echter regelmatig van model tijdens een sessie vanwege upgrades, routing tussen verschillende providers, of fallback-mechanismen. Dit creëert een context-mismatch: het model dat de latere rondes genereert (het 'suffix'-model), moet voortbouwen op een dialooggeschiedenis die is geschreven door een ander model (het 'prefix'-model).

De huidige literatuur en evaluaties gaan er vaak impliciet van uit dat één model de hele interactie uitvoert. Dit paper identificeert dat deze overdracht (handoff) een gestructureerde verdelingsshift veroorzaakt. Het suffix-model moet zich baseren op conventies, stilzwijgende toezeggingen en formaten die door een ander model zijn ingesteld, wat kan leiden tot stille prestatiedrift (silent performance drift) zonder dat dit direct zichtbaar is in traditionele benchmarks.

Methodologie

De auteurs introduceren een switch-matrix benchmark om deze drift kwantitatief te meten.

Experimenteel Opzet:
- Er wordt een set $K$ LLM's gedefinieerd. Voor elke geordende paar $(A, B)$ wordt een 'context-switch cel' uitgevoerd.
- Prefix: Model $A$ genereert de eerste $T$ rondes van een dialoog.
- Suffix: Model $B$ genereert de resterende rondes (in dit onderzoek specifiek de laatste ronde, $T = L-1$ ).
- Baseline: De diagonale cellen $(B \to B)$ dienen als controlegroep, waarbij model $B$ de volledige dialoog genereert.
Benchmarks:
- CoQA (Conversational Question Answering): Een taak waarbij antwoorden afhankelijk zijn van conversatiestaat (zoals coreferentie). De score is gebaseerd op token-overlap (F1). Hier blijft de bron tekst in de context, dus drift ontstaat door het vasthouden aan de 'assistent-staat' in plaats van het opnieuw grondig raadplegen van de bron.
- Multi-IF (Multi-turn Instruction Following): Een taak waarbij elke ronde nieuwe verifieerbare constraints (format, lengte, keywords) toevoegt. De score is een binair succes/falen op basis van het voldoen aan alle opgebouwde constraints.
Meting van Drift:
- De drift wordt berekend als het gepaarde verschil per episode: $\delta_{A \to B}(e) = s_{A \to B}(e) - s_{B \to B}(e)$ .
- Het gemiddelde effect $\Delta_{A \to B}$ wordt bepaald over alle episodes.
- Om onzekerheid te kwantificeren, gebruiken de auteurs gepaarde bootstrap-betrouwbaarheidsintervallen (BCa), waarbij per-episode koppelingen worden behouden om de variatie te minimaliseren.
Efficiëntie:
- Om de rekentijd en kosten beheersbaar te houden voor een $K \times K$ matrix, worden de generaties van de prefix-modellen op schijf gecachet en hergebruikt voor alle suffix-modellen.

Belangrijkste Bijdragen

Formalisatie van Model Switching: Het paper formaliseert modelswitching als een operationele bron van drift en introduceert een protocol om dit te meten ten opzichte van een 'no-switch' baseline.
Efficiënte Evaluatie-Harness: Een systeem met prefix-caching en gepaarde bootstrap-analyse dat grote switch-matrices mogelijk maakt.
Empirische Bewijzen: De eerste cross-provider switch-matrix studies die aantonen dat zelfs een switch in de allerlaatste ronde meetbare drift veroorzaakt die niet voorspeld kan worden door enkele-model benchmarkscores.
Factorisatie van Drift: Het decomponeren van drift in twee per-model factoren: prefix influence (hoe sterk een model de dialoog beïnvloedt) en suffix susceptibility (hoe gevoelig een model is voor niet-zelf gegenereerde geschiedenis).

Resultaten

De studie omvatte een $9 \times 9$ switch-matrix met modellen van Anthropic, OpenAI, Google en DeepSeek.

Significante en Directionele Effecten: Zelfs bij een enkele overdracht zijn de effecten statistisch significant en directioneel.
- Op CoQA: 22% van de off-diagonale switches was significant op het 95%-niveau. Drift varieerde van -8% tot +13% in succespercentages.
- Op Multi-IF: 25% was significant. De effecten waren hier vaak groter (tot ±4 absolute F1 punten op CoQA en vergelijkbaar met het prestatieverschil tussen modeltiers zoals GPT-5-nano vs GPT-5-mini).
Asymmetrie: De drift is niet symmetrisch. Een overdracht van A naar B kan schadelijk zijn, terwijl B naar A neutraal of zelfs gunstig is. Dit suggereert dat drift afhangt van de specifieke "dialoogregime" die door het prefix-model wordt ingesteld.
Specifieke Patronen:
- Fragiliteit: Modellen zoals DeepSeek-v3.2 vertoonden grote negatieve drift bij heterogene prefixes.
- Verbetering: Sommige modellen (bijv. Qwen-2.5-72B, Gemini-2.5-flash) presteerden beter onder vreemde prefixes. Sterkere prefix-modellen kunnen zwakkere suffix-modellen helpen door een compliant output-protocol te verankeren (bijv. Claude-Sonnet $\to$ GPT-5-nano verbeterde het succes met ~13 punten).
- Family Switching: Switchen binnen dezelfde modelfamilie (bijv. GPT-5 varianten) resulteerde in bijna nul drift, wat wijst op gedeelde conventies.
Factorisatie: Een additief model ( $\Delta_{A \to B} = \mu + \alpha_A + \beta_B + \epsilon$ $Δ_{A \to B} = μ + α_{A} + β_{B} + ϵ$ ) verklaarde 70% (CoQA) en 74% (Multi-IF) van de variantie.
- $\alpha_A$ : Prefix influence (hoeveel een model de dialoog beïnvloedt).
- $\beta_B$ : Suffix susceptibility (hoe gevoelig een model is voor externe geschiedenis).
- Prefix influence factoren waren sterker gecorreleerd tussen taken dan suffix susceptibility, wat suggereert dat dialoogregimes consistenter worden overgedragen dan de robustheid van voortzetting.

Betekenis en Implicaties

De resultaten tonen aan dat handoff-robustheid een kritieke dimensie is voor operationele betrouwbaarheid die door traditionele benchmarks wordt gemist.

Monitoring: Monitoringssystemen moeten switch-bewust zijn. Het is essentieel om het schrijvende model per ronde te loggen en specifiek de eerste ronde(s) na een switch te monitoren.
Risicobeheer: Voor upgrades of cross-provider fallbacks kan een "handoff-regressie" worden uitgevoerd (het spelen van historische prefixes door kandidaat-suffix-modellen) om risicovolle paren te identificeren.
Mitigatie: De factorisatie van drift biedt een gecomprimeerd overzicht voor monitoring. Bij grote afwijkingen kunnen mitigaties worden toegepast, zoals het injecteren van een korte "handoff-instructie" of het aanpassen van routingstrategieën.

Kortom, het paper pleit ervoor dat mid-session modelveranderingen niet als een triviaal detail worden behandeld, maar als een primaire bron van operationele drift die expliciete monitoring en handoff-bewuste strategieën vereist.

Evaluating Performance Drift from Model Switching in Multi-Turn LLM Systems

1. Het Probleem: De "Gespreks-Overdracht"

2. Wat hebben de onderzoekers gedaan?

3. De Verassende Resultaten

4. Waarom is dit belangrijk?

5. De Oplossing: "Overdrachts-Check"

Conclusie

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Implicaties

Meer zoals dit

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics