Evaluating Performance Drift from Model Switching in Multi-Turn LLM Systems

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der plötzliche Wechsel im Gespräch

Stell dir vor, du hast ein sehr tiefgründiges Gespräch mit einem Freund. Ihr seid mitten in einer Geschichte, ihr habt euch auf bestimmte Regeln geeinigt (z. B. „Wir erzählen nur in Reimen" oder „Wir benutzen keine Wörter mit dem Buchstaben 'S'"). Plötzlich, mitten im Satz, tauscht sich dein Freund aus. Ein völlig neuer Freund übernimmt das Gespräch.

Das Problem ist: Der neue Freund hat den alten Teil der Geschichte nicht selbst geschrieben. Er muss sich auf die Worte des alten Freundes verlassen. Vielleicht hat der alte Freund einen seltsamen Akzent, eine ungewöhnliche Wortwahl oder eine versteckte Regel eingeführt, die der neue Freund nicht kennt.

In der Welt der Künstlichen Intelligenz (KI) passiert genau das. Wenn eine KI-Anwendung (wie ein Chatbot) lange mit dir spricht, kann es sein, dass das System mitten im Gespräch den „Gehirn"-Modell wechselt – vielleicht wegen eines Updates, weil der erste Anbieter gerade überlastet ist oder weil ein besserer Anbieter verfügbar ist.

Die Forscher haben herausgefunden: Dieser Wechsel ist riskant. Der neue KI-Modell kann sich „verirren", weil es den Kontext des alten Modells nicht richtig versteht. Es ist, als würde ein klassischer Violinist plötzlich versuchen, auf einem Jazz-Saxophon zu spielen, basierend auf einer Partitur, die ein anderer Musiker geschrieben hat.

Die Untersuchung: Der „Switch-Matrix"-Test

Die Forscher haben einen cleveren Test entwickelt, den sie „Switch-Matrix" nennen. Stell dir ein riesiges Schachbrett vor:

Auf den Zeilen stehen die KIs, die den ersten Teil des Gesprächs schreiben (die „Vorläufer").
Auf den Spalten stehen die KIs, die den letzten Teil übernehmen (die „Nachfolger").

Sie haben tausende von Gesprächen simuliert. In manchen Fällen hat dieselbe KI das ganze Gespräch geschrieben (das ist der „Normalzustand"). In anderen Fällen hat KI A den Anfang geschrieben und KI B das Ende. Dann haben sie gemessen: Wie viel besser oder schlechter ist das Ergebnis, wenn die KIs gewechselt wurden?

Die überraschenden Ergebnisse

Das Ergebnis ist faszinierend und nicht immer negativ:

Es ist wie ein Tanz: Nicht jeder Wechsel ist schlecht. Manchmal hilft ein guter Vorläufer dem Nachfolger sogar!
- Beispiel: Wenn ein sehr disziplinierter KI-Modell (der Vorläufer) die Regeln des Gesprächs klar setzt, kann ein schwächeres KI-Modell (der Nachfolger) davon profitieren und besser performen, als wenn es allein gestartet wäre. Es ist, als würde ein strenger Dirigent einem weniger erfahrenen Musiker den Takt vorgeben.
Manche KIs sind „empfindlich": Es gibt KI-Modelle, die unter fast jedem fremden Vorläufer leiden. Sie geraten aus dem Takt, wenn sie nicht selbst den Anfang geschrieben haben.
Manche KIs sind „anpassungsfähig": Andere Modelle werden sogar besser, wenn sie auf den Text eines anderen Modells aufsetzen. Sie können sich schnell in den „Stil" des Vorgängers einfinden.
Die Größe des Effekts: Der Unterschied ist riesig. Ein Wechsel kann die Erfolgsrate um bis zu 13 Prozentpunkte senken oder erhöhen. Das ist so, als würde ein Sportler plötzlich 100 Meter schneller oder langsamer laufen, nur weil er von einem anderen Trainer angeleitet wurde.

Warum passiert das?

Die Forscher haben zwei Hauptgründe gefunden:

Der „Vorläufer-Einfluss": Wie stark prägt das erste Modell den Stil des Gesprächs?
Die „Nachfolger-Empfindlichkeit": Wie leicht lässt sich das zweite Modell vom Stil des ersten beeinflussen?

Manche KIs schreiben so spezifisch (z. B. sehr formell oder mit vielen Details), dass ein anderer KI-Modell, das versucht, darauf aufzubauen, verwirrt ist. Es ist, als würde jemand, der nur auf Deutsch spricht, plötzlich versuchen, einen Text zu verstehen, der in einer Mischung aus Deutsch und Französisch geschrieben wurde.

Was bedeutet das für die Zukunft?

Bisher haben wir KI-Modelle nur einzeln getestet (wie einen Sportler im Training). Aber in der echten Welt wechseln die Modelle oft mitten im Einsatz.

Die Forscher sagen: Wir müssen aufhören, nur die einzelnen Modelle zu bewerten. Wir müssen auch testen, wie gut sie zusammenarbeiten, wenn sie sich abwechseln.

Die Lösung?
Stell dir vor, ein Manager überwacht nicht nur die Leistung jedes einzelnen Angestellten, sondern auch, wie gut die Übergabe zwischen zwei Angestellten funktioniert. Bevor ein System einen KI-Modell-Wechsel vornimmt, sollte es testen: „Wenn wir jetzt von Modell A zu Modell B wechseln, wird das Gespräch dann schlechter?"

Wenn ja, könnte das System eine kleine „Brücke" bauen (eine Art Übergabe-Anweisung), um den neuen KI-Modell sanft in den Stil des alten zu führen, bevor es weiterspricht.

Fazit

Dieses Papier warnt uns: Ein KI-System ist nicht nur so gut wie sein stärkstes Modell, sondern auch so stabil wie die Übergänge zwischen den Modellen. Ein plötzlicher Wechsel mitten im Gespräch kann die Qualität drastisch verändern – manchmal zum Besseren, oft aber zum Schlechteren. Und das müssen wir in Zukunft besser im Auge behalten.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

In der Produktion werden Multi-Turn-LLM-Systeme (Gesprächssysteme mit mehreren Runden) oft nicht durch ein einziges Modell über die gesamte Sitzung hinweg betrieben. Stattdessen kommt es zu Modellwechseln (Handoffs) aufgrund von Upgrades, Routing zwischen verschiedenen Anbietern oder Fallback-Mechanismen.

Das zentrale Problem ist ein Kontext-Mismatch: Das Modell, das die späteren Runden generiert (Suffix-Modell), muss auf einen Dialog-Präfix reagieren, der von einem anderen Modell (Präfix-Modell) verfasst wurde. Dies erzeugt eine strukturierte Verteilungsverschiebung (Distribution Shift).

Risiko: Inkonsistenzen in Stil, Formatierung, Wortwahl oder impliziten Verpflichtungen können sich durch die Runden fortpflanzen und zu einem „stille" Leistungsabfall (Performance Drift) führen, der in herkömmlichen Benchmarks (die ein festes Modell annehmen) nicht erfasst wird.
Forschungslücke: Es fehlte bisher an direkten Messungen, was passiert, wenn ein Modell die Konversation eines anderen fortsetzen muss.

2. Methodik

Die Autoren stellen einen neuen Switch-Matrix-Benchmark vor, um diesen Handoff-Effekt zu quantifizieren.

Experimentelles Design:
- Für ein Set von $K$ Modellen wird eine $K \times K$ Matrix erstellt.
- In jeder Zelle $(A \to B)$ generiert Modell $A$ die ersten $T$ Runden (Präfix), und Modell $B$ generiert die verbleibenden Runden bis zum Ende (Suffix).
- Der Fokus liegt auf einem Final-Turn-Switch: Modell $A$ schreibt alle außer der letzten Runde, Modell $B$ schreibt genau eine finale Runde. Dies isoliert das Problem der Fortsetzung unter fremdem Kontext.
Baseline und Metrik:
- Die Referenz ist die Diagonale $(B \to B)$ , bei der Modell $B$ den gesamten Dialog schreibt.
- Der Switch-Effekt $\Delta_{A \to B}$ wird als Differenz der Episoden-Scores berechnet: $\delta = s_{A \to B} - s_{B \to B}$ .
- Um Unsicherheiten zu quantifizieren, werden gepaarte Bootstrap-Konfidenzintervalle (BCa) auf Episodenebene verwendet.
Benchmarks:
- CoQA: Conversational Question Answering. Misst die Fähigkeit, auf einem Text basierende Fragen zu beantworten, wobei die Antwort vom konversationellen Zustand abhängt.
- Multi-IF: Eine Erweiterung von IFEval, die die Einhaltung von cumulativen Constraints (Formatierung, Keywords, Länge) über mehrere Runden testet.
Effizienz: Um die Rechenkosten für die große Matrix ( $K \times K$ Episoden) zu senken, werden die Generierungen des Präfix-Modells zwischengespeichert (Caching) und für alle Suffix-Modelle wiederverwendet.

3. Wichtige Beiträge

Formalisierung: Modellwechsel werden als operative Quelle von Drift in Multi-Turn-Systemen definiert und ein Protokoll zur Messung gegenüber einer „No-Switch"-Baseline eingeführt.
Evaluation-Harness: Entwicklung einer effizienten Evaluierungsumgebung mit Caching und gepaarter Bootstrap-Analyse.
Erste Cross-Provider-Messung: Präsentation der ersten Switch-Matrix über verschiedene Anbieter hinweg (Anthropic, OpenAI, Google, DeepSeek, Qwen), die zeigt, dass selbst ein Wechsel nur in der letzten Runde messbare Drifts erzeugt, die durch einzelne Modell-Scores nicht vorhergesagt werden.
Drift-Dekomposition: Einführung eines Faktormodells, das den Switch-Effekt in zwei Komponenten zerlegt:
- Prefix Influence ( $\alpha_A$ ): Wie stark beeinflusst ein Modell $A$ als Vorgänger andere Modelle?
- Suffix Susceptibility ( $\beta_B$ ): Wie anfällig ist ein Modell $B$ für fremde Dialoghistorie?

4. Ergebnisse

Die Studie zeigt, dass Switch-Effekte gerichtet, signifikant und vorhersagbar sind:

Magnitude des Drifts:
- In Multi-IF kann ein Wechsel den Erfolg um −8 bis +13 Prozentpunkte verändern.
- In CoQA schwanken die F1-Scores um ±4 absolute Punkte.
- Diese Effekte sind vergleichbar mit dem Leistungsunterschied zwischen verschiedenen Modell-Tiers (z. B. GPT-5-nano vs. GPT-5-mini).
Asymmetrie: Ein Wechsel von $A$ zu $B$ kann schädlich sein, während $B$ zu $A$ neutral oder sogar vorteilhaft ist. Die Robustheit ist eine Eigenschaft des geordneten Paares $(A, B)$ , nicht nur der Modellqualität.
Spezifische Muster:
- CoQA: Das Suffix-Modell behandelt Antworten des Präfix-Modells oft als „Zustand" (State) und bleibt diesen treu, statt sich neu auf den Originaltext zu beziehen. Dies führt zu Fehlern, wenn das Präfix-Modell inkorrekt war (z. B. GPT-5-nano $\to$ DeepSeek-v3.2 zeigt starken Abfall).
- Multi-IF: Hier geht es um Protokoll-Einhaltung. Starke Präfix-Modelle können schwächere Suffix-Modelle „ankern" und deren Performance steigern (z. B. Claude-Sonnet $\to$ GPT-5-nano verbessert den Erfolg um ~13 Punkte). Umgekehrt führen Inkompatibilitäten (z. B. GPT-5-mini $\to$ Gemini-3) zu starken Einbrüchen.
Faktorisierung: Die Zerlegung in Prefix-Influence und Suffix-Susceptibility erklärt ~70–74 % der Varianz in den Ergebnissen. Dies ermöglicht eine komprimierte Überwachung des Handoff-Risikos.

5. Bedeutung und Implikationen

Operative Zuverlässigkeit: Modellwechsel sollten als primäre Quelle für operative Drifts behandelt werden, die über reine Modell-Metriken hinausgehen.
Monitoring: Bestehende Benchmarks reichen nicht aus. Es wird empfohlen, Handoff-sensitives Monitoring einzuführen, das den Autor jeder Runde protokolliert und speziell die ersten Runden nach einem Wechsel überwacht.
Strategien:
- Vor Upgrades oder Routing-Änderungen sollten „Handoff-Regressionstests" durchgeführt werden (Wiedergabe historischer Präfixe durch Kandidaten-Modelle).
- Die Faktorzerlegung kann genutzt werden, um riskante Modellpaare zu identifizieren und gezielt zu mitigieren (z. B. durch Einfügen von Handoff-Anweisungen oder Routing-Optimierung).
Zukunft: Die Arbeit motiviert die Entwicklung von expliziten Handoff-Zusammenfassungen, leichtgewichtigen Adaptern und Routing-Richtlinien, die die Kontinuität zwischen verschiedenen Modellen sicherstellen.

Zusammenfassend demonstriert das Paper, dass die Interoperabilität von LLMs in Multi-Turn-Szenarien ein kritischer, aber bisher unterschätzter Faktor für die Systemzuverlässigkeit ist, der systematisch gemessen und gemanagt werden muss.

Evaluating Performance Drift from Model Switching in Multi-Turn LLM Systems

Das Problem: Der plötzliche Wechsel im Gespräch

Die Untersuchung: Der „Switch-Matrix"-Test

Die überraschenden Ergebnisse

Warum passiert das?

Was bedeutet das für die Zukunft?

Fazit

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Implikationen

Mehr davon

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics