Evaluating Performance Drift from Model Switching in Multi-Turn LLM Systems

Die Studie zeigt, dass das Wechseln von Modellen in mehrstufigen LLM-Systemen zu signifikanten, systematischen Leistungsabweichungen führt, die durch eine neue Benchmark quantifiziert und durch die Zerlegung in Einfluss- und Anfälligkeitsterme überwacht werden können.

Raad Khraishi, Iman Zafar, Katie Myles, Greig A Cowan

Veröffentlicht 2026-03-04
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der plötzliche Wechsel im Gespräch

Stell dir vor, du hast ein sehr tiefgründiges Gespräch mit einem Freund. Ihr seid mitten in einer Geschichte, ihr habt euch auf bestimmte Regeln geeinigt (z. B. „Wir erzählen nur in Reimen" oder „Wir benutzen keine Wörter mit dem Buchstaben 'S'"). Plötzlich, mitten im Satz, tauscht sich dein Freund aus. Ein völlig neuer Freund übernimmt das Gespräch.

Das Problem ist: Der neue Freund hat den alten Teil der Geschichte nicht selbst geschrieben. Er muss sich auf die Worte des alten Freundes verlassen. Vielleicht hat der alte Freund einen seltsamen Akzent, eine ungewöhnliche Wortwahl oder eine versteckte Regel eingeführt, die der neue Freund nicht kennt.

In der Welt der Künstlichen Intelligenz (KI) passiert genau das. Wenn eine KI-Anwendung (wie ein Chatbot) lange mit dir spricht, kann es sein, dass das System mitten im Gespräch den „Gehirn"-Modell wechselt – vielleicht wegen eines Updates, weil der erste Anbieter gerade überlastet ist oder weil ein besserer Anbieter verfügbar ist.

Die Forscher haben herausgefunden: Dieser Wechsel ist riskant. Der neue KI-Modell kann sich „verirren", weil es den Kontext des alten Modells nicht richtig versteht. Es ist, als würde ein klassischer Violinist plötzlich versuchen, auf einem Jazz-Saxophon zu spielen, basierend auf einer Partitur, die ein anderer Musiker geschrieben hat.

Die Untersuchung: Der „Switch-Matrix"-Test

Die Forscher haben einen cleveren Test entwickelt, den sie „Switch-Matrix" nennen. Stell dir ein riesiges Schachbrett vor:

  • Auf den Zeilen stehen die KIs, die den ersten Teil des Gesprächs schreiben (die „Vorläufer").
  • Auf den Spalten stehen die KIs, die den letzten Teil übernehmen (die „Nachfolger").

Sie haben tausende von Gesprächen simuliert. In manchen Fällen hat dieselbe KI das ganze Gespräch geschrieben (das ist der „Normalzustand"). In anderen Fällen hat KI A den Anfang geschrieben und KI B das Ende. Dann haben sie gemessen: Wie viel besser oder schlechter ist das Ergebnis, wenn die KIs gewechselt wurden?

Die überraschenden Ergebnisse

Das Ergebnis ist faszinierend und nicht immer negativ:

  1. Es ist wie ein Tanz: Nicht jeder Wechsel ist schlecht. Manchmal hilft ein guter Vorläufer dem Nachfolger sogar!
    • Beispiel: Wenn ein sehr disziplinierter KI-Modell (der Vorläufer) die Regeln des Gesprächs klar setzt, kann ein schwächeres KI-Modell (der Nachfolger) davon profitieren und besser performen, als wenn es allein gestartet wäre. Es ist, als würde ein strenger Dirigent einem weniger erfahrenen Musiker den Takt vorgeben.
  2. Manche KIs sind „empfindlich": Es gibt KI-Modelle, die unter fast jedem fremden Vorläufer leiden. Sie geraten aus dem Takt, wenn sie nicht selbst den Anfang geschrieben haben.
  3. Manche KIs sind „anpassungsfähig": Andere Modelle werden sogar besser, wenn sie auf den Text eines anderen Modells aufsetzen. Sie können sich schnell in den „Stil" des Vorgängers einfinden.
  4. Die Größe des Effekts: Der Unterschied ist riesig. Ein Wechsel kann die Erfolgsrate um bis zu 13 Prozentpunkte senken oder erhöhen. Das ist so, als würde ein Sportler plötzlich 100 Meter schneller oder langsamer laufen, nur weil er von einem anderen Trainer angeleitet wurde.

Warum passiert das?

Die Forscher haben zwei Hauptgründe gefunden:

  • Der „Vorläufer-Einfluss": Wie stark prägt das erste Modell den Stil des Gesprächs?
  • Die „Nachfolger-Empfindlichkeit": Wie leicht lässt sich das zweite Modell vom Stil des ersten beeinflussen?

Manche KIs schreiben so spezifisch (z. B. sehr formell oder mit vielen Details), dass ein anderer KI-Modell, das versucht, darauf aufzubauen, verwirrt ist. Es ist, als würde jemand, der nur auf Deutsch spricht, plötzlich versuchen, einen Text zu verstehen, der in einer Mischung aus Deutsch und Französisch geschrieben wurde.

Was bedeutet das für die Zukunft?

Bisher haben wir KI-Modelle nur einzeln getestet (wie einen Sportler im Training). Aber in der echten Welt wechseln die Modelle oft mitten im Einsatz.

Die Forscher sagen: Wir müssen aufhören, nur die einzelnen Modelle zu bewerten. Wir müssen auch testen, wie gut sie zusammenarbeiten, wenn sie sich abwechseln.

Die Lösung?
Stell dir vor, ein Manager überwacht nicht nur die Leistung jedes einzelnen Angestellten, sondern auch, wie gut die Übergabe zwischen zwei Angestellten funktioniert. Bevor ein System einen KI-Modell-Wechsel vornimmt, sollte es testen: „Wenn wir jetzt von Modell A zu Modell B wechseln, wird das Gespräch dann schlechter?"

Wenn ja, könnte das System eine kleine „Brücke" bauen (eine Art Übergabe-Anweisung), um den neuen KI-Modell sanft in den Stil des alten zu führen, bevor es weiterspricht.

Fazit

Dieses Papier warnt uns: Ein KI-System ist nicht nur so gut wie sein stärkstes Modell, sondern auch so stabil wie die Übergänge zwischen den Modellen. Ein plötzlicher Wechsel mitten im Gespräch kann die Qualität drastisch verändern – manchmal zum Besseren, oft aber zum Schlechteren. Und das müssen wir in Zukunft besser im Auge behalten.