Consistency Amplifies: How Behavioral Variance Shapes Agent Accuracy

Each language version is independently generated for its own context, not a direct translation.

Das große Rätsel: Warum tun KI-Agenten manchmal das Gleiche falsch?

Stell dir vor, du hast drei verschiedene Koch-Assistenten (die KI-Modelle: Claude, GPT-5 und Llama). Du gibst ihnen jeden Tag denselben Auftrag: „Koch ein perfektes Omelett." Du lässt sie diesen Auftrag 50 Mal wiederholen, um zu sehen, ob sie jedes Mal das gleiche Ergebnis liefern.

Die Forscher haben genau das gemacht, aber statt mit Omeletts haben sie die KIs mit Software-Problemen konfrontiert (wie kleine Bugs in einem riesigen Code-Buch). Sie wollten herausfinden: Wie zuverlässig sind diese KIs?

Hier sind die wichtigsten Erkenntnisse, übersetzt in eine einfache Geschichte:

1. Der „Zuverlässigkeits-Test": Wer ist der beste Koch?

Die Forscher haben drei KIs verglichen:

Claude (Der sorgfältige Meister): Er braucht lange, liest das Rezept genau und kocht sehr genau.
- Ergebnis: Er macht fast immer das Gleiche (sehr konsistent) und das Essen schmeckt meistens gut (58 % Erfolg).
GPT-5 (Der schnelle Schnellkochtopf): Er ist extrem schnell, aber manchmal etwas ungeduldig.
- Ergebnis: Er ist viel schneller als Claude, aber er kocht öfter etwas Verbranntes (nur 32 % Erfolg) und manchmal schmeckt das Omelett heute salzig und morgen süß (weniger konsistent).
Llama (Der chaotische Praktikant): Er ist noch nicht so erfahren.
- Ergebnis: Er ist sehr unvorhersehbar. Mal kocht er perfekt, mal verbrennt er alles. Er hat die wenigsten Erfolge (nur 4 %).

Die große Erkenntnis: Je genauer und sorgfältiger die KI arbeitet, desto vorhersehbarer ist sie. Aber: Vorhersehbarkeit allein garantiert keinen Erfolg.

2. Das Problem mit der „Konsistenz": Wenn man sich festkrallt

Das ist der wichtigste Punkt der Studie, der wie ein Doppelschwert wirkt.

Stell dir vor, Claude hat sich einmal festgelegt, dass das Omelett mit Schokolade gemacht werden muss. Weil er so sorgfältig und konsistent ist, macht er bei allen 50 Versuchen das Schoko-Omelett.

Das Gute: Er ist sehr zuverlässig. Wenn du Schoko-Omeletts willst, bekommst du sie garantiert.
Das Schlechte: Wenn du ein normales Omelett wolltest, scheitert er immer und überall auf die gleiche Weise. Er fragt sich nie: „Habe ich das Rezept vielleicht falsch verstanden?"

Die Studie fand heraus, dass 71 % von Claudes Fehlern genau so passieren: Er versteht die Aufgabe falsch, aber weil er so konsequent ist, wiederholt er diesen Fehler bei jedem Versuch. Er ist wie ein Navigator, der fest davon überzeugt ist, dass Nord „Süd" ist – er wird dann sehr effizient in die falsche Richtung fahren.

3. Geschwindigkeit vs. Genauigkeit: Der schnelle Fehler

GPT-5 ist wie ein Rennfahrer. Er ist 4,7-mal schneller als Claude. Er macht in 10 Schritten fertig, was Claude in 46 Schritten macht.
Aber: Weil er so schnell ist, stolpert er öfter über die gleichen Steine. Er ist schneller, aber auch unzuverlässiger.

Die Lehre: Wenn du etwas schnell brauchst (z. B. einen ersten Entwurf), ist GPT-5 toll. Wenn du aber etwas bauen willst, das im echten Leben nicht kaputtgehen darf (wie eine Bank-App), brauchst du die Sorgfalt von Claude, auch wenn es länger dauert.

4. Der „Frühe Streit"-Effekt

Die Forscher haben sich angesehen, wann die KIs anfangen, unterschiedliche Wege zu gehen.

Überraschung: Claude und GPT-5 fangen fast zur gleichen Zeit an, unterschiedliche Schritte zu machen (etwa beim 3. Schritt).
Aber: Claude bleibt danach viel „zusammenhaltender". GPT-5 verliert schnell den Faden und macht wildere Sprünge.
Die Metapher: Stell dir vor, zwei Wanderer starten zusammen. Nach 3 Minuten gehen sie in unterschiedliche Richtungen. Der eine (Claude) bleibt auf seinem Pfad und findet das Ziel. Der andere (GPT-5) läuft erst links, dann rechts, dann wieder links und verirrt sich. Der Zeitpunkt, an dem sie sich trennen, ist egal – es zählt, wie gut sie ihren Weg nach der Trennung finden.

Was bedeutet das für die Zukunft?

Die Studie sagt uns etwas Wichtiges über KI-Agenten:

Verstehen ist wichtiger als Tun: Es bringt nichts, wenn eine KI super schnell und super konsequent arbeitet, wenn sie die Aufgabe am Anfang falsch verstanden hat. Das ist wie ein sehr schneller und disziplinierter Fahrer, der auf die falsche Autobahn fährt.
Einmal reicht nicht: Man kann eine KI nicht nur einmal testen und sagen „Sie funktioniert". Man muss sie oft testen, um zu sehen, ob sie zufällig Glück hatte oder ob sie wirklich verlässlich ist.
Die Falle der Sicherheit: Eine sehr konsistente KI kann gefährlich sein, wenn sie sich in einem Fehler festkrallt. Sie wird diesen Fehler mit großer Sicherheit immer wieder machen.

Zusammengefasst:
Wir brauchen KI-Agenten, die nicht nur schnell und gleichförmig arbeiten, sondern die wirklich verstehen, was sie tun. Wenn sie das verstehen, ist ihre Konsistenz ein super Vorteil. Wenn sie es nicht verstehen, ist ihre Konsistenz nur eine Garantie dafür, dass sie immer wieder das Gleiche falsch machen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Mit dem zunehmenden Einsatz von Agenten auf Basis großer Sprachmodelle (LLMs) in Produktionssystemen (z. B. Code-Assistenten, autonome Forschungstools) rückt die Verhaltenskonsistenz in den Fokus. Die zentrale Frage ist: Verhalten sich Agenten bei identischen Aufgaben konsistent, wenn sie mehrfach ausgeführt werden?

Inkonsistenz führt zu:

Unvorhersehbarkeit: Erschwert das Vertrauen in hochriskante Anwendungen.
Schwierigkeiten beim Debugging: Wenn ein Agent bei gleichen Eingaben mal erfolgreich und mal fehlschlägt, ist die Fehlerursache schwer zu isolieren.
Irreführendes Benchmarking: Einzel-Lauf-Ergebnisse sind unzuverlässig, wenn die Varianz zwischen den Läufen hoch ist.

Bisherige Studien untersuchten Konsistenz oft nur bei einfachen Aufgaben (z. B. mathematisches Reasoning). Es ist unklar, wie sich diese Varianz bei komplexen, mehrstufigen Aufgaben wie der Softwareentwicklung verhält.

2. Methodik

Die Autoren untersuchten das Verhalten von drei verschiedenen LLM-Modellen im Kontext des SWE-bench Verified-Benchmarks, der Agenten dazu auffordert, reale GitHub-Issues durch mehrstufige Codeänderungen zu lösen.

Modelle:
- Claude 4.5 Sonnet: Ein Frontier-Modell mit starken Coding-Fähigkeiten.
- GPT-5: Ein Frontier-Modell von OpenAI mit starkem Reasoning.
- Llama-3.1-70B-Instruct: Ein Open-Weights-Modell, das häufig in Produktion eingesetzt wird.
Experimentelles Setup:
- Aufgaben: 10 diverse Aufgaben aus dem astropy-Repository (verschiedene Fehlertypen, Komplexität).
- Durchläufe: 5 unabhängige Runs pro Modell und Aufgabe (insgesamt 50 Runs pro Modell, 150 Trajektorien).
- Parameter: Temperatur 0.5 (moderate Stochastik), maximale 250 Schritte, isolierte Docker-Container.
- Framework: mini-SWE-agent mit Bash-Schnittstelle (kein Tool-Calling-API).
Metriken:
- Konsistenz: Gemessen als Variationskoeffizient (CV) der Schrittzahl ( $CV = \frac{\sigma}{\mu} \times 100\%$ ). Niedriger CV bedeutet konsistenteres Verhalten.
- Genauigkeit (Accuracy): Prozentsatz der erfolgreich gelösten Aufgaben (alle Tests bestanden).
- Phasen-Zerlegung: Analyse der Aktionen in Phasen (Exploration, Verständnis, Bearbeitung, Verifikation).

3. Hauptbeiträge und Erkenntnisse

A. Hierarchie der Konsistenz und Genauigkeit

Es zeigt sich eine klare Korrelation zwischen Konsistenz und Genauigkeit über die Modell-Tiers hinweg:

Claude 4.5: Höchste Konsistenz (CV: 15,2 %) und höchste Genauigkeit (58 %).
GPT-5: Mittlere Konsistenz (CV: 32,2 %) und mittlere Genauigkeit (32 %).
Llama-3.1: Höchste Varianz (CV: 47,0 %) und niedrigste Genauigkeit (4 %).

B. Das „Amplification"-Insight (Verstärkungseffekt)

Die wichtigste Erkenntnis ist, dass Konsistenz Ergebnisse verstärkt, aber keine Korrektheit garantiert.

Wenn ein Modell eine Aufgabe korrekt interpretiert, führt es den Lösungsweg in allen Läufen erfolgreich aus.
Wenn es die Aufgabe falsch interpretiert, wiederholt es diesen Fehler in allen Läufen konsistent.
Statistik: 71 % der Fehler von Claude stammen aus einer „konsistenten falschen Interpretation" (d. h., das Modell trifft in allen 5 Runs die gleiche falsche Annahme).

C. Trade-off zwischen Geschwindigkeit, Genauigkeit und Konsistenz

GPT-5 offenbart einen fundamentalen Zielkonflikt:

Es ist 4,7-mal schneller als Claude (durchschnittlich 9,9 vs. 46,1 Schritte).
Es erreicht jedoch 1,8-mal niedrigere Genauigkeit und 2,1-mal schlechtere Konsistenz.
Dies deutet darauf hin, dass Gründlichkeit (Thoroughness) oft mit Geschwindigkeit auf Kosten der Konsistenz und Genauigkeit getauscht wird.

D. Divergenzzeitpunkt vs. Konsistenz

Ein überraschender Befund betrifft den Zeitpunkt, zu dem die einzelnen Runs eines Modells beginnen, unterschiedliche Aktionen auszuführen (Divergenz):

Claude und GPT-5 divergieren fast zum gleichen Zeitpunkt (ca. Schritt 3,2 vs. 3,4).
Dennoch ist Claude 2,1-mal konsistenter als GPT-5.
Fazit: Eine frühe strategische Einigkeit ist notwendig, aber nicht hinreichend für hohe Konsistenz. Was nach der Divergenz passiert, ist entscheidend.

E. Fehlermodi

Konsistente Fehler: Die häufigste Fehlerart bei leistungsfähigen Modellen ist die „konsistente falsche Interpretation".
Aufgabe aufgeben: Llama gibt in 21 % der Fälle auf (leere Patches), während Claude und GPT-5 dies fast nie tun.
Fixation: Claude neigt dazu, sich aufgrund seiner Gründlichkeit in falschen Interpretationen festzufixieren, während die höhere Varianz von Llama manchmal zufällig zur richtigen Lösung führt (seltener Fall).

4. Signifikanz und Implikationen

Qualität der Interpretation ist der Engpass: Für den zuverlässigen Einsatz von Agenten ist die Qualität der initialen Aufgabeninterpretation wichtiger als die reine Konsistenz der Ausführung. Ein konsistenter Agent, der falsch interpretiert, ist systematisch fehlerhaft.
Neue Bewertungsstandards: Einzel-Lauf-Benchmarks sind irreführend. Für Produktionssysteme müssen Multi-Run-Evaluationen mit Berichterstattung über Konsistenz (Varianz) zum Standard werden.
Strategische Anpassung: Es gibt keinen „One-Size-Fits-All"-Ansatz.
- Für schnelle Prototypen könnte GPT-5 geeignet sein.
- Für kritische Produktionssysteme ist die Gründlichkeit und Konsistenz von Claude vorzuziehen, trotz höherer Kosten und Zeit.
Zukünftige Forschung: Agenten sollten adaptive Strategien entwickeln, die den Grad der Gründlichkeit basierend auf der geschätzten Komplexität der Aufgabe anpassen, um den Trade-off zwischen Geschwindigkeit und Zuverlässigkeit zu optimieren.

Zusammenfassend zeigt das Paper, dass Konsistenz ein zweischneidiges Schwert ist: Sie ist wertvoll für Zuverlässigkeit, aber sie kann auch systematische Fehler verstärken, wenn das Grundverständnis der Aufgabe mangelhaft ist.