Consistency Amplifies: How Behavioral Variance Shapes Agent Accuracy

Each language version is independently generated for its own context, not a direct translation.

Samenvatting: Waarom "Gedrag" van AI meer zegt dan "Snelheid"

Stel je voor dat je drie verschillende kokken (AI-modellen) inhuurt om dezelfde moeilijke recepten te koken. Je wilt weten: wie is de beste? En belangrijker nog: als je ze dezelfde opdracht geeft, doen ze het elke keer op dezelfde manier?

Dit onderzoek kijkt naar drie "koks" (Claude 4.5, GPT-5 en Llama) die proberen softwarefouten in een grote bibliotheek van code (Astropy) te repareren. De onderzoekers hebben ze 50 keer dezelfde taak gegeven om te zien of ze consistent zijn.

Hier is wat ze ontdekten, vertaald naar alledaagse taal:

1. De Drie Koks: Snelheid vs. Betrouwbaarheid

Claude (De Grondige Chef): Deze kok werkt langzaam en neemt de tijd. Hij leest alles goed door, test zijn gerechten uitgebreid en maakt weinig fouten in de uitvoering.
- Resultaat: Hij is de meest betrouwbare. Als hij een recept kiest, doet hij het elke keer op exact dezelfde manier. Maar... als hij het recept verkeerd begrijpt, kookt hij elke keer hetzelfde verkeerde gerecht.
GPT-5 (De Snelle Leverancier): Deze kok is razendsnel. Hij gooit de ingrediënten erin, kookt het snel op en is klaar.
- Resultaat: Hij is veel sneller dan Claude, maar hij is onvoorspelbaar. Soms kookt hij iets lekkers, soms verbrandt hij het. Zijn gedrag verschilt elke keer dat je hem iets vraagt.
Llama (De Beginneling): Deze kok is minder ervaren. Hij loopt vaak vast, raakt de weg kwijt in de keuken en levert vaak niets op.
- Resultaat: Hij is het minst betrouwbaar en maakt de meeste fouten.

2. Het Grote Geheim: Consistentie is een Tweesnijdend Zwaard

Dit is het belangrijkste punt van het onderzoek. Veel mensen denken: "Als een AI consistent is, moet hij wel goed zijn." Dat is niet waar.

Stel je voor dat je een kok vraagt om een taart te bakken, maar hij denkt dat je een pizza wilt.

Als die kok consistent is (zoals Claude), zal hij elke keer een perfecte pizza bakken, zelfs als je een taart wilde. Hij is zo betrouwbaar in zijn fout, dat hij je 5 keer op rij een pizza geeft.
Als die kok onconsistent is, bak hij misschien 2 keer een taart en 3 keer een pizza.

De les: Consistentie versterkt alleen wat de AI al denkt. Als de AI de opdracht goed begrijpt, is consistentie fantastisch (altijd een taart). Maar als de AI de opdracht verkeerd begrijpt, is consistentie gevaarlijk (altijd een pizza in plaats van een taart). In dit onderzoek bleek dat 71% van de fouten van de beste AI (Claude) kwam omdat hij elke keer op dezelfde manier de verkeerde conclusie trok.

3. Snelheid is niet alles

GPT-5 was 4,7 keer sneller dan Claude. Je zou denken: "Wauw, dat is efficiënt!" Maar de prijs was hoog:

Hij was minder vaak goed (32% succes vs. 58% bij Claude).
Hij was minder consistent (je wist nooit wat je kreeg).

Het is alsof je een bezorger kiest die razendsnel is, maar de helft van de pakketten op het verkeerde adres aflevert. Voor een snelle test is dat prima, maar voor een belangrijk systeem (zoals een ziekenhuis of een bank) wil je de langzamere, grondige kok die elke keer hetzelfde juiste resultaat levert.

4. Waarom vallen ze soms vast?

De onderzoekers keken naar waar de AI's vastliepen.

De "Vaste Idee" Valstrik: De beste AI's (Claude) zijn zo grondig, dat ze vastlopen in hun eigen idee. Als ze denken dat ze een fout in de code hebben gevonden, gaan ze daar urenlang aan werken zonder te twijfelen. Ze zijn zo consequent in hun fout, dat ze het nooit oplossen.
De "Gokker" Winnaar: Soms was de minder ervaren AI (Llama) juist sneller succesvol. Waarom? Omdat hij zo onvoorspelbaar was, dat hij per ongeluk op het juiste idee kwam, terwijl de grondige AI's vastbleven in hun verkeerde plan.

Conclusie: Wat betekent dit voor de toekomst?

Als we AI-agenten in de echte wereld willen gebruiken (bijvoorbeeld om software te schrijven of onderzoek te doen), moeten we stoppen met alleen kijken naar hoe snel ze zijn of hoe vaak ze iets goed doen.

We moeten kijken naar hoe goed ze de opdracht begrijpen.

Een AI die consistent is, is pas waardevol als hij de opdracht goed heeft begrepen.
Als hij de opdracht verkeerd begrijpt, is zijn consistentie juist een ramp: hij herhaalt zijn fouten met overtuiging.

Kortom: Het is beter om een langzame kok die elke keer de juiste taart bakt, dan een snelle kok die elke keer iets anders doet, of een snelle kok die elke keer dezelfde verkeerde pizza bakt. De kwaliteit van het begrip is belangrijker dan de snelheid van de uitvoering.

Each language version is independently generated for its own context, not a direct translation.

Titel: Consistency Amplifies: Hoe gedragsvariatie de nauwkeurigheid van agenten beïnvloedt

Auteur: Aman Mehta (Snowflake AI Research)
Datum: 30 maart 2026 (Preprint)

1. Probleemstelling

Naarmate LLM-gebaseerde agenten (Large Language Models) worden ingezet in productiesystemen, wordt het cruciaal om hun gedragsconsistentie te begrijpen: produceren ze vergelijkbare actiesequenties bij identieke taken?

Onvoorspelbaarheid: Inconsistente agenten zijn moeilijk te vertrouwen in hoog-risico toepassingen.
Debugging: Variatie in gedrag maakt het moeilijk om de oorzaak van fouten te isoleren als een agent soms wel en soms niet slaagt op dezelfde input.
Benchmarking: Als resultaten sterk variëren tussen runs, zijn evaluaties op basis van één run misleidend.
Kennislacune: Hoewel bekend is dat LLMs variatie vertonen in eenvoudige redeneertaken, is de relatie tussen consistentie en complexiteit (zoals multi-stap software-engineering) onduidelijk.

2. Methodologie

De auteurs hebben een experiment uitgevoerd op de SWE-bench Verified benchmark, specifiek geselecteerd voor de astropy repository.

Taken: 10 unieke software-taken die variëren in bugtype, complexiteit van de fix (aantal regels) en aantal bestanden. Elke taak vereist het oplossen van een GitHub-issue via multi-stap code-aanpassingen.
Modellen: Drie modellen met verschillende capaciteitsniveaus werden vergeleken:
1. Claude 4.5 Sonnet: Een toonaangevend model met sterke coderingscapaciteiten.
2. GPT-5: Een frontlijn-model van OpenAI met sterke redeneercapaciteiten.
3. Llama-3.1-70B-Instruct: Een open-weight model, kleiner maar veel gebruikt.
Protocol:
- Elk model voerde 5 onafhankelijke runs uit per taak (totaal 50 runs per model, 150 trajecten).
- Instellingen: Temperature 0.5, maximale stappen 250, geïsoleerde Docker-containers.
- Tools: Identieke bash-interface voor bestandsnavigatie, code-editing en testuitvoering.
Metingen:
- Consistentie: Gemeten via de Variatiecoëfficiënt (CV) van het aantal stappen ( $CV = \frac{\sigma}{\mu} \times 100\%$ ). Een lagere CV betekent meer consistentie.
- Nauwkeurigheid: Gedefinieerd als het percentage patches dat alle tests succesvol doorloopt (volgens de officiële SWE-bench evaluatie).
- Fasedecompositie: Acties werden gecategoriseerd in EXPLORE, UNDERSTAND, EDIT en VERIFY.

3. Belangrijkste Bijdragen & Resultaten

A. Hiërarchie van Consistentie en Nauwkeurigheid

Er is een duidelijke correlatie tussen modelcapaciteit, consistentie en nauwkeurigheid:

Claude 4.5: Laagste variatie (CV: 15,2%) en hoogste nauwkeurigheid (58%). Gemiddeld 46,1 stappen.
GPT-5: Middelste variatie (CV: 32,2%) en nauwkeurigheid (32%). Gemiddeld 9,9 stappen (4,7x sneller dan Claude).
Llama-3.1: Hoogste variatie (CV: 47,0%) en laagste nauwkeurigheid (4%).

B. Het "Versterkings"-inzicht (Amplification Insight)

De kernbevinding is dat consistentie uitkomsten versterkt, maar geen correctheid garandeert.

Als een model een taak correct interpreteert, lost het deze consistent op (100% succes op die taken).
Als een model een taak verkeerd interpreteert, faalt het even consistent.
Statistiek: 71% van de fouten van Claude komt voort uit "consistent verkeerde interpretatie". Het model maakt dezelfde foutieve aanname in alle 5 de runs van een specifieke taak.

C. Snelheid-Nauwkeurigheid-Consistentie Trade-off

GPT-5 vertoont een fundamentele afweging:

Het is 4,7x sneller dan Claude (minder stappen).
Maar het heeft 1,8x lagere nauwkeurigheid en 2,1x slechtere consistentie.
Dit suggereert dat grondigheid (thoroughness) ten koste gaat van snelheid, met consistentie als mediator.

D. Divergentietiming vs. Consistentie

Een verrassende bevinding is dat timing van divergentie niet de enige factor is:

Claude en GPT-5 vertonen bijna identieke divergentietijdstippen (gemiddeld stap 3,2 vs 3,4).
Desondanks heeft Claude 2,1x betere consistentie dan GPT-5.
Dit betekent dat vroege strategische overeenkomst noodzakelijk is, maar niet voldoende; wat er na de divergentie gebeurt, is cruciaal voor de uiteindelijke variatie.

E. Foutpatronen

Claude & GPT-5: Falen bijna uitsluitend door het indienen van een verkeerde fix (100% en 94%). Ze geven zelden op (geen lege patches).
Llama: Faalt vaak door "opgeven" (21% lege patches) of door extreme variatie in strategie.
Fixatie-fout: De grondigheid van Claude kan een nadeel worden; het blijft vastzitten in een verkeerde interpretatie zonder te corrigeren, terwijl de variatie van Llama soms per ongeluk de juiste interpretatie vindt.

4. Significantie en Implicaties

Interpretatie is de bottleneck: Voor complexe agenttaken is de kwaliteit van de initiële taakinterpretatie belangrijker dan de consistentie van de uitvoering. Een consistent model dat verkeerd begrijpt, zal consequent falen.
Herdefiniëren van Betrouwbaarheid: "Meer consistent = meer betrouwbaar" is een gevaarlijke aanname. Consistentie is waardevol alleen als de strategie correct is. Evaluaties moeten daarom niet alleen kijken naar single-run nauwkeurigheid, maar ook naar gedragsvariatie.
Ontwerp van Agenten: Bestaande benaderingen focussen op betere uitvoering (meer testen, langere trajecten). De auteurs suggereren dat investeren in verbeterde initiële interpretatie een grotere winst oplevert.
Adaptieve Strategieën: De resultaten suggereren dat ideale agenten hun strategie moeten aanpassen aan de geschatte complexiteit van de taak (grondig voor complexe taken, snel voor simpele taken), gezien de trade-off die bij GPT-5 zichtbaar is.

Conclusie

Het paper concludeert dat gedragsvariatie een kritieke factor is voor de betrouwbaarheid van LLM-agenten. Hoewel hogere consistentie vaak samengaat met hogere nauwkeurigheid (zoals bij Claude), is consistentie op zichzelf geen garantie voor succes. De grootste uitdaging ligt in het voorkomen van "consistent verkeerde interpretaties". Voor productiedeployments is het essentieel om zowel de interpretatiekwaliteit als de gedragsvariatie te monitoren, in plaats van te vertrouwen op enkelvoudige benchmarkresultaten.