Consistency Amplifies: How Behavioral Variance Shapes Agent Accuracy

De studie toont aan dat hoewel hogere gedragsconsistentie bij LLM-agenten vaak samenhangt met betere prestaties, consistentie vooral uitkomsten versterkt in plaats van juistheid garandeert, aangezien foutieve interpretaties eveneens consequent kunnen worden herhaald.

Aman Mehta

Gepubliceerd 2026-03-30
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Samenvatting: Waarom "Gedrag" van AI meer zegt dan "Snelheid"

Stel je voor dat je drie verschillende kokken (AI-modellen) inhuurt om dezelfde moeilijke recepten te koken. Je wilt weten: wie is de beste? En belangrijker nog: als je ze dezelfde opdracht geeft, doen ze het elke keer op dezelfde manier?

Dit onderzoek kijkt naar drie "koks" (Claude 4.5, GPT-5 en Llama) die proberen softwarefouten in een grote bibliotheek van code (Astropy) te repareren. De onderzoekers hebben ze 50 keer dezelfde taak gegeven om te zien of ze consistent zijn.

Hier is wat ze ontdekten, vertaald naar alledaagse taal:

1. De Drie Koks: Snelheid vs. Betrouwbaarheid

  • Claude (De Grondige Chef): Deze kok werkt langzaam en neemt de tijd. Hij leest alles goed door, test zijn gerechten uitgebreid en maakt weinig fouten in de uitvoering.
    • Resultaat: Hij is de meest betrouwbare. Als hij een recept kiest, doet hij het elke keer op exact dezelfde manier. Maar... als hij het recept verkeerd begrijpt, kookt hij elke keer hetzelfde verkeerde gerecht.
  • GPT-5 (De Snelle Leverancier): Deze kok is razendsnel. Hij gooit de ingrediënten erin, kookt het snel op en is klaar.
    • Resultaat: Hij is veel sneller dan Claude, maar hij is onvoorspelbaar. Soms kookt hij iets lekkers, soms verbrandt hij het. Zijn gedrag verschilt elke keer dat je hem iets vraagt.
  • Llama (De Beginneling): Deze kok is minder ervaren. Hij loopt vaak vast, raakt de weg kwijt in de keuken en levert vaak niets op.
    • Resultaat: Hij is het minst betrouwbaar en maakt de meeste fouten.

2. Het Grote Geheim: Consistentie is een Tweesnijdend Zwaard

Dit is het belangrijkste punt van het onderzoek. Veel mensen denken: "Als een AI consistent is, moet hij wel goed zijn." Dat is niet waar.

Stel je voor dat je een kok vraagt om een taart te bakken, maar hij denkt dat je een pizza wilt.

  • Als die kok consistent is (zoals Claude), zal hij elke keer een perfecte pizza bakken, zelfs als je een taart wilde. Hij is zo betrouwbaar in zijn fout, dat hij je 5 keer op rij een pizza geeft.
  • Als die kok onconsistent is, bak hij misschien 2 keer een taart en 3 keer een pizza.

De les: Consistentie versterkt alleen wat de AI al denkt. Als de AI de opdracht goed begrijpt, is consistentie fantastisch (altijd een taart). Maar als de AI de opdracht verkeerd begrijpt, is consistentie gevaarlijk (altijd een pizza in plaats van een taart). In dit onderzoek bleek dat 71% van de fouten van de beste AI (Claude) kwam omdat hij elke keer op dezelfde manier de verkeerde conclusie trok.

3. Snelheid is niet alles

GPT-5 was 4,7 keer sneller dan Claude. Je zou denken: "Wauw, dat is efficiënt!" Maar de prijs was hoog:

  • Hij was minder vaak goed (32% succes vs. 58% bij Claude).
  • Hij was minder consistent (je wist nooit wat je kreeg).

Het is alsof je een bezorger kiest die razendsnel is, maar de helft van de pakketten op het verkeerde adres aflevert. Voor een snelle test is dat prima, maar voor een belangrijk systeem (zoals een ziekenhuis of een bank) wil je de langzamere, grondige kok die elke keer hetzelfde juiste resultaat levert.

4. Waarom vallen ze soms vast?

De onderzoekers keken naar waar de AI's vastliepen.

  • De "Vaste Idee" Valstrik: De beste AI's (Claude) zijn zo grondig, dat ze vastlopen in hun eigen idee. Als ze denken dat ze een fout in de code hebben gevonden, gaan ze daar urenlang aan werken zonder te twijfelen. Ze zijn zo consequent in hun fout, dat ze het nooit oplossen.
  • De "Gokker" Winnaar: Soms was de minder ervaren AI (Llama) juist sneller succesvol. Waarom? Omdat hij zo onvoorspelbaar was, dat hij per ongeluk op het juiste idee kwam, terwijl de grondige AI's vastbleven in hun verkeerde plan.

Conclusie: Wat betekent dit voor de toekomst?

Als we AI-agenten in de echte wereld willen gebruiken (bijvoorbeeld om software te schrijven of onderzoek te doen), moeten we stoppen met alleen kijken naar hoe snel ze zijn of hoe vaak ze iets goed doen.

We moeten kijken naar hoe goed ze de opdracht begrijpen.

  • Een AI die consistent is, is pas waardevol als hij de opdracht goed heeft begrepen.
  • Als hij de opdracht verkeerd begrijpt, is zijn consistentie juist een ramp: hij herhaalt zijn fouten met overtuiging.

Kortom: Het is beter om een langzame kok die elke keer de juiste taart bakt, dan een snelle kok die elke keer iets anders doet, of een snelle kok die elke keer dezelfde verkeerde pizza bakt. De kwaliteit van het begrip is belangrijker dan de snelheid van de uitvoering.