Nonstandard Errors in AI Agents

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een groep van 150 zeer slimme, autonome robots (AI-agenten) de opdracht geeft om hetzelfde mysterie op te lossen: "Is de beurs in de afgelopen tien jaar eerlijker en efficiënter geworden?"

Je geeft ze allemaal exact dezelfde data (miljarden transacties van de SPY-beurs) en dezelfde vraag. Je zou denken dat ze allemaal tot hetzelfde antwoord komen, toch? Dat is namelijk wat je zou verwachten van een computer.

Maar in dit onderzoek gebeurde er iets verrassends. De robots kwamen tot heel verschillende conclusies. Sommigen zeiden: "Ja, de markt is veel beter geworden!" Anderen riepen: "Nee, het is juist verslechterd!" En weer anderen zeiden: "Het is niet veranderd."

Dit fenomeen noemen de onderzoekers Nonstandard Errors (Niet-standaardfouten). In gewone taal: het is de verwarring die ontstaat omdat elke robot zijn eigen manier van werken kiest, net zoals mensen dat ook doen.

Hier is hoe het werkt, uitgelegd met een paar simpele analogieën:

1. De "Garden of Forking Paths" (Het Bos met Vorken)

Stel je voor dat elke robot een wandelaar is in een groot bos. Ze moeten allemaal naar dezelfde bestemming (het antwoord op de vraag), maar er zijn duizenden paden.

Pad A: Meet de snelheid in kilometers per uur.
Pad B: Meet de snelheid in mijlen per uur.
Pad C: Meet de afstand in stappen.

Als je vraagt: "Hoe snel gaan we?", en iedereen kiest een ander pad, krijg je verschillende antwoorden.
In dit onderzoek kozen de robots vaak voor totaal verschillende manieren om "markt-efficiëntie" of "handelvolume" te meten.

De ene robot keek naar dollars die werden verhandeld (geldstroom).
De andere robot keek naar het aantal aandelen (fysieke hoeveelheid).

Omdat de prijs van aandelen in die tijd verdubbeld is, leek het geldstroom-pad te zeggen: "De handel explodeert!" terwijl het aantal-aandelen-pad zei: "De handel daalt!" Beide robots hadden gelijk, maar ze maten iets anders.

2. De "Stijl" van de Robot (Sonnet vs. Opus)

De onderzoekers gebruikten twee verschillende soorten robot-geesten: Sonnet en Opus.
Het bleek dat deze twee modellen een vaste "persoonlijkheid" of stijl hebben, net als mensen.

Sonnet-robots waren dol op het meten van autocorrelatie (een specifieke statistische methode) en gebruikten vaak dagelijkse cijfers.
Opus-robots waren fanatiek voor variance ratios (een andere methode) en werkten liever met maandelijkse cijfers.

Het was alsof je een groepje fotografen vroeg om een landschap te fotograferen. De ene groep (Sonnet) gebruikte altijd een groothoeklens, de andere groep (Opus) gebruikte altijd een telelens. Ze zien hetzelfde landschap, maar de foto's zien er totaal anders uit. Dit is geen toeval; het zit ingebakken in hun "brein".

3. De Proef: Krijgen ze hulp?

De onderzoekers deden een experiment in drie rondes om te zien of de robots hun antwoorden konden verbeteren:

Ronde 1 (Alleen): Iedere robot werkt alleen. Resultaat: Grote chaos en veel verschillende antwoorden.
Ronde 2 (Peer Review): De robots kregen een "kritiekbriefje" van andere robots. "Je hebt de verkeerde methode gekozen!"
- Resultaat: Niets veranderde! De robots maakten willekeurige aanpassingen, maar werden niet eensgezind. Het was alsof je een groep mensen vraagt om hun mening te wijzigen omdat een buurman het niet eens is; ze gaan allemaal in een andere richting, maar komen niet dichter bij elkaar.
Ronde 3 (De Top 5): De robots kregen de 5 beste rapporten te zien van de vorige ronde.
- Resultaat: Hier gebeurde magie. De robots keken naar de winnaars en zeiden: "Oh, die gebruiken die methode? Dan doen wij dat ook!"
- De verspreiding van antwoorden kromp met 80% tot 99%. Ze werden allemaal hetzelfde.

Maar wacht, is dat goed?
Niet helemaal. Soms kopieerden ze blindelings. Als de "winnaars" een rare methode hadden gekozen, volgden alle andere robots die rare methode. Ze stopten niet met nadenken over of het echt de beste methode was; ze imiteerden gewoon de leider.

Waarom is dit belangrijk voor ons?

Vertrouw niet op één AI-antwoord: Als je een AI vraagt om een economisch rapport te schrijven, is het antwoord niet "de waarheid". Het is slechts een van de vele mogelijke antwoorden, afhankelijk van welke "stijl" de AI toevallig kiest.
AI is geen magische oplossing: Mensen hebben al lang het probleem dat onderzoekers verschillende conclusies trekken uit dezelfde data. Nu zien we dat AI dit probleem niet oplost, maar soms zelfs verergert door nieuwe manieren van "nadenken" te introduceren.
De "ondergrens" van verwarring: Als zelfs slimme robots, die geen menselijke vooroordelen hebben, het niet eens kunnen worden over de beste manier om iets te meten, dan betekent dit dat de vraag zelf misschien niet goed genoeg is gesteld. De verwarring zit in de vraag, niet in de onderzoeker.

De conclusie in één zin

AI-agenten zijn niet de onfeilbare waarheidspriesters die we hoopten; ze zijn meer zoals een groep van 150 zeer slimme studenten die allemaal een andere manier van rekenen hebben. Als je ze allemaal hetzelfde huiswerk geeft, krijg je 150 verschillende antwoorden. Om de waarheid te vinden, moet je niet naar één robot kijken, maar naar de hele groep en hun verschillende manieren van denken vergelijken.

Nonstandard Errors in AI Agents

1. De "Garden of Forking Paths" (Het Bos met Vorken)

2. De "Stijl" van de Robot (Sonnet vs. Opus)

3. De Proef: Krijgen ze hulp?

Waarom is dit belangrijk voor ons?

De conclusie in één zin

Titel: Nonstandard Errors in AI Agents

1. Het Probleem

2. Methodologie

3. Belangrijkste Bijdragen

4. Resultaten

A. Omvang en Structuur van NSE

B. Effect van Feedback

C. Irrationele Imitatie

5. Betekenis en Implicaties

Nonstandard Errors in AI Agents

1. De "Garden of Forking Paths" (Het Bos met Vorken)

2. De "Stijl" van de Robot (Sonnet vs. Opus)

3. De Proef: Krijgen ze hulp?

Waarom is dit belangrijk voor ons?

De conclusie in één zin

Titel: Nonstandard Errors in AI Agents

1. Het Probleem

2. Methodologie

3. Belangrijkste Bijdragen

4. Resultaten

A. Omvang en Structuur van NSE

B. Effect van Feedback

C. Irrationele Imitatie

5. Betekenis en Implicaties

Meer zoals dit

Exploration and Exploitation Errors Are Measurable for Language Model Agents

SciFi: A Safe, Lightweight, User-Friendly, and Fully Autonomous Agentic AI Workflow for Scientific Applications

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

Optimizing Earth Observation Satellite Schedules under Unknown Operational Constraints: An Active Constraint Acquisition Approach

WebXSkill: Skill Learning for Autonomous Web Agents