How Well Does Agent Development Reflect Real-World Work?

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat we een groep slimme robots bouwen die ons werk moeten gaan doen. We noemen ze "AI-agenten". Om te testen of deze robots goed zijn, laten we ze oefenen op speciale testvragen, zogenaamde "benchmarks".

Deze paper van onderzoekers van o.a. Carnegie Mellon en Stanford stelt een heel belangrijke vraag: Spelen deze robots eigenlijk wel op de juiste velden? Of zijn ze net als een voetbalelftal dat alleen maar traint op het scoren van strafschoppen, terwijl ze in het echte leven eigenlijk veldverdedigers moeten zijn?

Hier is een uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. De Grote Misverstand: De "Programmeur-Blindheid"

De onderzoekers keken naar 43 verschillende tests en meer dan 72.000 taken. Ze vergeleken wat de robots oefenden met wat mensen in de echte wereld (in de VS) eigenlijk doen en verdienen.

Het probleem: De robots trainen bijna uitsluitend op programmeerwerk en wiskunde. Het is alsof je een kok traint om alleen maar taarten te bakken, terwijl de echte wereld ook mensen nodig heeft die soep koken, salades maken en vlees grillen.
De realiteit: Programmeurs maken maar ongeveer 7,6% uit van alle banen. Maar de tests laten zien dat 80% van de robot-oefeningen hierover gaat.
Wat wordt genegeerd? Grote, belangrijke gebieden zoals management, juridisch werk en administratie worden bijna niet getest. Ook banen waar veel menselijk contact bij komt kijken (zoals verzorging of onderhandelen) worden genegeerd. Het is alsof je een auto bouwt die perfect kan racen op een circuit, maar niet kan rijden op de modderige wegen waar de meeste mensen eigenlijk moeten werken.

2. De "Skill-Blindheid": Alleen de Eenvoudige Spelletjes

De onderzoekers keken ook naar de vaardigheden die nodig zijn.

Wat de robots doen: Ze zijn heel goed in "informatie verzamelen" (zoals Google zoeken) en "met computers werken".
Wat mensen doen: Mensen doen een mix van alles: denken, praten met anderen, plannen maken en fysieke dingen doen.
De analogie: Stel je voor dat je een robot traint om een restaurant te runnen. Je laat hem alleen maar oefenen in het typen van bestellingen op een computer. Maar in het echte leven moet hij ook met boze klanten praten, de chef helpen met het snijden van groenten en beslissen welke gerechten er vandaag op het menu staan. De robot is getraind op één klein stukje, maar faalt op het echte plaatje.

3. Hoe "Onafhankelijk" zijn ze echt? (De Autonomie-Gradering)

De auteurs vragen zich af: Hoeveel werk kan een robot echt alleen doen zonder dat een mens ingrijpt?
Ze hebben een nieuwe manier bedacht om dit te meten, gebaseerd op hoe complex een taak is.

Niveau 1 (Kleintjes): "Klik hier op de knop." (Dit kunnen robots makkelijk).
Niveau 10 (Grote uitdaging): "Organiseer een hele conferentie, boek hotels, regel de catering en los een conflict tussen sprekers op."
De bevinding: Robots zijn goed op de lage niveaus. Zodra het werk complexer wordt (meer stappen, meer onzekerheid, meer mensen erbij), zakken ze snel in prestaties.
De les: Als je een robot wilt inzetten, moet je weten op welk niveau hij werkt. Je kunt hem niet zomaar de leiding geven over een complex project. Je moet het werk misschien opsplitsen in kleinere stukjes die hij wel aankan.

4. De Oplossing: Drie Regels voor Beter Testen

De onderzoekers geven drie adviezen om AI in de toekomst beter te laten aansluiten op de echte wereld:

Dekking (Coverage): Stop met alleen maar programmeerwerk testen. Test ook management, juridisch werk en sociale vaardigheden. Wees als een kok die alle gerechten op de kaart kan maken, niet alleen taarten.
Realisme: De tests moeten echt lijken op het werk. Veel huidige tests zijn te simpel en te gestructureerd. Het echte werk is rommelig en onvoorspelbaar.
Gedetailleerde meting: Kijk niet alleen naar of de robot de taak "af" heeft. Kijk hoe hij het deed. Was het een simpele taak of een complexe? Dit helpt ons te begrijpen waar de robot echt goed in is en waar hij nog hulp van een mens nodig heeft.

Conclusie in één zin

Deze paper zegt: "We bouwen momenteel robots die super zijn in het oplossen van programmeerproblemen, maar we vergeten dat de echte wereld vol zit met complexe, menselijke en administratieve taken waar ze nog niet klaar voor zijn."

Het is tijd om de training te verbreden, zodat onze digitale helpers ons kunnen helpen met alles wat we doen, en niet alleen met de dingen die makkelijk te testen zijn.

Each language version is independently generated for its own context, not a direct translation.

Titel: Hoe goed weerspiegelt agentontwikkeling het werk in de echte wereld?

Auteurs: Zora Z. Wang et al. (Carnegie Mellon University, Stanford University)

1. Het Probleem

AI-agenten maken snelle vooruitgang in taken zoals webnavigatie en computergebruik. Hoewel benchmarks (toetsingsproeven) worden gebruikt om deze agenten te evalueren, is het onduidelijk in hoeverre deze benchmarks de werkelijkheid van de arbeidsmarkt weerspiegelen.

De Kloof: Er is een gebrek aan een gestandaardiseerde methode om benchmarks te vergelijken met de verdeling van menselijk werk en economische waarde.
Risico: Ontwikkeling is waarschijnlijk te sterk gefocust op domeinen die makkelijk te benchmarken zijn (zoals programmeren), terwijl andere cruciale, gedigitaliseerde sectoren (zoals management, juridisch werk) en vaardigheden (zoals interpersoonlijke interactie) ondervertegenwoordigd blijven.
Vraag: Hoe vertalen prestaties op bestaande benchmarks zich naar praktische relevantie voor echte banen, en welke autonomie hebben agenten nodig voor verschillende werkscenario's?

2. Methodologie

De auteurs presenteren een systematisch raamwerk om agent-benchmarks te situeren binnen het landschap van menselijk werk, specifiek gericht op de Amerikaanse arbeidsmarkt.

**A. Taxonomieën op basis van O*NET**

Om een objectieve basis te creëren, gebruiken ze de O*NET-database (een Amerikaanse overheidsbron voor beroepen), in plaats van te leunen op bestaande AI-trends. Ze bouwen twee taxonomieën:

Domein-taxononomie ( $T_d$ ): Gebaseerd op beroepsfamilies en taken. Deze omvat 23 jobfamilies, 743 beroepen en 5.806 taakbeschrijvingen.
Vaardigheid-taxononomie ( $T_s$ ): Gebaseerd op "Work Activities" (werkactiviteiten). Deze is opgedeeld in vier hoofdcategorieën (informatie-invoer, interactie met anderen, mentale processen, werkoutput) en verder uitgesplitst in fijnmazige vaardigheden.

B. Mapping van Benchmarks naar Werk

Data: Ze analyseren 43 benchmarks met in totaal 72.342 taakinstanties.
Proces: Ze gebruiken Large Language Models (LLM's) om elke benchmark-taak (in natuurlijke taal) te mappen naar paden in de domein- en vaardigheidstaxonomieën.
Validatie: De mapping wordt handmatig gevalideerd (90%+ overeenstemming tussen mens en LLM).
Statistieken: Ze koppelen de taxonomieën aan gegevens van het U.S. Bureau of Labor Statistics (BLS) over werkgelegenheid en salarissen (kapitaal) om de economische waarde van elk domein en elke vaardigheid te kwantificeren.

C. Meting van Agent-autonomie

Om te bepalen hoe autonoom agenten kunnen werken, definiëren ze taakcomplexiteit en autonomie:

Complexiteit: Gedefinieerd als het aantal en de organisatie van distincte vaardigheden en procedurele stappen. Ze gebruiken "workflow induction" om lage-level acties (klikken, typen) te groeperen in semantische stappen.
Autonomie: Gedefinieerd als het maximale complexiteitsniveau waarbij een agent een taak end-to-end succesvol kan voltooien boven een bepaalde succesdrempel (bijv. 80%), zonder menselijke tussenkomst.

3. Belangrijkste Bijdragen

Systematisch Raamwerk: Een methode om agent-benchmarks te mappen op real-world werk via O*NET-taxonomieën.
Grootschalige Analyse: Een analyse van 43 benchmarks en 72k+ taken tegenover 1.016 beroepen.
Autonomie-meting: Een kwantitatieve maatstaf voor agent-autonomie als functie van taakcomplexiteit, wat helpt bij het bepalen van de inzetbaarheid van agenten.
Ontwerpprincipes: Drie meetbare principes voor het ontwerpen van betere benchmarks (zie hieronder).

4. Resultaten en Bevindingen

A. Sterke Vertekening in Domeinen (Domain Bias)

Overrepresentatie: Agent-benchmarks zijn extreem gefocust op het domein "Computer en Wiskunde" (voornamelijk software-engineering). Dit domein maakt echter slechts 7,6% uit van de totale Amerikaanse werkgelegenheid.
Onderrepresentatie: Cruciale, hoog-gedigitaliseerde en economisch waardevolle sectoren zoals Management, Juridisch werk en Architectuur/Techniek zijn sterk ondervertegenwoordigd in benchmarks, ondanks dat ze een groot deel van het economische kapitaal vertegenwoordigen.
Oorzaak: De focus lijkt te liggen op "methodologische gemakken" (taken met duidelijke instructies en makkelijke validatie) in plaats van op maatschappelijke impact.

B. Sterke Vertekening in Vaardigheden (Skill Bias)

Agenten worden getraind op een zeer smal scala aan vaardigheden.
De meeste benchmarks focussen op "Informatie ophalen" en "Werken met computers". Samen maken deze twee vaardigheden minder dan 5% uit van de totale Amerikaanse werkgelegenheid.
Brede, cruciale vaardigheden zoals "Interactie met anderen" (interpersoonlijke vaardigheden), die in bijna alle beroepen voorkomen, zijn bijna afwezig in de benchmarks.

C. Complexiteit en Autonomie

Complexiteitsgrenzen: In de meeste domeinen (behalve software-engineering) bereiken agenten hun succesgrens bij een lage taakcomplexiteit (vaak < 6 stappen).
Daling van Succes: Zelfs in software-engineering daalt het succespercentage drastisch naarmate de taakcomplexiteit toeneemt.
Praktische Implicatie: Agenten zijn momenteel alleen betrouwbaar voor zeer specifieke, goed gedefinieerde taken. Voor complexe workflows is menselijke tussenkomst of taak-decompositie noodzakelijk.

5. Significantie en Aanbevelingen

De paper concludeert dat huidige benchmarks een vertekend beeld geven van de arbeidsmarkt en dat agentontwikkeling niet optimaal aansluit bij waar de economische waarde en maatschappelijke behoeften liggen.

De auteurs stellen drie meetbare principes voor voor het ontwerpen van toekomstige benchmarks:

Domein- en Vaardigheidsdekking (Coverage):
- Benchmarks moeten ondervertegenwoordigde maar hoog-gedigitaliseerde domeinen (zoals Management, Juridisch) en brede vaardigheden (zoals sociale interactie) omvatten, in plaats van alleen software-engineering.
Realisme en Complexiteit (Realism):
- Taken moeten de echte context, procedurele complexiteit en onzekerheid van werk weerspiegelen. Veel huidige synthetische benchmarks zijn te simplistisch. Menselijke annotatie of realistische workflows zijn essentieel.
Gedetailleerde Evaluatie (Granular Evaluation):
- In plaats van alleen een eindresultaat te meten, moeten benchmarks evaluatie op tussenstappen (intermediate checkpoints) bevatten. Dit helpt bij het begrijpen van de autonomie-grenzen van agenten en biedt richtlijnen voor wanneer menselijke supervisie nodig is.

Conclusie:
Dit onderzoek biedt een fundamentele kritiek op de huidige staat van AI-agent-benchmarks en biedt een blauwdruk voor het creëren van systemen die niet alleen technisch uitdagend zijn, maar ook maatschappelijk relevant en economisch waardevol voor de bredere arbeidsmarkt.