\$OneMillion-Bench: How Far are Language Agents from Human Experts?

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een nieuw soort test ontwikkelt om te zien of kunstmatige intelligentie (AI) echt klaar is om te werken als een professionele expert, zoals een advocaat, een arts of een financieel adviseur. Tot nu toe werden AI-modellen getest met vragen die lijken op schooltoetsen: meerkeuzevragen of korte raadsels. Maar in het echte leven is werk veel complexer. Het gaat niet alleen om het juiste antwoord geven, maar om het hele proces: feiten checken, regels volgen, en soms moeilijke keuzes maken met grote gevolgen.

De auteurs van dit paper hebben $OneMillion-Bench (ofwel de "Eén Miljoen Dollar Test") bedacht. Hier is een uitleg in gewone taal, met een paar creatieve vergelijkingen:

1. Het idee: Van schoolbord naar kantoorvloer

Stel je voor dat je een AI hebt getraind om wiskundeproblemen op te lossen. Hij haalt 100% op zijn schooltoets. Maar als je hem nu vraagt om een belastingaangifte te doen voor een multinational, of een medisch diagnose te stellen, faalt hij misschien. Waarom? Omdat die schooltoetsen niet kijken naar of hij de juiste boeken raadpleegt, of of hij de regels van de belastingdienst kent.

De $OneMillion-Bench is als een proefstage in een hoogwaardig kantoor. In plaats van een toets, krijgen de AI's echte, moeilijke taken uit vijf belangrijke vakgebieden:

Financiën (zoals verzekeringen en beurzen)
Recht (zoals internationale contracten)
Gezondheidszorg (zoals medische behandelingen)
Natuurwetenschappen (zoals chemie en fysica)
Industrie (zoals technologie en engineering)

2. Waarom "Eén Miljoen Dollar"?

De naam is geen grapje. De makers hebben elke taak in de test een prijskaartje gegeven. Ze hebben berekend hoeveel tijd een senior expert (een echte mens met jaren ervaring) nodig heeft om de taak te doen, vermenigvuldigd met het uurloon van zo'n expert.

Als een AI een taak goed doet, "verdient" hij die waarde.
Als hij faalt, kost het de wereld geld.
De totale waarde van alle taken in de test is meer dan 1 miljoen dollar.

Het is alsof je een AI niet test op of hij een puzzel kan oplossen, maar op of hij een reële klus kan klaren waar mensen geld voor betalen.

3. Hoe wordt er beoordeeld? (De "Rubriek")

Bij een schooltoets kijk je vaak alleen naar het eindantwoord. Hier kijken de makers naar het hele proces. Ze gebruiken een beoordelingsschema (een "rubric") dat is gemaakt door echte experts.

Stel je voor dat je een chef-kok test.

Slecht test: "Is het eten op?" (Ja/Nee).
$OneMillion-Bench test: "Heeft hij de juiste ingrediënten gebruikt? Is het vlees op de juiste temperatuur? Heeft hij de hygiëneregels gevolgd? Is het gerecht veilig om te eten?"

De AI krijgt punten voor:

Feitelijkheid: Heb je de juiste bronnen geraadpleegd?
Logica: Is je redenering stevig?
Regelgeving: Heb je de wetten of protocollen gevolgd?
Veiligheid: Heb je geen gevaarlijke dingen bedacht?

Als de AI een fout maakt in de logica of een gevaarlijk advies geeft, krijgt hij een zware straf (negatieve punten), zelfs als het eindantwoord toevallig klopt.

4. Wat hebben ze ontdekt? (De resultaten)

Ze hebben 35 verschillende AI-modellen getest, van de bekende namen tot gespecialiseerde onderzoekers. Hier zijn de belangrijkste bevindingen:

Zoeken helpt, maar niet altijd: Veel AI's kunnen internet gebruiken om feiten op te zoeken. Voor de slimste modellen (zoals Claude-Opus) werkt dit fantastisch; ze worden nog beter. Maar voor sommige modellen maakt het ze juist slimmer, omdat ze verward raken door te veel informatie of onbetrouwbare bronnen. Het is alsof je iemand een bibliotheek geeft: voor een slimme student is het een goudmijn, voor iemand die niet weet hoe hij moet zoeken, is het een chaos.
De "Deep Research" agents zijn niet de winnaars: Je zou denken dat speciale AI's die zijn gebouwd om langdurig te onderzoeken (zoals "Deep Research" agents) het beste zouden doen. Maar vaak wint de "gewone" slimme AI die wel internettoegang heeft. Het gaat niet om hoe lang je zoekt, maar om hoe goed je de gevonden informatie begrijpt en toepast.
De kloof is groot: De beste AI's doen het goed, maar ze halen nog lang niet het niveau van een menselijke expert. Ze maken vaak fouten in complexe berekeningen of missen subtiele regels. Het is alsof een student die net zijn diploma heeft gehaald, nog niet klaar is om zelfstandig een ziekenhuis te runnen.
Taal maakt uit: Een AI die goed is in het Engels, is niet per se goed in het Chinees, en vice versa. De test toont aan dat AI's nog moeite hebben om zich aan te passen aan lokale regels en culturen.

5. De conclusie: AI is nog niet "kant-en-klaar"

De boodschap van dit paper is helder: AI is krachtig, maar nog niet betrouwbaar genoeg voor het echte, dure werk.

We zijn er nog niet bij dat we AI volledig kunnen laten werken als een senior advocaat of arts zonder toezicht. Ze kunnen helpen, maar ze moeten nog leren om:

De juiste feiten te vinden.
Die feiten logisch te verbinden.
Strikte regels te volgen.
Geen gevaarlijke hallucinaties (verzonnen feiten) te maken.

De $OneMillion-Bench is een nieuwe meetlat die ons vertelt: "Hoeveel echte waarde levert deze AI op, en hoeveel risico lopen we?" Het is een stap in de richting van AI die we echt kunnen vertrouwen in de wereld van morgen.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "$OneMillion-Bench: How Far are Language Agents from Human Experts?" in het Nederlands.

Titel: $OneMillion-Bench: Hoe ver staan Taalagenten van Menselijke Experts?

1. Het Probleem

Bestaande benchmarks voor Large Language Models (LLMs) en taalagenten zijn grotendeels beperkt tot gestructureerde examenvragen of chat-taken. Deze benchmarks sluiten niet aan bij de complexe, contextrijke en economisch waardevolle eisen van echte professionele werkomgevingen.

De Kloof: Er bestaat een fundamentele kloof tussen de prestaties van agenten in gecontroleerde testomgevingen en hun betrouwbaarheid in real-world scenario's zoals juridische compliance, financiële waardering, medische diagnose en industriële planning.
Beperkingen: Huidige benchmarks meten vaak alleen het eindantwoord, negeren de redeneerprocessen, en missen de noodzaak om autoritatieve bronnen op te halen, tegenstrijdige bewijzen op te lossen en strikte domeinspecifieke regels toe te passen. Er is geen duidelijke maatstaf voor de economische waarde die agenten kunnen leveren.

2. Methodologie: De Opbouw van $OneMillion-Bench

De auteurs introduceren $OneMillion-Bench ($ 1M-Bench), een benchmark van 400 door experts samengestelde taken die zijn ontworpen om de professionele diepgang en betrouwbaarheid van agenten te testen.

Domeinen: De benchmark beslaat vijf hoog-risico sectoren:
1. Financiën (Finance)
2. Recht (Law)
3. Gezondheidszorg (Healthcare)
4. Natuurwetenschappen (Natural Science)
5. Industrie (Industry)
Economische Grondslag: Elke taak is gekoppeld aan een reële monetaire waarde. Deze wordt berekend door de geschatte tijd die een senior expert nodig heeft voor de taak te vermenigvuldigen met het uurloon in de respectievelijke sector (gebaseerd op regionale data zoals de VS en China). De totale waarde van alle taken overschrijdt $1 miljoen.
Data Curation Pipeline:
- Stap 1: Taakcreatie: Experts ontwerpen semi-open-ended taken met een referentieantwoord en gedetailleerde beoordelingsrubrieken. Taken worden getest tegen state-of-the-art agenten; alleen taken die deze agenten niet consistent oplossen, worden behouden.
- Stap 2: Peer Review: Een tweede expert beoordeelt de taak op duidelijkheid, specialisatie en eerlijkheid.
- Stap 3: Resolutie: Bij meningsverschillen treedt een derde expert op als arbiter.
- Filtering: Uiterst makkelijke taken (waardeverlies) en onmogelijk moeilijke taken worden verwijderd om de discriminatiekracht te maximaliseren.
Beoordelingsmechanisme (Rubrics):
- In plaats van een simpele "juist/onjuist" score, wordt gebruikgemaakt van een rubric-based evaluation.
- Expert Score: Een gewogen som van criteria (factual accuracy, logical coherence, practical feasibility, professional compliance).
- Negatieve Rubrieken: Er zijn specifieke straffen (negatieve scores) voor schendingen van professionele normen, veiligheidsrisico's, hallucinaties of het niet volgen van instructies.
- Pass Rate: Het percentage vragen waarbij de agent een drempelwaarde (Expert Score ≥ 0.7) bereikt, wat aangeeft of de agent consistent professioneel werk levert.
Taalvariatie: De dataset bevat 200 Engelse en 200 Chinese taken. De Chinese taken zijn geen vertalingen, maar specifiek ontworpen voor de context van het Chinese vasteland (lokale wetgeving, standaarden, cultuur).

3. Belangrijkste Resultaten

De benchmark is gebruikt om 35 modellen te evalueren, waaronder "Vanilla" modellen (zonder tools), modellen met webzoekfuncties, en gespecialiseerde "Deep Research" agenten.

Leiderschap en Web Search:
- CLAUDE-OPUS-4.6 presteert het beste, zowel als standalone model als met webzoekfunctie.
- Web Search is geen garantie voor succes: Voor topmodellen verbetert zoeken de prestaties aanzienlijk (bijv. +8.1% Expert Score voor Claude). Echter, voor sommige modellen (zoals HUNYUAN-2.0 en STEP-3.5-FLASH) leidt zoeken tot een daling in prestaties. Dit komt door ruis, tegenstrijdige informatie of het onvermogen om bronnen kritisch te evalueren.
Deep Research vs. Generalisten: Gespecialiseerde "Deep Research" agenten (zoals o3-DeepResearch) presteren goed, maar overtreffen de beste zoek-enabled generalistische modellen niet in totale economische waarde of pass rate. Robuuste rubric-coverage blijkt belangrijker dan complexe zoekpijplijnen.
Prestatieverschil per Domein:
- Financiën is over het algemeen het meest uitdagende domein (lage scores).
- Gezondheidszorg en Recht leveren hogere scores op voor topmodellen.
- Er is een significant verschil tussen "Expert Score" (gemiddelde kwaliteit) en "Pass Rate" (aantal volledig geslaagde taken). Veel modellen halen een gemiddelde score van ~45-50%, maar slechts ~20-25% van de taken wordt volledig geslaagd. Dit wijst op oppervlakkige kennis in plaats van diepgaande competentie.
Tijdsgevoeligheid: Modellen presteren slechter op tijdsgevoelige vragen (nieuwe wetgeving, recente marktcijfers) dan op statische vragen, wat aangeeft dat agenten vaak te veel vertrouwen op historische patronen in plaats van actuele feiten.
Kosten vs. Waarde: Er is een Pareto-optimaliteit te zien. Modellen met zoektools genereren een veel hogere economische waarde dan hun basisversies, wat aangeeft dat ze complexe, hoogwaardige problemen kunnen oplossen die waardevol zijn voor bedrijven.

4. Kernbijdragen

Economisch Grondige Evaluatie: De eerste benchmark die agente-capaciteiten kwantificeert in termen van reële arbeidskosten en economische waarde ($1M+), in plaats van alleen nauwkeurigheid.
Rubric-based Beoordeling: Een geavanceerd systeem met gewogen en negatieve rubrieken dat de redeneerprocessen, naleving van regels en professionele integriteit meet, wat "reward hacking" voorkomt.
Realistische Werkflows: De taken simuleren echte professionele workflows (zoals het opstellen van een juridisch advies of een financiële waardering) die multi-stap redenering, bronverificatie en contextuele aanpassing vereisen.
Bilinguale en Culturele Context: Een unieke dataset die specifiek is ontworpen voor zowel Engelstalige als Chinese contexten, inclusief lokale regelgeving en culturele nuances.
Inzicht in Agenten-architecturen: Het paper levert empirisch bewijs dat webzoekfuncties een "versterker" zijn voor sterke modellen maar een valkuil voor zwakkere modellen, en dat gespecialiseerde research-agenten niet per se superieur zijn aan goed geoptimaliseerde generalisten.

5. Betekenis en Conclusie

$OneMillion-Bench markeert een verschuiving in de evaluatie van AI-agenten: van het beantwoorden van examenvragen naar het uitvoeren van betrouwbaar, economisch waardevol werk in professionele omgevingen.

Betrouwbaarheidsgap: De resultaten tonen aan dat huidige modellen nog niet consistent genoeg zijn om autonoom professionele taken uit te voeren zonder menselijk toezicht, vooral wat betreft het volgen van complexe regels en het vermijden van hallucinaties in kritieke domeinen.
Toekomstrichting: De benchmark dient als een kompas voor de ontwikkeling van AI-systemen die niet alleen "slim" zijn, maar ook "verantwoord" en "economisch zinvol". Het benadrukt dat de volgende stap in AI-ontwikkeling ligt in het verbeteren van de redeneerprocessen, de integratie van externe kennis en de strikte naleving van professionele protocollen.

Kortom, $OneMillion-Bench biedt een rigoureuze testomgeving om te bepalen of AI-agenten klaar zijn voor de echte wereld van professionele dienstverlening.

\$OneMillion-Bench: How Far are Language Agents from Human Experts?

1. Het idee: Van schoolbord naar kantoorvloer

2. Waarom "Eén Miljoen Dollar"?

3. Hoe wordt er beoordeeld? (De "Rubriek")

4. Wat hebben ze ontdekt? (De resultaten)

5. De conclusie: AI is nog niet "kant-en-klaar"

Titel: $OneMillion-Bench: Hoe ver staan Taalagenten van Menselijke Experts?

1. Het Probleem

2. Methodologie: De Opbouw van $OneMillion-Bench

3. Belangrijkste Resultaten

4. Kernbijdragen

5. Betekenis en Conclusie

Meer zoals dit

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers