\$OneMillion-Bench: How Far are Language Agents from Human Experts?

In dit paper wordt \$OneMillion-Bench geïntroduceerd, een nieuwe benchmark met 400 door experts samengestelde taken uit vijf professionele domeinen die taalagenten evalueren op hun vermogen om complexe, realistische scenario's met betrouwbare redenering en bronverificatie aan te pakken, in plaats van alleen gestructureerde examenvragen.

Qianyu Yang, Yang Liu, Jiaqi Li, Jun Bai, Hao Chen, Kaiyuan Chen, Tiliang Duan, Jiayun Dong, Xiaobo Hu, Zixia Jia, Yang Liu, Tao Peng, Yixin Ren, Ran Tian, Zaiyuan Wang, Yanglihong Xiao, Gang Yao, Lingyue Yin, Ge Zhang, Chun Zhang, Jianpeng Jiao, Zilong Zheng, Yuan Gong

Gepubliceerd 2026-03-10
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een nieuw soort test ontwikkelt om te zien of kunstmatige intelligentie (AI) echt klaar is om te werken als een professionele expert, zoals een advocaat, een arts of een financieel adviseur. Tot nu toe werden AI-modellen getest met vragen die lijken op schooltoetsen: meerkeuzevragen of korte raadsels. Maar in het echte leven is werk veel complexer. Het gaat niet alleen om het juiste antwoord geven, maar om het hele proces: feiten checken, regels volgen, en soms moeilijke keuzes maken met grote gevolgen.

De auteurs van dit paper hebben $OneMillion-Bench (ofwel de "Eén Miljoen Dollar Test") bedacht. Hier is een uitleg in gewone taal, met een paar creatieve vergelijkingen:

1. Het idee: Van schoolbord naar kantoorvloer

Stel je voor dat je een AI hebt getraind om wiskundeproblemen op te lossen. Hij haalt 100% op zijn schooltoets. Maar als je hem nu vraagt om een belastingaangifte te doen voor een multinational, of een medisch diagnose te stellen, faalt hij misschien. Waarom? Omdat die schooltoetsen niet kijken naar of hij de juiste boeken raadpleegt, of of hij de regels van de belastingdienst kent.

De $OneMillion-Bench is als een proefstage in een hoogwaardig kantoor. In plaats van een toets, krijgen de AI's echte, moeilijke taken uit vijf belangrijke vakgebieden:

  • Financiën (zoals verzekeringen en beurzen)
  • Recht (zoals internationale contracten)
  • Gezondheidszorg (zoals medische behandelingen)
  • Natuurwetenschappen (zoals chemie en fysica)
  • Industrie (zoals technologie en engineering)

2. Waarom "Eén Miljoen Dollar"?

De naam is geen grapje. De makers hebben elke taak in de test een prijskaartje gegeven. Ze hebben berekend hoeveel tijd een senior expert (een echte mens met jaren ervaring) nodig heeft om de taak te doen, vermenigvuldigd met het uurloon van zo'n expert.

  • Als een AI een taak goed doet, "verdient" hij die waarde.
  • Als hij faalt, kost het de wereld geld.
  • De totale waarde van alle taken in de test is meer dan 1 miljoen dollar.

Het is alsof je een AI niet test op of hij een puzzel kan oplossen, maar op of hij een reële klus kan klaren waar mensen geld voor betalen.

3. Hoe wordt er beoordeeld? (De "Rubriek")

Bij een schooltoets kijk je vaak alleen naar het eindantwoord. Hier kijken de makers naar het hele proces. Ze gebruiken een beoordelingsschema (een "rubric") dat is gemaakt door echte experts.

Stel je voor dat je een chef-kok test.

  • Slecht test: "Is het eten op?" (Ja/Nee).
  • $OneMillion-Bench test: "Heeft hij de juiste ingrediënten gebruikt? Is het vlees op de juiste temperatuur? Heeft hij de hygiëneregels gevolgd? Is het gerecht veilig om te eten?"

De AI krijgt punten voor:

  • Feitelijkheid: Heb je de juiste bronnen geraadpleegd?
  • Logica: Is je redenering stevig?
  • Regelgeving: Heb je de wetten of protocollen gevolgd?
  • Veiligheid: Heb je geen gevaarlijke dingen bedacht?

Als de AI een fout maakt in de logica of een gevaarlijk advies geeft, krijgt hij een zware straf (negatieve punten), zelfs als het eindantwoord toevallig klopt.

4. Wat hebben ze ontdekt? (De resultaten)

Ze hebben 35 verschillende AI-modellen getest, van de bekende namen tot gespecialiseerde onderzoekers. Hier zijn de belangrijkste bevindingen:

  • Zoeken helpt, maar niet altijd: Veel AI's kunnen internet gebruiken om feiten op te zoeken. Voor de slimste modellen (zoals Claude-Opus) werkt dit fantastisch; ze worden nog beter. Maar voor sommige modellen maakt het ze juist slimmer, omdat ze verward raken door te veel informatie of onbetrouwbare bronnen. Het is alsof je iemand een bibliotheek geeft: voor een slimme student is het een goudmijn, voor iemand die niet weet hoe hij moet zoeken, is het een chaos.
  • De "Deep Research" agents zijn niet de winnaars: Je zou denken dat speciale AI's die zijn gebouwd om langdurig te onderzoeken (zoals "Deep Research" agents) het beste zouden doen. Maar vaak wint de "gewone" slimme AI die wel internettoegang heeft. Het gaat niet om hoe lang je zoekt, maar om hoe goed je de gevonden informatie begrijpt en toepast.
  • De kloof is groot: De beste AI's doen het goed, maar ze halen nog lang niet het niveau van een menselijke expert. Ze maken vaak fouten in complexe berekeningen of missen subtiele regels. Het is alsof een student die net zijn diploma heeft gehaald, nog niet klaar is om zelfstandig een ziekenhuis te runnen.
  • Taal maakt uit: Een AI die goed is in het Engels, is niet per se goed in het Chinees, en vice versa. De test toont aan dat AI's nog moeite hebben om zich aan te passen aan lokale regels en culturen.

5. De conclusie: AI is nog niet "kant-en-klaar"

De boodschap van dit paper is helder: AI is krachtig, maar nog niet betrouwbaar genoeg voor het echte, dure werk.

We zijn er nog niet bij dat we AI volledig kunnen laten werken als een senior advocaat of arts zonder toezicht. Ze kunnen helpen, maar ze moeten nog leren om:

  1. De juiste feiten te vinden.
  2. Die feiten logisch te verbinden.
  3. Strikte regels te volgen.
  4. Geen gevaarlijke hallucinaties (verzonnen feiten) te maken.

De $OneMillion-Bench is een nieuwe meetlat die ons vertelt: "Hoeveel echte waarde levert deze AI op, en hoeveel risico lopen we?" Het is een stap in de richting van AI die we echt kunnen vertrouwen in de wereld van morgen.