Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een nieuwe, superintelligente robot hebt die alles kan lezen en schrijven. Tot nu toe hebben we deze robot getest met simpele quizvragen, zoals "Wie was de eerste president van de VS?" of "Wat is 2+2?". De robot scoort hier perfect op, alsof hij een schoolmeester is die alle antwoorden uit zijn hoofd kent.

Maar hier is het probleem: In het echte leven werken experts niet met quizvragen. Een arts moet een complex ziektebeeld diagnosticeren, een advocaat moet een lastig contract opstellen, en een leraar moet een lesplan maken dat werkt voor twintig verschillende kinderen. Dit zijn geen vragen met één goed antwoord; het zijn openbare, chaotische puzzels.

Het papier dat je hierboven ziet, introduceert XpertBench. Dit is een nieuwe, veel zwaardere test voor deze robots, gemaakt door ByteDance Seed.

Hier is een uitleg in gewone taal, met een paar creatieve vergelijkingen:

1. De "Schooltest" vs. De "Werkplek"

Tot nu toe testten we AI's alsof ze op school zaten. Ze kregen een examen met meerkeuzevragen. Ze haalden 100%, maar dat betekent niet dat ze klaar zijn om een ziekenhuis te runnen.

XpertBench is alsof we de robot niet naar school sturen, maar direct naar de werkvloer van een expert.

De opgave: In plaats van "Wat is de hoofdstad van Frankrijk?", krijgen ze een opdracht als: "Je bent een senior financieel analist. Analyseer twee luchtvaartbedrijven en leg uit waarom de ene beter presteert dan de andere, gebaseerd op hun cijfers van het afgelopen jaar."
De moeilijkheid: Er is geen antwoordlijntje. De robot moet zelf nadenken, zoeken, redeneren en een oplossing bedenken die echt werkt.

2. De "Chef-koks" (De Experts)

Hoe weet je of de robot een goede oplossing heeft bedacht? Je kunt niet zomaar een andere robot vragen of het goed is; die zou kunnen liegen of domme fouten maken.

Daarom heeft het team 1.000 echte experts ingehuurd. Denk aan:

Artsen met een medische licentie.
Advocaten met een diploma.
Leraars en ingenieurs.

Deze mensen zijn als de "gouden chef-koks" in de keuken. Ze hebben de recepten (de taken) zelf geschreven op basis van hun dagelijkse werk. Ze weten precies wat een goed resultaat is.

3. De "Scorekaart" (Rubrics)

In het verleden keken we alleen naar het eindresultaat: "Is het antwoord goed? Ja/Nee."
Bij XpertBench kijken we naar hoe de robot het gedaan heeft.

Stel je voor dat je een taart bakt.

Oude methode: "Is de taart gaar? Ja. Punt: 10/10." (Zelfs als hij verbrand is of te zoet).
XpertBench methode: We hebben een gedetailleerde scorekaart met 15 tot 40 punten.
- Heeft hij de juiste ingrediënten gebruikt? (Ja/Nee)
- Is de temperatuur goed? (Ja/Nee)
- Is de presentatie netjes? (Ja/Nee)
- Is de smaak in balans? (Ja/Nee)

Elk punt heeft een gewicht. Als je de suiker vergeet (een essentieel punt), krijg je een nul, zelfs als de taart er mooi uitziet. Dit zorgt ervoor dat de robot niet kan "sjoemelen" met een mooi verhaal als de feiten niet kloppen.

4. De "Oordeelkundige Robot" (ShotJudge)

Nu komt het slimme deel. We kunnen niet 1.000 experts vragen om elke robotopdracht te beoordelen; dat kost te veel tijd en geld.

Dus hebben ze een nieuwe robot-judge bedacht, genaamd ShotJudge.

Hoe werkt het? Stel je voor dat je een leerling wilt beoordelen. Je geeft de robot-judge een voorbeeld: "Kijk, dit is een perfect antwoord van een menselijke expert. Kijk hoe hij redeneert en welke punten hij maakt."
Dan laat je de robot-judge een nieuw antwoord beoordelen, gebaseerd op dat ene voorbeeld.
Hierdoor leert de robot-judge precies hoe een menselijke expert denkt, zonder dat we duizenden mensen hoeven te betalen voor elke test. Het is alsof je een robot traint met een "gouden voorbeeld" zodat hij net zo streng en eerlijk oordeelt als een mens.

5. Wat hebben ze ontdekt? (De resultaten)

Toen ze de beste AI's van vandaag de dag (zoals GPT en Claude) op deze test lieten, was het resultaat verrassend:

Geen superhelden: Zelfs de slimste robots halen maar een 66% (ongeveer een 6,5 of 7). Dat klinkt goed, maar voor een "expert" is dat nog steeds veel fouten.
Specialisten, geen alles-kunners:
- De ene robot is een financieel genie (haalt 84% in financiën), maar faalt totaal in wiskunde.
- De andere robot is een juridisch expert, maar kan geen lesplan maken.
- Er is nog geen enkele robot die in alles expert is.
De valkuil: Veel robots raken in de war als ze te veel informatie op internet moeten zoeken. Ze beginnen dan te "hallucineren" (verzonnen feiten) of raken afgeleid door onbelangrijke details, net als iemand die tijdens een sollicitatiegesprek begint te praten over het weer in plaats van zijn ervaring.

Conclusie

XpertBench is een waarschuwing en een kompas.
Het zegt: "Stop met denken dat AI's al klaar zijn. Ze zijn goed in schooltesten, maar in het echte, complexe werk van experts (artsen, advocaten, ingenieurs) zijn ze nog niet zo ver."

Het is een nieuwe meetlat die ons helpt te zien waar we nog moeten werken, zodat AI's in de toekomst niet alleen slimme quizzen kunnen doen, maar echt kunnen helpen bij het oplossen van de moeilijke problemen van de mensheid.

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

1. De "Schooltest" vs. De "Werkplek"

2. De "Chef-koks" (De Experts)

3. De "Scorekaart" (Rubrics)

4. De "Oordeelkundige Robot" (ShotJudge)

5. Wat hebben ze ontdekt? (De resultaten)

Conclusie

Probleemstelling

Methodologie

Belangrijkste Resultaten

Bijdragen

Betekenis

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

1. De "Schooltest" vs. De "Werkplek"

2. De "Chef-koks" (De Experts)

3. De "Scorekaart" (Rubrics)

4. De "Oordeelkundige Robot" (ShotJudge)

5. Wat hebben ze ontdekt? (De resultaten)

Conclusie

Probleemstelling

Methodologie

Belangrijkste Resultaten

Bijdragen

Betekenis

Meer zoals dit

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems

I must delete the evidence: AI Agents Explicitly Cover up Fraud and Violent Crime