One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een nieuwe auto wilt kopen. Je wilt weten of hij goed is, maar in plaats van zelf naar de garage te gaan, de motor te openen, de banden te meten en een proefrit te maken, zeg je gewoon tegen een slimme assistent: "Ik wil een auto die goed is op sneeuw en veilig voor mijn gezin."

De assistent pakt dan zijn eigen gereedschapskist, zoekt de juiste testbanen op, rijdt zelf de auto uit, meet alles op en geeft je een duidelijk rapport: "Deze auto is geweldig op sneeuw, maar de remmen zijn een beetje zacht."

One-Eval is precies zo'n slimme assistent, maar dan voor grote taalmodellen (zoals de AI die je nu gebruikt).

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Doe-het-zelf" Chaos

Vroeger (en vaak nog steeds) moest een expert die een AI wilde testen, als een timmerman zonder blauwdruk aan de slag.

Ze moesten zelf zoeken naar de juiste "proefvragen" (benchmarks).
Ze moesten zelf de software installeren en configureren.
Ze moesten zelf beslissen welke cijfers belangrijk waren.
Als er iets misging, was het heel lastig om te zien waar het fout zat.

Het was als proberen een huis te bouwen terwijl je zelf de bakstenen moet zoeken, de cement moet mixen en de blauwdrukken moet tekenen, terwijl je ook nog moet raden of het huis veilig is.

2. De Oplossing: One-Eval (De Slimme Bouwmeester)

One-Eval is een agent (een slimme digitale werknemer) die dit hele proces overneemt. Je geeft het gewoon een zinnetje in gewone taal, en het doet de rest.

Het proces bestaat uit drie stappen, die we kunnen vergelijken met het plannen van een reis:

Stap 1: De Reisplanner (NL2Bench)

Wat je zegt: "Ik wil testen of mijn AI goed kan rekenen en logisch redeneren."
Wat One-Eval doet: Het vertaalt jouw zin naar een strak plan. Het zoekt in zijn enorme bibliotheek naar de perfecte "rekenproblemen" en "logica-puzzels" (zoals GSM8K of MATH).
De analogie: Het is alsof je tegen een reisbureau zegt: "Ik wil een strandvakantie." Zij zoeken niet alleen het strand, maar kiezen ook de beste hotels, boeken de vluchten en zorgen dat alles past bij je budget. Ze vragen je zelfs: "Zeker weten dat je geen skivakantie wilt?" (dit is de mens-in-de-lus stap, waar jij nog even kunt checken of het plan klopt).

Stap 2: De Logistiek (BenchResolve)

Het probleem: Soms zijn de proefvragen op verschillende plekken op het internet te vinden, in verschillende formaten.
Wat One-Eval doet: Het downloadt automatisch de juiste bestanden, zet ze in een standaardformaat en zorgt dat ze direct klaar zijn om te gebruiken.
De analogie: Stel je voor dat je ingrediënten koopt bij drie verschillende winkels. De ene verkoopt bloem in zakken, de andere in blikken, en de derde in dozen. One-Eval is de kok die alles uitpakt, in dezelfde bakken doet en klaarzet op het aanrecht, zodat je alleen maar hoeft te bakken. Het zorgt ervoor dat er geen "gemiste ingrediënten" zijn.

Stap 3: Het Rapport (Metrics & Reporting)

Het oude probleem: Vroeger kreeg je alleen een cijfer: "85% goed." Dat zegt weinig. Is die 85% goed voor wiskunde of voor poëzie? Waar ging het fout?
Wat One-Eval doet: Het maakt een verdiepend rapport. Het zegt niet alleen "85% goed", maar ook: "De AI is geweldig in optellen, maar hij maakt veel fouten bij breuken. Hier zijn drie voorbeelden van fouten, en hier is een tip om het te verbeteren."
De analogie: In plaats van alleen je schoolcijfer te krijgen, krijg je een gedetailleerd advies van je leraar: "Je bent goed in algebra, maar je moet meer oefenen met geometrie. Kijk hier naar deze drie sommen die je fout had."

Waarom is dit belangrijk?

One-Eval maakt het testen van AI sneller, betrouwbaarder en begrijpelijker.

Minder gedoe: Je hoeft geen programmeur te zijn om een AI te testen.
Traceerbaar: Je kunt altijd terugkijken hoe het testresultaat tot stand is gekomen (alsof je de video-opname van de proefrit terugkijkt).
Beslissingen: Bedrijven kunnen hierop echt beslissingen nemen: "Deze AI is klaar om te lanceren, want we weten precies waar hij goed en slecht in is."

Kortom: One-Eval is de vertaler en de regisseur die zorgt dat je niet zelf hoeft te bouwen aan de testapparatuur, maar gewoon je vraag kunt stellen en een helder antwoord krijgt.

One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

1. Het Probleem: De "Doe-het-zelf" Chaos

2. De Oplossing: One-Eval (De Slimme Bouwmeester)

Stap 1: De Reisplanner (NL2Bench)

Stap 2: De Logistiek (BenchResolve)

Stap 3: Het Rapport (Metrics & Reporting)

Waarom is dit belangrijk?

Probleemstelling

Methodologie: Het One-Eval Systeem

1. NL2Bench (Intent Structurering en Benchmark Planning)

2. BenchResolve (Benchmark Resolutie en Configuratie)

3. Metrics & Reporting (Metriekselectie en Rapportage)

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

1. Het Probleem: De "Doe-het-zelf" Chaos

2. De Oplossing: One-Eval (De Slimme Bouwmeester)

Stap 1: De Reisplanner (NL2Bench)

Stap 2: De Logistiek (BenchResolve)

Stap 3: Het Rapport (Metrics & Reporting)

Waarom is dit belangrijk?

Probleemstelling

Methodologie: Het One-Eval Systeem

1. NL2Bench (Intent Structurering en Benchmark Planning)

2. BenchResolve (Benchmark Resolutie en Configuratie)

3. Metrics & Reporting (Metriekselectie en Rapportage)

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance