DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer ervaren detective bent die een complex rapport moet schrijven over een mysterie. Je hebt een superkrachtige robot-assistent (een AI) die je helpt om alle bewijsmateriaal op internet te vinden, te lezen en te samenvatten.

Deze robot kan prachtige, lange rapporten schrijven. Maar hoe weet je of het rapport echt goed is? Is het waar wat er staat? Is het logisch? En heeft de robot de juiste vragen beantwoord?

Tot nu toe was het moeilijk om deze robot-rapporten eerlijk te beoordelen. Soms keek de beoordelaar alleen naar de opmaak (mooie letters, goede zinnen), maar miste hij de fouten in de feiten. Soms keek de beoordelaar alleen naar de bronnen waar de robot expliciet naar verwees, maar negeerde hij de feiten die de robot "stiekem" in zijn hoofd had zonder bronvermelding.

De auteurs van dit paper hebben een oplossing bedacht genaamd DEER.

Hier is wat DEER doet, vertaald in een simpel verhaal:

1. De "Gouden Regelboekjes" (Het Taxonomie-systeem)

Stel je voor dat je een restaurantbeoordeling wilt geven. Als je alleen zegt "Het eten was goed", is dat vaag. Wil je dat de chef de ingrediënten goed heeft gekozen? Was het warm? Was het vers?

DEER heeft een groot, gedetailleerd regelboek gemaakt. Dit boek is niet zomaar bedacht door een computer, maar door echte experts (mensen met een masterdiploma in hun vakgebied).

Ze hebben 7 grote categorieën bedacht (zoals "Voldoet het aan de vraag?", "Is de logica waterdicht?", "Zijn de bronnen betrouwbaar?").
Binnen die categorieën hebben ze 101 specifieke checkpunten gemaakt.

De analogie: Het is alsof je een auto wilt testen. In plaats van alleen te zeggen "De auto rijdt goed", heb je nu een checklist met 101 punten: "Remmen werken?", "Banden zijn niet versleten?", "Motorolie is op niveau?". Zo kun je precies zien waar de robot het goed doet en waar hij faalt.

2. De "Onzichtbare Bril" (Expert Guidance)

Soms is een robot slim, maar mist hij de "nuance" van een menselijk expert. Een robot kan een rapport over geneeskunde schrijven dat er perfect uitziet, maar een subtiele medische fout bevatten die een leek niet ziet.

DEER geeft de beoordelaar (die ook een AI is) een specifieke "bril" voor elke taak.

Als de robot een rapport moet schrijven over "Hoe werkt een zonnecel?", krijgt de beoordelaar een lijstje met exact wat er in dat rapport moet staan volgens een echte ingenieur.
Zonder deze bril zou de beoordelaar misschien denken: "Oh, het klinkt logisch," terwijl hij de essentie mist. Met de bril ziet hij direct: "Ah, de robot heeft vergeten uit te leggen hoe de spanning werkt."

3. De "Detective met een Lijst" (Claim Verification)

Dit is misschien wel het coolste deel. Stel je voor dat de robot een verhaal vertelt. Hij zegt: "De zon schijnt [bron 1]" en "Het is warm [geen bron]".
Oude methoden keken alleen naar de zinnen met [bron 1]. Maar wat als de robot ergens schrijft "Het is warm" en dat is gebaseerd op een zin die hij drie pagina's eerder las, maar die hij niet citeerde?

DEER gebruikt een slimme detectivemethode:

Het haalt alle feitelijke uitspraken uit het rapport.
Het zoekt niet alleen naar de bronnen die de robot expliciet noemt.
Het kijkt ook naar de onzichtbare bronnen: "Waar haalde de robot dit feit vandaan?" Door terug te kijken in het rapport (zoals een detective die eerdere pagina's doorzoekt), vindt hij de bron die de robot "vergeten" was te noemen.
Vervolgens gaat de robot naar die bron op het internet en checkt: "Zegt de bron echt wat de robot beweert?"

Wat hebben ze ontdekt?

Toen ze dit systeem gebruikten om verschillende AI's te testen, zagen ze iets interessants:

De robots zijn fantastisch in het schrijven van mooie, gestructureerde rapporten (de "verpakking" is perfect).
Maar ze zijn nog niet goed genoeg in het echt begrijpen van complexe vragen en het vinden van de juiste, diepgaande antwoorden (de "inhoud" is soms zwak).
Soms halen ze te weinig bronnen, of gebruiken ze bronnen die niet helemaal kloppen.

Waarom is dit belangrijk?

Voorheen was het alsof je een examen afnam en alleen keek naar de netheid van het handschrift. Met DEER kun je nu kijken naar de inhoud, de logica en de waarheid.

Het helpt ontwikkelaars om hun robots niet alleen "slimmer" te maken, maar vooral betrouwbarder. Het is een meetlat om te zien of een AI echt een expert is, of gewoon een slimme prater.

Kortom: DEER is de nieuwe, super-nauwkeurige meetlat die zegt: "Je rapport ziet er mooi uit, maar laten we eens kijken of je feiten kloppen en of je echt hebt gedaan wat we vroegen."

DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

1. De "Gouden Regelboekjes" (Het Taxonomie-systeem)

2. De "Onzichtbare Bril" (Expert Guidance)

3. De "Detective met een Lijst" (Claim Verification)

Wat hebben ze ontdekt?

Waarom is dit belangrijk?

Titel: DEER: Een Benchmark voor het Evalueren van Diepe Onderzoek Agents op Expert Rapportgeneratie

1. Het Probleem

2. Methodologie: Het DEER Framework

A. Data Constructie

B. Evaluatie Taxonomie

C. Verificatie Architectuur

3. Belangrijkste Bijdragen

4. Resultaten

5. Significantie

DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

1. De "Gouden Regelboekjes" (Het Taxonomie-systeem)

2. De "Onzichtbare Bril" (Expert Guidance)

3. De "Detective met een Lijst" (Claim Verification)

Wat hebben ze ontdekt?

Waarom is dit belangrijk?

Titel: DEER: Een Benchmark voor het Evalueren van Diepe Onderzoek Agents op Expert Rapportgeneratie

1. Het Probleem

2. Methodologie: Het DEER Framework

A. Data Constructie

B. Evaluatie Taxonomie

C. Verificatie Architectuur

3. Belangrijkste Bijdragen

4. Resultaten

5. Significantie

Meer zoals dit

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance