DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr intelligenten, aber manchmal etwas chaotischen Assistenten, der dir helfen soll, einen wissenschaftlichen Bericht über ein komplexes Thema zu schreiben – zum Beispiel über die Zukunft der Kernfusion oder die Geschichte eines alten Krieges.

Früher war es schwierig zu sagen, ob dieser Assistent wirklich gut gearbeitet hat. Hat er nur schöne Sätze gebaut, aber die Fakten erfunden? Hat er wichtige Details vergessen? Oder hat er Quellen benutzt, die gar nicht existieren?

Das ist genau das Problem, das die Forscher mit ihrer neuen Erfindung namens DEER lösen wollen.

Hier ist eine einfache Erklärung, wie DEER funktioniert, mit ein paar anschaulichen Vergleichen:

1. Das Problem: Der "Schönredner"-Effekt

Stell dir vor, du gibst deinem Assistenten den Auftrag: "Schreibe einen detaillierten Bericht über die besten Strategien für den Mars-Transfer."
Der Assistent kommt mit einem 20-seitigen Dokument zurück. Es sieht toll aus! Es hat Abschnitte, Überschriften und sogar Fußnoten.
Aber:

Hat er wirklich alle deine Fragen beantwortet?
Sind die Zahlen in der Tabelle korrekt?
Oder hat er einfach nur Dinge erfunden, die gut klingen, aber falsch sind?

Bisher gab es keine gute Methode, um das genau zu prüfen. Oft haben andere Computer (KI-Modelle) den Bericht nur "überflogen" und gesagt: "Sieht gut aus!" – dabei haben sie die feinen Fehler übersehen.

2. Die Lösung: DEER (Der strenge Chef-Prüfer)

DEER ist wie ein super-strenger, erfahrener Chef-Prüfer, der nicht nur schaut, ob der Bericht hübsch aussieht, sondern ob er wirklich gut ist.

DEER besteht aus drei Hauptteilen, die wie ein Team arbeiten:

A. Der Bauplan (Die Taxonomie)

Statt einfach zu sagen "Der Bericht muss gut sein", hat DEER einen riesigen Bauplan mit 101 genauen Checkpunkten.

Vergleich: Stell dir vor, du baust ein Haus. Ein normaler Prüfer sagt nur: "Ist das Haus fertig?" DEER sagt: "Hast du den Fundament gegossen? Sind die Wände gerade? Ist das Dach dicht? Sind die Fenster richtig eingesetzt?"
Dieser Bauplan deckt alles ab: Von der Logik des Textes bis zur Ethik (z. B. "Hast du beide Seiten einer Debatte fair dargestellt?").

B. Der Spezialist im Hintergrund (Experten-Ratgeber)

Manchmal reicht ein Bauplan nicht, wenn man kein Experte für das Thema ist. Wenn der Bericht über Quantenphysik ist, muss der Prüfer wissen, was er sucht.

Vergleich: DEER gibt dem Computer-Prüfer einen kleinen Zettel mit Hinweisen für jedes Thema. Wenn der Bericht über "Krebsforschung" geht, sagt der Zettel: "Achte darauf, ob die Studie die Kontrollgruppe erwähnt."
So wird der Computer-Prüfer zum "Experten", der auch die kleinen, kniffligen Fehler findet, die ein Laie übersehen würde.

C. Der Detektiv (Fakten-Check)

Das ist vielleicht der coolste Teil. Früher haben Prüfer nur geguckt, ob der Autor Quellenangaben gemacht hat. Aber was, wenn der Autor eine Behauptung aufstellt, ohne eine Quelle anzugeben?

Vergleich: DEER ist wie ein Detektiv, der den ganzen Bericht Zeile für Zeile durchsucht.
1. Er findet jede Behauptung (z. B. "Die Sonne ist heiß").
2. Er sucht im Text nach der Quelle. Wenn keine da ist, schaut er, ob eine Quelle in einem früheren Satz versteckt ist (wie ein Hinweis, der weiter oben steht).
3. Er geht dann ins Internet (oder in die Datenbank) und prüft: Stimmt das wirklich?
4. Er zählt: Wie viele Fakten sind wahr? Wie viele Quellen sind seriös?

3. Was haben sie herausgefunden?

Die Forscher haben DEER benutzt, um verschiedene KI-Assistenten zu testen. Das Ergebnis war eine Mischung aus "Gut" und "Noch nicht perfekt":

Das Gute: Die KIs können sehr gut schreiben. Die Berichte sehen professionell aus, haben eine gute Struktur und sind gut lesbar.
Das Schlechte: Wenn es darum geht, tiefgründige Fragen zu beantworten oder komplexe Logik anzuwenden, machen die KIs noch Fehler. Sie neigen dazu, sich auf zu wenige Quellen zu verlassen oder wichtige Details auszulassen.
Die Erkenntnis: Einfach nur "mehr suchen" im Internet reicht nicht. Die KIs müssen lernen, die Informationen auch wirklich zu verstehen und logisch zu verknüpfen.

Zusammenfassung

DEER ist wie ein neues, hochmodernes Prüfsystem, das KI-generierte Berichte nicht nur auf "Hübschheit" testet, sondern wie ein strenger Lehrer auf Wahrheit, Tiefe und Genauigkeit prüft.

Es hilft uns zu verstehen, wo die KI noch Schwächen hat (wie ein Schüler, der gut schreiben kann, aber bei Mathe noch üben muss) und zeigt genau, wo wir sie verbessern müssen, damit sie uns in Zukunft wirklich bei schwierigen Forschungsarbeiten helfen kann.

DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

1. Das Problem: Der "Schönredner"-Effekt

2. Die Lösung: DEER (Der strenge Chef-Prüfer)

A. Der Bauplan (Die Taxonomie)

B. Der Spezialist im Hintergrund (Experten-Ratgeber)

C. Der Detektiv (Fakten-Check)

3. Was haben sie herausgefunden?

Zusammenfassung

1. Problemstellung

2. Methodik: Das DEER-Framework

A. Datenkonstruktion

B. Evaluierungstaxonomie

C. Evaluierungs-Pipeline

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Ausblick

DEER: A Benchmark for Evaluating Deep Research Agents on Expert Report Generation

1. Das Problem: Der "Schönredner"-Effekt

2. Die Lösung: DEER (Der strenge Chef-Prüfer)

A. Der Bauplan (Die Taxonomie)

B. Der Spezialist im Hintergrund (Experten-Ratgeber)

C. Der Detektiv (Fakten-Check)

3. Was haben sie herausgefunden?

Zusammenfassung

1. Problemstellung

2. Methodik: Das DEER-Framework

A. Datenkonstruktion

B. Evaluierungstaxonomie

C. Evaluierungs-Pipeline

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

Image Captioning via Compact Bidirectional Architecture

Correspondence Analysis and PMI-Based Word Embeddings: A Comparative Study

Connecting Voices: LoReSpeech as a Low-Resource Speech Parallel Corpus

ThinkQE: Query Expansion via an Evolving Thinking Process

AgentCoMa: A Compositional Benchmark Mixing Commonsense and Mathematical Reasoning in Real-World Scenarios