DRBench: A Realistic Benchmark for Enterprise Deep Research

Die Arbeit stellt DRBench vor, ein realistisches Benchmark für die Bewertung von KI-Agenten bei komplexen, mehrstufigen Forschungsfragen in Unternehmensumgebungen, die sowohl öffentliche Webquellen als auch interne Wissensdatenbanken einbeziehen.

Amirhossein Abaskohi, Tianyi Chen, Miguel Muñoz-Mármol, Curtis Fox, Amrutha Varshini Ramesh, Étienne Marcotte, Xing Han Lù, Nicolas Chapados, Spandana Gella, Peter West, Giuseppe Carenini, Christopher Pal, Alexandre Drouin, Issam H. Laradji

Veröffentlicht Wed, 11 Ma
📖 3 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr klugen, aber manchmal etwas naiven Assistenten, der dir bei der Arbeit helfen soll. Bisher haben wir diesen Assistenten nur mit einfachen Aufgaben getestet, wie zum Beispiel: „Wie ist das Wetter?" oder „Wer hat das Rad erfunden?". Das ist so, als würdest du einen Rennwagen nur auf einer geraden, leeren Straße testen.

DRBench ist wie eine völlig neue, extrem realistische Prüfungsstrecke für diesen Assistenten – speziell für die chaotische, komplexe Welt von großen Firmen (Enterprise).

Hier ist die Idee ganz einfach erklärt:

1. Die neue Aufgabe: Nicht nur googeln, sondern detektieren

Früher mussten die KI-Assistenten nur im Internet (dem „öffentlichen Park") nach Informationen suchen. Bei DRBench ist die Aufgabe viel schwieriger. Stell dir vor, dein Assistent muss eine komplexe Frage beantworten wie: „Was müssen wir an unserem Produkt ändern, damit wir mit dieser neuen Sicherheitsvorschrift konform sind?"

Um das zu lösen, reicht eine einfache Google-Suche nicht. Der Assistent muss wie ein genialer Privatdetektiv agieren, der gleichzeitig:

  • Im öffentlichen Internet (wie ein riesiges Stadtbücherei) nachliest.
  • In den internen Firmen-Akten stöbert (wie in einem verschlüsselten Safe).
  • Durch E-Mails, Chat-Nachrichten und Cloud-Ordner wühlt (als würde er durch alte Schuhkartons im Keller kramen).

Er muss alle diese Puzzleteile aus völlig verschiedenen Quellen zusammensetzen, um ein sinnvolles Bild zu erhalten.

2. Der Prüfungsplan: 100 echte Szenarien

Die Forscher haben nicht einfach zufällige Fragen erfunden. Sie haben einen cleveren Prozess entwickelt, bei dem echte Menschen mitgewirkt haben, um 100 realistische Szenarien zu erstellen. Diese decken 10 verschiedene Bereiche ab, von Verkauf über Cyber-Sicherheit bis hin zu Compliance (Regelkonformität).

Es ist, als würde man dem Assistenten nicht nur eine Matheaufgabe geben, sondern ihn bitten, einen ganzen Tag lang in einer echten Firma zu arbeiten, in der er E-Mails liest, Datenbanken durchsucht und am Ende einen klaren, gut strukturierten Bericht schreibt.

3. Was wird bewertet?

Am Ende des Tests schaut man nicht nur, ob der Assistent die richtige Antwort hat. Man prüft:

  • Hat er die richtigen Hinweise gefunden? (Erinnert er sich an das wichtige Detail in der alten E-Mail?)
  • Hat er gelogen oder Dinge erfunden? (Faktische Genauigkeit).
  • Ist sein Bericht logisch und gut lesbar? (Kann er die Informationen so verpacken, dass der Chef sie versteht?).

4. Das Ergebnis: Ein Spiegel für die KI

Die Forscher haben verschiedene KI-Modelle (die „Gehirne" hinter den Assistenten) auf dieser neuen Strecke getestet. Das Ergebnis zeigt uns genau, wo diese KIs noch stolpern und wo sie glänzen. Es ist wie ein Trainingslager, das uns sagt: „Okay, ihr könnt gut im Internet suchen, aber ihr vergesst oft die internen Firmen-Chats. Das müssen wir üben!"

Zusammenfassend:
DRBench ist kein einfacher Test mehr. Es ist ein Simulator für den echten Arbeitsalltag, der KI-Assistenten herausfordert, nicht nur zu „wissen", sondern zu „forschen", zu verknüpfen und echte Probleme in komplexen Firmen-Umgebungen zu lösen. Die Daten und der Code sind jetzt für alle verfügbar, damit die ganze Welt an besseren KI-Assistenten für die Wirtschaft arbeiten kann.