OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sind ein neuer Mitarbeiter in einem riesigen, chaotischen Archiv, das so groß ist wie ein ganzer Kontinent. Dieses Archiv enthält 89.000 Seiten von Dokumenten, die über fast 100 Jahre hinweg gesammelt wurden. Es sind keine einfachen Briefe, sondern komplexe Finanzberichte des US-Finanzministeriums, vollgepackt mit Zahlen, Tabellen, Fußnoten und manchmal sogar handschriftlichen Notizen auf alten, verblassten Scans.

Ihr Chef gibt Ihnen eine Aufgabe: „Finden Sie heraus, wie hoch die Staatsverschuldung im Jahr 1942 war, korrigieren Sie sie für die Inflation, rechnen Sie eine lineare Regression durch und geben Sie mir das Ergebnis auf drei Dezimalstellen genau."

Das ist im Grunde das, was die Forscher von Databricks mit ihrem neuen Test namens OfficeQA Pro untersucht haben. Sie wollten herausfinden, ob die aktuellsten, „klügsten" künstlichen Intelligenzen (KI) in der Lage sind, solche echten, kniffligen Büroaufgaben zu lösen.

Hier ist die Geschichte der Ergebnisse, einfach erklärt:

1. Die KI ist wie ein brillanter Schüler, der aber keine Bücher lesen kann

Stellen Sie sich die fortschrittlichsten KI-Modelle (wie Claude, GPT oder Gemini) als Schüler vor, die alles auswendig gelernt haben, was sie jemals im Internet gesehen haben.

Das Problem: Wenn man sie fragt, etwas aus diesem riesigen Archiv zu finden, ohne ihnen das Archiv zu zeigen, antworten sie fast immer falsch. Sie versuchen, sich an Dinge zu erinnern, die sie „im Kopf" haben. Aber bei so spezifischen, alten Finanzdaten ist ihr Gedächtnis wie ein Loch im Eimer. Ihre Trefferquote lag bei weniger als 5 %.
Der Versuch mit Google: Man gab ihnen dann Zugriff auf das Internet (wie eine Google-Suche). Das half ein wenig, aber sie stolperten immer noch über die komplexen Tabellen und die alten Daten. Die Trefferquote stieg kaum über 12 %.

2. Das Archiv wird ihnen gegeben – aber es ist immer noch ein Albtraum

Dann gaben die Forscher den KIs das gesamte Archiv direkt. Das war, als würde man dem Schüler den ganzen Stapel Akten auf den Tisch legen.

Das Ergebnis: Die KIs schafften es immer noch nicht, die Hälfte der Fragen richtig zu beantworten (durchschnittlich nur 34 %).
Warum? Die Dokumente sind wie ein Puzzle, bei dem die Teile durcheinander geworfen wurden.
- Schlechte Handschrift/Scans: Alte Dokumente von den 1940ern sind wie verwaschene Fotos. Die KI liest eine „6" als eine „8".
- Komplexe Tabellen: Die Tabellen haben verschachtelte Überschriften, wie ein russisches Matroschka-Puppe. Die KI verliert den Überblick, welche Zahl zu welcher Spalte gehört.
- Verwirrende Sprache: Ein Wort kann in einem Dokument etwas anderes bedeuten als im nächsten.

3. Der „Übersetzer" rettet den Tag

Hier kommt der wichtigste Teil der Entdeckung: Die Forscher nutzten ein spezielles Werkzeug (ein „Parser" von Databricks), das die chaotischen PDFs in eine saubere, strukturierte Textdatei verwandelte.

Die Analogie: Stellen Sie sich vor, die KI ist ein Architekt, der versucht, ein Haus aus einem Haufen loser Ziegelsteine und Schutt zu bauen. Das geht schlecht. Der „Parser" ist wie ein Maurer, der die Ziegel sortiert, den Mörtel vorbereitet und eine saubere Wand baut, bevor der Architekt anfängt.
Das Ergebnis: Sobald die KI diese „saubere Wand" (die strukturierten Daten) bekam, verbesserte sich ihre Leistung drastisch. Sie wurde im Durchschnitt 16 % besser. Mit den besten Modellen und den sauberen Daten schafften sie es auf fast 67 % richtige Antworten.

4. Warum ist das wichtig?

Bisher haben wir KIs oft nur an Aufgaben getestet, die wie Schulrätsel oder Matheaufgaben aussehen (z. B. „Löse dieses mathematische Problem"). Das ist wie ein Sportler, der nur auf dem Laufband trainiert.
OfficeQA Pro ist wie ein Test im echten Leben: „Können Sie in einem vollen Lagerhaus das richtige Ersatzteil finden, es mit dem richtigen Werkzeug reparieren und die Rechnung korrekt stellen?"

Die Ergebnisse zeigen:

KI ist noch nicht bereit für den echten Job: Selbst die besten KIs machen bei solchen Aufgaben noch zu viele Fehler, um sich auf sie zu verlassen, wenn es um echtes Geld und wichtige Entscheidungen geht.
Die Datenqualität ist alles: Es reicht nicht, ein „kluges Gehirn" (das KI-Modell) zu haben. Wenn die „Augen" (das Werkzeug zum Lesen der Dokumente) schlecht sind, sieht das Gehirn nur Unsinn.
Der Mensch ist (noch) schneller und genauer: In Tests schafften es menschliche Experten, die Aufgaben schneller und genauer zu lösen als die KIs – besonders wenn die Dokumente schlecht lesbar waren. Aber: Wenn die Dokumente gut aufbereitet waren, waren die KIs deutlich schneller als Menschen.

Fazit

Die Botschaft der Forscher ist: Wir haben die „Superhirne" (die KI-Modelle), aber wir brauchen noch bessere „Brillen" (bessere Dokumenten-Verarbeitung), damit diese Hirne in der realen Welt funktionieren können. OfficeQA Pro ist wie ein Spiegel, der uns zeigt, wie weit wir noch gehen müssen, bis KI wirklich als verlässlicher Mitarbeiter in großen Unternehmen eingesetzt werden kann.

OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

1. Die KI ist wie ein brillanter Schüler, der aber keine Bücher lesen kann

2. Das Archiv wird ihnen gegeben – aber es ist immer noch ein Albtraum

3. Der „Übersetzer" rettet den Tag

4. Warum ist das wichtig?

Fazit

1. Problemstellung

2. Methodik und Benchmark-Design (OfficeQA Pro)

3. Schlüsselbeiträge und Experimente

4. Ergebnisse und Fehleranalyse

5. Bedeutung und Ausblick

OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

1. Die KI ist wie ein brillanter Schüler, der aber keine Bücher lesen kann

2. Das Archiv wird ihnen gegeben – aber es ist immer noch ein Albtraum

3. Der „Übersetzer" rettet den Tag

4. Warum ist das wichtig?

Fazit

1. Problemstellung

2. Methodik und Benchmark-Design (OfficeQA Pro)

3. Schlüsselbeiträge und Experimente

4. Ergebnisse und Fehleranalyse

5. Bedeutung und Ausblick

Mehr davon

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance