OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

Each language version is independently generated for its own context, not a direct translation.

🏛️ De Grote Bibliotheek van de Schatkist: OfficeQA Pro

Stel je voor dat je een enorme, oude bibliotheek binnenloopt. Deze bibliotheek bevat 89.000 pagina's aan documenten uit de Amerikaanse Schatkist, verspreid over bijna 100 jaar. Het is een wirwar van tekst, ingewikkelde tabellen, grafieken en cijfers die soms zijn vergeten in oude kranten, en soms in moderne digitale bestanden.

OfficeQA Pro is een nieuwe "proef" (een benchmark) die is ontworpen om te testen hoe goed slimme computers (AI-agenten) deze bibliotheek kunnen doorzoeken en begrijpen. Het doel is niet om te vragen wie de president was in 1950 (dat weten de computers uit hun geheugen), maar om vragen te beantwoorden die echte mensen in kantoren moeten beantwoorden: "Hoeveel belasting werd er betaald in 1942, gecorrigeerd voor inflatie, en wat is het verschil met 1953?"

🤖 De Computers in de Uitdaging

De onderzoekers van Databricks hebben de beste AI's ter wereld (zoals die van Google, OpenAI en Anthropic) op deze proef gezet. Het resultaat? De computers zakten er zwaar doorheen.

Zonder hulpmiddelen: Als je de AI alleen de vraag geeft, zonder de documenten, scoren ze bijna 0%. Ze weten het antwoord niet uit hun hoofd.
Met internet: Als ze mogen zoeken op het internet, scoren ze nog steeds minder dan 12%. Ze vinden de juiste bronnen niet of begrijpen ze niet.
Met de documenten: Zelfs als je ze direct de juiste pagina's geeft, scoren de slimste AI's maar 34%. Ze raken de draad kwijt in de ingewikkelde tabellen.

De analogie: Het is alsof je een student een examen geeft over een 1000 pagina's dik boek, maar de student mag alleen de pagina's lezen die jij aangeeft. Zelfs dan maakt hij fouten omdat hij de tabellen niet kan lezen of de cijfers verwart.

🛠️ De Magische Bril: Waarom "Parseren" Belangrijk Is

Een van de belangrijkste ontdekkingen in dit paper is dat het formaat van de documenten alles uitmaakt.

Stel je voor dat je een computer een PDF-bestand geeft. Voor een mens is dat een plaatje van een pagina. Voor een computer is het een rommelige hoop pixels en codes. De computer moet eerst proberen te raden waar de tekst begint en waar de tabel eindigt. Dit noemen ze "parsing".

De onderzoekers gebruikten een speciale tool van Databricks genaamd ai_parse_document.

Zonder deze tool: De computer probeert het plaatje te "lezen" en maakt veel fouten (zoals een getal verkeerd lezen).
Met deze tool: De computer krijgt de informatie in een schone, gestructureerde lijst (zoals een Excel-lijst in plaats van een foto van een Excel-lijst).

Het resultaat: Door deze "magische bril" op te zetten, verbeterden de scores van de AI's met 16%. Het is alsof je een bril opzet die de wazige tekst van de oude documenten scherp en leesbaar maakt.

🧩 De Grote Obstakels

Waarom is dit zo moeilijk voor de AI's? De onderzoekers hebben drie grote problemen geïdentificeerd:

De "Tijdmachine"-probleem (Herzieningen):
In deze documenten worden cijfers vaak aangepast. Een cijfer uit 1940 kan in 1945 worden aangepast. De AI's vinden vaak het eerste cijfer dat ze zien en denken: "Dat is het antwoord!" Ze vergeten te kijken of er later een nieuwere, betere versie is. Het is alsof je een nieuwsbericht leest van 1990 en denkt dat het nog steeds waar is, terwijl er in 2024 een update is gekomen.
De "Wazige Foto"-probleem (Visueel inzicht):
Veel documenten bevatten grafieken en kaarten. De AI's zijn slecht in het "lezen" van deze plaatjes. Als ze een lijngrafiek moeten interpreteren om een trend te zien, raken ze vaak de draad kwijt. Het is alsof je iemand vraagt om een kaart te lezen, maar je geeft ze een foto van de kaart die zo wazig is dat je de wegen niet meer kunt zien.
De "Rekenfout"-probleem (Analyse):
Zelfs als de AI het juiste cijfer vindt, maakt hij fouten in de berekening. Hij gebruikt soms de verkeerde formule (bijvoorbeeld "steekproefvariantie" in plaats van "populatievariantie") of rondt te vroeg af. Het is alsof je een kok hebt die de juiste ingrediënten heeft, maar de receptuur verkeerd begrijpt en je taart daardoor mislukt.

🏆 De Mens vs. De Machine

Interessant genoeg hebben de onderzoekers ook echte mensen gevraagd om deze vragen te beantwoorden.

Snelheid: De AI's waren 4 tot 9 keer sneller dan de mensen.
Nauwkeurigheid: De AI's waren nauwkeuriger dan de mensen, mits ze de documenten in een goed leesbaar formaat kregen.

De mensen maakten vaak fouten door slordigheid (typfouten, verkeerde eenheden), terwijl de AI's faalden omdat ze de documenten niet goed konden "ontcijferen".

💡 De Conclusie: Er is nog veel werk te doen

OfficeQA Pro laat zien dat AI's in de toekomst misschien wel onze beste kantoormedewerkers kunnen worden, maar ze zijn er nog niet klaar voor. Ze zijn als een zeer snelle, slimme stagiair die:

Snel kan zoeken.
Snel kan rekenen.
Maar niet goed kan lezen als de tekst slecht is opgemaakt.

Om AI's betrouwbaar te maken voor zakelijke taken, moeten we eerst zorgen dat de documenten (zoals oude belastingpapieren) perfect worden omgezet naar een formaat dat de computer begrijpt. Zolang dat niet zo is, blijven ze vastlopen in de ingewikkelde wereld van kantoorwerk.

Kortom: De technologie is er bijna, maar we moeten eerst de "bril" (de document-parsing) perfectioneren voordat de AI's echt kunnen werken in een kantooromgeving.

OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

🏛️ De Grote Bibliotheek van de Schatkist: OfficeQA Pro

🤖 De Computers in de Uitdaging

🛠️ De Magische Bril: Waarom "Parseren" Belangrijk Is

🧩 De Grote Obstakels

🏆 De Mens vs. De Machine

💡 De Conclusie: Er is nog veel werk te doen

Titel: OfficeQA Pro: Een Enterprise Benchmark voor End-to-End Grounded Reasoning

1. Het Probleem

2. Methodologie: De OfficeQA Pro Benchmark

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Toekomstperspectief

OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

🏛️ De Grote Bibliotheek van de Schatkist: OfficeQA Pro

🤖 De Computers in de Uitdaging

🛠️ De Magische Bril: Waarom "Parseren" Belangrijk Is

🧩 De Grote Obstakels

🏆 De Mens vs. De Machine

💡 De Conclusie: Er is nog veel werk te doen

Titel: OfficeQA Pro: Een Enterprise Benchmark voor End-to-End Grounded Reasoning

1. Het Probleem

2. Methodologie: De OfficeQA Pro Benchmark

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Toekomstperspectief

Meer zoals dit

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance