OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning
Deze paper introduceert OfficeQA Pro, een nieuwe benchmark gebaseerd op een uitgebreid corpus van US Treasury Bulletins die aantoont dat zelfs de meest geavanceerde AI-agenten moeite hebben met grondig, op documenten gebaseerd redeneren in zakelijke contexten, waarbij gestructureerde documentrepresentaties weliswaar de prestaties verbeteren maar nog steeds aanzienlijke ruimte voor verbetering laten.