OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning
Le papier présente OfficeQA Pro, un nouveau benchmark évaluant la capacité des agents IA à effectuer un raisonnement ancré sur un vaste corpus hétérogène de documents du Trésor américain, révélant que même les modèles de pointe peinent à atteindre une fiabilité suffisante pour des applications d'entreprise sans une représentation structurée avancée des documents.