OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning
El artículo presenta OfficeQA Pro, un nuevo benchmark que evalúa la capacidad de razonamiento fundamentado de agentes de IA sobre un corpus masivo y heterogéneo de documentos del Tesoro de EE. UU., revelando que incluso los modelos de vanguardia actuales tienen un rendimiento muy limitado en esta tarea y que la representación estructurada de documentos puede mejorar significativamente sus resultados.