OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning
Il paper introduce OfficeQA Pro, un benchmark per valutare le capacità di ragionamento fondato su documenti degli agenti AI, rivelando che anche i modelli linguistici più avanzati faticano a ottenere risultati affidabili su un vasto corpus di bollettini del Tesoro degli Stati Uniti, sebbene l'uso di rappresentazioni documentali strutturate possa migliorare significativamente le prestazioni.