OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

本文介绍了 OfficeQA Pro,这是一个基于近百年美国财政部公报(含 89,000 页文档和 2600 万个数值)构建的企业级基准,旨在评估 AI 代理在跨多文档、混合非结构化文本与表格数据的接地推理能力,结果显示当前前沿大模型在此类任务上表现不佳,而采用结构化文档表示可显著提升性能,但距离企业级可靠应用仍有较大差距。

Krista Opsahl-Ong, Arnav Singhvi, Jasmine Collins, Ivan Zhou, Cindy Wang, Ashutosh Baheti, Owen Oertell, Jacob Portes, Sam Havens, Erich Elsen, Michael Bendersky, Matei Zaharia, Xing Chen

发布于 Tue, 10 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 OfficeQA Pro 的新“考试”,专门用来测试人工智能(AI)在处理真实世界复杂办公文档时的能力。

为了让你更容易理解,我们可以把这篇论文的核心内容想象成一场"超级档案管理员选拔赛"。

1. 考试背景:一座巨大的“时间胶囊”图书馆

想象一下,美国财政部(U.S. Treasury)在过去 100 年里(从 1939 年到 1982 年及以后),每个月都出版一本厚厚的“公报”。

  • 规模:这就像一座拥有 89,000 页 文档的巨型图书馆,里面塞满了 2600 万个 数字。
  • 难度:这些文档不是整齐的电子书,而是像旧报纸一样的扫描件,有的表格像俄罗斯套娃一样层层嵌套,有的数据后来被修正过(就像你发现去年的记账本里有个数字写错了,后来改成了新的)。
  • 任务:AI 需要像一名顶尖的财务分析师,从这堆乱糟糟的旧纸堆里,精准地找到特定的数据,进行复杂的计算(比如算增长率、做回归分析),最后给出一个绝对准确的答案。

2. 考试结果:AI 们“挂科”了

论文测试了目前世界上最聪明的几个 AI 模型(比如 Google 的 Gemini、OpenAI 的 GPT、Anthropic 的 Claude)。结果令人惊讶:

  • 靠“死记硬背”(参数知识):如果让 AI 只靠脑子里的记忆来回答,正确率不到 5%。这就像让一个学生只凭记忆去回答“1945 年 3 月某天的具体关税数据”,他们根本记不住。
  • 靠“上网搜”(联网搜索):即使允许 AI 上网查资料,正确率也不到 12%。这就像学生虽然带了手机,但搜到的信息要么太旧,要么被误导了。
  • 给“标准答案页”(直接给文档):即使我们直接把包含答案的那几页 PDF 文件塞到 AI 手里,让它只读这几页,最先进的 AI 平均正确率也只有 34% 左右
    • 比喻:这就像把试卷和答案直接放在学生面前,但他还是因为读不懂表格算错数或者看错了行而答错了。

3. 为什么 AI 会失败?(三大“拦路虎”)

论文发现,AI 在处理这种“ grounded reasoning"(基于事实的推理)时,主要卡在三个地方:

A. 阅读理解障碍(文档解析)

  • 比喻:AI 看扫描件 PDF,就像让一个近视眼戴着手套去读一本字迹模糊、排版混乱的旧书。
  • 问题:表格里的数字挤在一起,或者扫描件模糊不清,AI 很容易把"1950"看成"1960",或者把两行数据搞混。
  • 解决方案:论文发现,如果用 Databricks 公司开发的一个特殊工具(ai_parse_document)先把这些乱糟糟的 PDF 整理成清晰的文字和表格,AI 的成绩能瞬间提升 16%。这就像给 AI 配了一副高清眼镜和一双灵巧的手,帮它把书整理好再读。

B. 逻辑推理混乱(多步计算)

  • 比喻:AI 就像是一个虽然聪明但容易分心的学生。题目要求:“先找 1940 年的数据,再找 1953 年的数据,算出差值,再根据通胀率调整,最后四舍五入。”
  • 问题:AI 经常做到一半就忘了前面的步骤,或者用错了公式(比如该用“人口方差”却用了“样本方差”)。它很容易在复杂的数学链条中“断片”。

C. 视觉盲区(图表理解)

  • 比喻:如果题目里有一张折线图,要求你找出最高点。
  • 问题:目前的 AI 很难像人类一样一眼看出图表的趋势,它们往往把图表当成一堆乱码,或者完全忽略掉。

4. 人类 vs. AI:谁更厉害?

论文还做了一个有趣的对比实验,找了 3 个真人专家来做同样的题:

  • 速度:AI 比人类快得多(人类平均要花 30 分钟,AI 只要几分钟)。
  • 准确率
    • 如果直接给人类看原始 PDF,人类也会因为看错行、算错数而犯错,但AI 在整理好的文档上比人类更准、更快
    • 如果给人类看原始 PDF,人类的表现其实和现在的 AI 差不多,甚至因为人类会“粗心大意”(比如抄错数字),在某些细节上还不如 AI 稳定。
    • 结论:AI 目前还达不到“完美专家”的水平,但它们已经比普通人处理这种海量文档要高效得多了。

5. 核心启示:未来的方向

这篇论文告诉我们,现在的 AI 就像是一个拥有超级大脑但视力不好、手脚笨拙的实习生

  • 它很聪明,能理解复杂的逻辑。
  • 但它太依赖“整理好的数据”。如果数据是乱糟糟的原始文件,它就发挥不出实力。
  • 未来的关键:不在于让 AI 变得更“聪明”(记更多知识),而在于如何更好地把原始文档“翻译”成 AI 能读懂的格式(比如更好的文档解析工具),以及如何让 AI 在计算时更严谨、更少犯错。

一句话总结
OfficeQA Pro 就像一面镜子,照出了当前 AI 在处理真实企业级复杂文档时的短板。虽然它们现在还没法完全替代人类专家,但只要帮它们把“眼镜”(文档解析)配好,把“计算器”(推理逻辑)修好,它们就能成为超级得力的办公助手。