Beyond Rows to Reasoning: Agentic Retrieval for Multimodal Spreadsheet Understanding and Editing

该论文提出了名为 BRTR 的多模态智能体框架,通过迭代工具调用循环替代传统单次检索,解决了企业级电子表格在复杂推理与编辑中的上下文丢失与窗口限制问题,并在多项基准测试中显著超越了现有最先进方法。

Anmol Gulati, Sahil Sen, Waqar Sarguroh, Kevin Paul

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 BRTR(Beyond Rows to Reasoning,意为“超越行,迈向推理”)的新系统。简单来说,这是一个能让 AI 像资深人类会计师一样,去阅读、理解并修改那些超级复杂、成千上万行的 Excel 表格的智能助手。

为了让你更容易理解,我们可以把处理 Excel 表格比作在巨大的图书馆里找书,或者在迷宫里寻宝

1. 以前的 AI 遇到了什么麻烦?(旧方法的痛点)

想象一下,你有一个巨大的图书馆(企业级的 Excel 表格),里面有几百万本书(单元格数据),而且这些书还互相引用(跨表关联),甚至里面还夹着照片和图表(多媒体内容)。

  • 旧方法 A(压缩法): 就像把几百万本书强行塞进一个手提箱里,只留下大概的目录。当你问 AI 问题时,它只能看着这个被压扁的“手提箱”瞎猜。结果就是,它经常搞错细节,因为关键信息在压缩过程中丢失了。
  • 旧方法 B(一次性检索): 就像你问图书管理员:“帮我找关于‘苹果’的书。”管理员只去书架上扫一眼,把看到的第一本相关书递给你,然后说:“这就是全部,请回答。”如果第一本书没讲清楚,管理员也不会再去翻别的书。这导致 AI 经常因为信息不全而答错。
  • 旧方法 C(全量投喂): 试图把整个图书馆的书一次性全塞进 AI 的脑子里。但这就像试图把整个海洋倒进一个水杯里,AI 的“脑子”(上下文窗口)会直接撑爆,导致它什么也记不住。

核心问题: 以前的 AI 太“死板”了,它们要么只看一眼,要么把东西压扁,要么试图一口吞下整个世界,无法像人类一样反复查阅、交叉验证、逐步推理

2. BRTR 是怎么解决的?(新系统的魔法)

BRTR 引入了一个**“智能侦探”(Agent)的概念。它不再是一次性完成任务,而是通过“提问 - 查看 - 再提问”**的循环来工作。

核心比喻:聪明的图书管理员 vs. 笨拙的复印机

想象 BRTR 是一个超级聪明的图书管理员,而以前的方法是复印机

  • 第一步:拆解任务(规划者)
    当你问:“请帮我分析上季度的财务报表,并找出为什么利润下降了。”
    笨拙的复印机直接开始复印整本账本。
    而 BRTR 的“规划者”会先思考:“这个问题太复杂了,我需要分三步走:1. 去查收入表;2. 去查成本表;3. 对比两张表里的图表。”

  • 第二步:迭代搜索(智能检索)
    它不会一次性把所有书都搬出来。它会先问:“收入表里 Q3 的数据在哪?”拿到数据后,它会看:“哦,收入没问题,那可能是成本表的问题。”于是它转身去查成本表。
    如果第一次找到的数据模糊不清,它会再次提问,甚至指定:“我要看第 5 行第 3 列的那个具体数字。”
    这个过程就像侦探在案发现场反复勘查,直到证据链完整为止。

  • 第三步:多工具协作(执行者)
    BRTR 不仅仅会找书,它还有各种工具:

    • OCR 工具: 能读懂扫描件里的文字。
    • 计算器: 能自动算公式。
    • 画图工具: 能根据数据生成图表。
    • 跨文件搜索: 能同时打开 PDF、图片和 Excel 进行对比。
  • 第四步:记忆管理(上下文控制)
    随着调查深入,AI 脑子里的信息会越来越多。BRTR 很聪明,它会**“断舍离”**:把之前看过的图片数据(因为占内存)暂时扔掉,只保留文字笔记和结论。这样它就不会因为脑子塞满而崩溃,同时又能记住推理的逻辑。

3. 它有多厉害?(实验结果)

研究人员找了 200 多个专家,像考官一样测试了这个系统:

  • 准确率大爆发: 在三个最难的测试中,BRTR 比以前的最好方法分别提高了 25%、7% 和 32% 的准确率。
    • 比喻: 以前做 100 道题,旧方法可能只能做对 70 道;现在 BRTR 能做对 95 道以上,几乎接近满分。
  • 谁表现最好? 他们测试了 5 种不同的“搜索引擎”(嵌入模型),发现 NVIDIA NeMo 最擅长理解这种“文字 + 图片”混合的表格。
  • 性价比之王: 虽然这种“反复思考”的方法消耗的计算资源(Token)多一点,但 GPT-5.2 模型在保持高准确率的同时,最省钱、最快。

4. 为什么这很重要?

在现实世界中,企业的财务报表、审计数据往往极其复杂,涉及成百上千个表格和无数交叉引用。

  • 以前: 人类专家需要花几天时间手动核对,容易出错,且无法处理海量数据。
  • 现在: BRTR 可以像人类专家一样,主动思考、反复验证、跨文件查找,并且每一步操作都有完整的“审计追踪”(就像侦探的办案记录,每一步都有据可查)。

总结

这篇论文的核心思想是:不要试图让 AI 一次性吞下所有数据,而是给它一个“思考的循环”。

BRTR 就像给 AI 配备了一个**“放大镜”和“笔记本”,让它能像人类分析师一样,在复杂的 Excel 迷宫中,一步步地寻找线索、验证假设、最终得出结论**。这不仅让 AI 变得更聪明,也让它在处理企业级复杂任务时变得真正可靠