BRIDGE: Benchmark for multi-hop Reasoning In long multimodal Documents with Grounded Evidence

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 BRIDGE 的新“考试”，专门用来测试人工智能（AI）在阅读长篇、复杂的科学论文时，到底有没有真本事。

想象一下，你正在参加一场高难度的**“侦探破案”游戏**，而 AI 就是那个侦探。

1. 以前的考试 vs. 现在的 BRIDGE 考试

以前的考试（旧基准）：
就像给侦探看一张简单的便条，上面写着：“小明昨天吃了苹果。”然后问：“小明昨天吃了什么？”
侦探只需要在便条上找到“苹果”这个词，就能答对。这太简单了，而且只考记忆力，不考推理。
- 缺点： 很多 AI 在这种简单测试里表现很好，但一遇到复杂问题就露馅。
BRIDGE 考试（新基准）：
现在，侦探拿到的是整整一本厚厚的科学论文（可能有几十页），里面不仅有文字，还有复杂的表格（像财务报表）和图表（像折线图、柱状图）。
问题不再是简单的“是什么”，而是像这样的：

“根据第 5 页的表格里的数据，结合第 12 页的图表趋势，再参考第 3 页的文字描述，解释为什么实验 A 的效果比实验 B 好？”

要回答这个问题，AI 必须像侦探一样：
1. 在文字里找到线索。
2. 去表格里核对数字。
3. 看图表确认趋势。
4. 把这些分散在不同页面的线索串联起来（这就是“多跳推理”），最后拼凑出真相。

2. 这个考试考什么？（三大题型）

BRIDGE 设计了三种不同难度的“破案”任务：

找不同（比较题）： 比如，“图 3 里，任务 1 和任务 3 的柱子哪个更高？”这需要 AI 同时看两个地方的数据并做比较。
问为什么（因果题）： 比如，“为什么作者只选用了部分错误类型？”这需要 AI 去文中找作者的解释理由。
写总结（抽象题）： 比如，“整篇论文的核心观点随着主观性变化有什么规律？”这需要 AI 通读全文，像写读后感一样概括。

3. 考试结果：AI 们表现如何？

研究人员找来了目前最厉害的 AI 模型（像 ChatGPT、Gemini、Qwen 等）来参加考试，结果发现了一些有趣（也有点尴尬）的现象：

现象一：直接给书看，AI 还行；但让 AI 自己找书，它就懵了。
如果把论文直接塞给 AI，让它慢慢读，它还能答对不少题。但是，如果给 AI 配一个“搜索引擎”（RAG 系统），让它自己去书里找答案，它的表现反而大幅下降。
- 比喻： 就像让一个学霸直接看课本做题，他能考 90 分；但如果让他去图书馆自己找书，他可能连书都找错，最后只考了 40 分。这说明 AI 在**“找线索”**这个环节很弱。
现象二：表格是 AI 的“噩梦”。
当答案藏在密密麻麻的表格里时，AI 的错误率最高。
- 比喻： AI 很擅长读故事（文字），也能看懂简单的画（图表），但一看到像 Excel 表格那样密密麻麻的数字，它就晕了，经常把数字看错或者张冠李戴。
现象三：书越厚，AI 越糊涂。
如果答案藏在论文的前几页，AI 答得不错；但如果答案藏在第 20 页以后，AI 的表现就直线下降。
- 比喻： 就像让一个人在一个巨大的迷宫里找东西，离入口越远，他越容易迷路，甚至忘了自己一开始要找什么。

4. 为什么要搞这个考试？

以前的考试太简单，只问“答案对不对”，不管 AI 是怎么想出来的。这就像只问“小明是不是吃了苹果”，而不问“你是怎么知道小明吃了苹果的”。

BRIDGE 这个新考试，不仅看答案对不对，还看推理过程：

你引用的证据是真的吗？
你是不是真的看懂了图表？
你有没有把不同页面的线索连起来？

总结

这篇论文就像给 AI 界发了一张**“体检报告”。它告诉我们：现在的 AI 虽然很聪明，能写诗、能聊天，但在处理长篇、复杂、包含图表和表格的科学文档时，它们还像个“只会死记硬背的学生”，缺乏真正的逻辑推理和跨页面找证据**的能力。

BRIDGE 就是为了解决这个问题，给未来的 AI 研发者提供一个更真实的“训练场”，让它们学会像真正的科学家一样，去阅读、分析和推理。

BRIDGE: Benchmark for multi-hop Reasoning In long multimodal Documents with Grounded Evidence

1. 以前的考试 vs. 现在的 BRIDGE 考试

2. 这个考试考什么？（三大题型）

3. 考试结果：AI 们表现如何？

4. 为什么要搞这个考试？

总结

BRIDGE 论文技术总结

1. 研究背景与问题定义

2. 方法论：BRIDGE 基准构建

2.1 数据集构建 (Dataset Construction)

2.2 评估协议 (Evaluation Protocol)

3. 实验设置

4. 关键实验结果

4.1 整体性能

4.2 细粒度分析

5. 主要贡献

6. 意义与启示

BRIDGE: Benchmark for multi-hop Reasoning In long multimodal Documents with Grounded Evidence

1. 以前的考试 vs. 现在的 BRIDGE 考试

2. 这个考试考什么？（三大题型）

3. 考试结果：AI 们表现如何？

4. 为什么要搞这个考试？

总结

BRIDGE 论文技术总结

1. 研究背景与问题定义

2. 方法论：BRIDGE 基准构建

2.1 数据集构建 (Dataset Construction)

2.2 评估协议 (Evaluation Protocol)

3. 实验设置

4. 关键实验结果

4.1 整体性能

4.2 细粒度分析

5. 主要贡献

6. 意义与启示

类似论文

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models