PRISMM-Bench: A Benchmark of Peer-Review Grounded Multimodal Inconsistencies

本文提出了首个基于真实同行评审发现的多模态不一致性基准 PRISMM-Bench,通过构建包含 384 个真实案例的数据集及新型结构化评估任务,揭示了当前 21 种主流大模型在科学论文多模态推理与一致性检测方面存在的显著能力短板。

Lukas Selch, Yufang Hou, M. Jehanzeb Mirza, Sivan Doveh, James Glass, Rogerio Feris, Wei Lin

发布于 2026-02-17
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 PRISMM-Bench 的新工具,它就像是一个专门用来“捉虫”的科学论文质检员,专门用来测试现在的超级人工智能(AI)能不能真正读懂复杂的科学文章。

我们可以用几个生动的比喻来理解它:

1. 背景:AI 是个“博学家”,但也是个“粗心鬼”

现在的 AI(叫大型多模态模型,LMMs)非常聪明,能看图、能读字、能算数。科学家们希望它们能像助手一样帮我们读论文、做研究。
但是,科学论文里经常藏着一些**“隐形地雷”**:

  • 文字里说:“我的实验用了 10 个参数。”
  • 旁边的图里却画着:“参数是 1 个。”
  • 或者文字说:“结果完美匹配”,但图里的数据却对不上。

这些错误通常很细微,需要专业知识才能发现。如果 AI 连这些明显的“自相矛盾”都看不出来,那它怎么能当可靠的科学助手呢?

2. 痛点:以前的考试太“假”了

以前的测试题,要么是只考文字,要么是只考图片,要么就是人为编造的假错误(比如把图里的苹果涂成蓝色)。这就像是在考学生“能不能认出苹果”,而不是考他们“能不能发现苹果和梨混在一起”。
现实中的科学错误往往很隐蔽,而且散落在整篇论文的各个角落。

3. 解决方案:PRISMM-Bench —— “真枪实弹”的模拟考

作者们想出了一个绝妙的主意:去翻翻真实的论文评审记录(Peer Reviews)

  • 比喻:想象一下,你有一堆刚写完的试卷,旁边放着老师(审稿人)用红笔圈出来的错误批注。
  • 做法:作者们收集了 ICLR(一个顶级 AI 会议)上审稿人指出的真实错误。他们把这些“老师指出的错”整理成了一个题库。
  • 规模:他们从 353 篇论文中,精心挑选了 384 个真实的“图文不符”或“表里不一”的例子。

4. 三大挑战任务:不仅仅是“找茬”

这个测试不仅仅是让 AI 说“这里错了”,而是分三个层次来考:

  1. 找茬(Identification):就像玩“大家来找茬”游戏,问 AI:“图里和文字里哪里不一样?”
  2. 修图(Remedy):不仅要知道哪里错了,还要知道怎么改。比如:“是把图里的数字改大,还是把文字里的描述改小?”
  3. 配对(Pair Matching):给出一张图,让 AI 从一堆图里找出那张和它“吵架”(矛盾)的图。

5. 核心创新:防止 AI“走捷径”

这是这篇论文最聪明的地方。

  • 问题:在以前的选择题考试里,AI 很狡猾。它可能根本没看题目,只是看选项的长短、语气或者某些关键词,就能猜对答案。这就叫“走捷径”。
  • 比喻:就像学生考试不看题,只背“选 C 的人多”或者“最长的选项通常是正确答案”。
  • 对策:作者们发明了一种**“结构化 JSON 格式”**的答题方式。
    • 以前选项是:“A. 图里的苹果是红的。”
    • 现在变成了像代码一样的结构:{ "属性": "颜色", "声称": "红色", "证据": "图片显示绿色" }
    • 效果:这种格式去掉了花哨的语文修饰,强迫 AI 必须真正去理解图片和文字的逻辑关系,没法靠“猜”或“背答案”混过去了。

6. 测试结果:AI 还很“菜”

作者测试了 21 个最顶尖的 AI 模型(包括 GPT-5、Gemini 等)。

  • 结果:即使是最好的模型,准确率也只在 27.8% 到 53.9% 之间。
  • 对比:人类专家(博士生级别)在没有上下文提示的情况下,准确率只有 27.5%(因为人类需要看全文才能发现),但一旦给了上下文,人类能到 77.5%。
  • 结论:目前的 AI 在“走捷径”时表现不错,但一旦去掉捷径,让它们真正去理解复杂的图文矛盾,它们的表现还不如人类。这说明 AI 离成为真正的“科学助手”还有很长的路要走。

总结

PRISMM-Bench 就像给 AI 出了一套**“防作弊”的“找茬”试卷**。它告诉我们:现在的 AI 虽然能写诗、能画画,但在处理科学论文中那些细微的、真实的图文矛盾时,还像个**“粗心大意的小学生”**。只有解决了这些问题,AI 才能真正成为科学家值得信赖的伙伴。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →