MathScape: Benchmarking Multimodal Large Language Models in Real-World Mathematical Contexts

本文提出了名为 MathScape 的新基准,该基准利用 1,369 个真实世界图像中的数学问题评估多模态大模型,揭示了现有模型在现实场景下的数学推理能力显著落后于人类,且合成数据上的优异表现无法保证其在真实任务中的有效性。

Hao Liang, Linzhuang Sun, Minxuan Zhou, Zirong Chen, Meiyi Qiang, Mingan Lin, Tianpeng Li, Fan Yang, Zenan Zhou, Wentao Zhang

发布于 2026-02-24
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 MathScape 的新项目,它的核心任务就像是给现在的“超级 AI 学生”们进行一场**“真实世界数学大考”**。

为了让你更容易理解,我们可以把这篇论文的内容想象成一场**“从模拟考场到实战街头的挑战”**。

1. 为什么要搞这个新考试?(背景与痛点)

想象一下,现在的 AI 模型(比如 GPT-4o 等)就像是一群在**“无菌实验室”**里长大的天才学生。

  • 以前的考试(旧基准): 就像是在实验室里做题。题目是电脑生成的,图片是完美的矢量图,字迹清晰,背景干净,没有任何干扰。AI 在这些“完美试卷”上表现非常好,甚至能拿满分。
  • 现实的问题: 但在现实生活中,我们遇到数学题时,往往不是拿着完美的电子文档,而是拍一张皱巴巴的试卷照片对着电脑屏幕截图,或者在光线昏暗的教室里拍一张作业本。照片可能模糊、有反光、有阴影,甚至题目旁边还有涂鸦。

MathScape 的出现,就是为了把 AI 从“无菌实验室”拉到“嘈杂的街头”去。 它告诉 AI:“别只会在完美的试卷上做题了,来试试在真实、混乱的照片里解题吧!”

2. MathScape 是什么?(核心内容)

MathScape 是一个全新的**“真实世界数学题库”**。

  • 数据来源: 研究人员没有用电脑生成题目,而是去收集了1369 道真实的数学题。
  • 真实感: 这些题目不是直接复制粘贴的,而是研究人员把纸质试卷或屏幕内容拍成照片,模拟我们普通人用手机拍照提问的场景。
  • 难度分级: 就像学校的考试一样,题目涵盖了小学、初中、高中,难度从“简单”到“困难”都有,就像 Figure 1 展示的那样,是一个完整的“数学成长阶梯”。

3. 他们是怎么测试 AI 的?(实验方法)

研究人员找来了19 个目前最厉害的 AI 模型(包括闭源的巨头如 GPT-4o,和开源的明星如 Qwen2-VL),让它们做这套题。

  • 评分规则: 因为数学题步骤很多,他们设计了一套“拆解打分法”。就像老师批改作文一样,把长答案拆成一个个小步骤,看每一步对不对,最后算总分。
  • 对比实验: 他们特意让两个最强的 AI(GPT-4o 和 LLaVA)做了两组对比:
    1. 完美的 PDF 电子版题目。
    2. 人类拍摄的模糊照片题目。

4. 结果让人意外吗?(主要发现)

结果就像是一个**“现实打脸”**的时刻:

  • 实验室冠军 \neq 街头王者: 很多在“完美试卷”上拿高分的 AI,一看到“真实照片”,成绩就断崖式下跌
    • 比喻: 就像是一个在平静泳池里能游出世界纪录的运动员,一下到波涛汹涌的开放海域,可能连水都喝几口。
  • AI 还是不如人: 即使是目前最强的 GPT-4o,在真实照片题上的表现也远不如人类(人类平均 77 分,AI 最好的才 40 多分)。
  • 越难越懵: 题目越难(高中、大学难度),AI 越容易出错。
  • 不稳定性: 同一个问题,让 AI 做 5 次,它可能只有 1 次做对。这说明它们现在的数学推理能力还不够“稳”,像是在“蒙”答案。

5. 这篇论文想告诉我们什么?(结论与意义)

MathScape 就像是一面**“照妖镜”**,照出了当前 AI 的短板:

  1. 别被假象迷惑: 以前我们在“完美图片”上测试 AI,觉得它们数学很强,那可能只是“温室里的花朵”。
  2. 真实世界很难: 现实中的图像干扰(模糊、角度、光线)对 AI 来说是个巨大的挑战,它们还学不会像人类一样“透过现象看本质”。
  3. 未来的方向: 想要让 AI 真正帮我们要解决生活中的数学问题(比如帮孩子检查作业、分析图表),我们就需要像 MathScape 这样的**“真实场景训练”**,而不是继续在“无菌实验室”里自嗨。

一句话总结:
这篇论文给现在的 AI 数学能力泼了一盆冷水,告诉我们要想真正实用,AI 必须学会在**“乱糟糟的真实世界”里,而不是在“完美的虚拟世界”**里做数学题。MathScape 就是那个检验它们是否真正“毕业”的实战考场。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →