VisioMath: Benchmarking Figure-based Mathematical Reasoning in LMMs

该论文提出了 VisioMath 基准,通过包含 1800 个候选答案均为细微相似图形的 K-12 数学问题,揭示了当前多模态大模型在细粒度视觉推理中因图文对齐不足而导致的性能瓶颈,并验证了多种对齐策略能显著提升模型表现。

Can Li, Ying Liu, Ting Zhang, Mei Wang, Hua Huang

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 VisioMath 的新项目,它就像是为大型多模态模型(LMMs,也就是能“看”又能“读”的超级 AI)举办的一场**“找不同”数学大考**。

为了让你轻松理解,我们可以把这篇论文的核心内容想象成以下几个生动的场景:

1. 为什么要办这场考试?(背景与动机)

现在的 AI 很聪明,能看懂图片、能解数学题。但是,它们在面对**“长得特别像的选项”**时,往往会犯迷糊。

  • 比喻:想象你在做一道数学选择题,题目问“哪个图形是正确答案”。选项 A、B、C、D 四个图形看起来几乎一模一样,就像四胞胎一样。
    • 人类学生:会仔细观察,发现 A 的角稍微歪了一点,B 的线稍微粗了一点,从而选出正确答案。
    • 现在的 AI:往往“眼拙”,分不清这四胞胎的区别。它们可能只是随便猜一个,或者根据“选项 A 通常在左边”这种位置习惯来蒙答案,而不是真的看懂了图。

VisioMath 就是专门设计来测试 AI 这种“火眼金睛”能力的。它收集了 1800 道 K-12(中小学)的数学题,这些题的选项全是高度相似的图形(比如函数图像、几何展开图),专门用来“折磨”AI 的视觉分辨能力。

2. 考试结果如何?(主要发现)

作者把市面上最厉害的 AI(比如 GPT-4.1, Gemini 2.5 Pro, Qwen 等)都拉来考了这场试,结果发现了一个尴尬的现象:

  • 相似度高,分数就低:当四个选项长得越像(相似度越高),AI 的准确率就越低。就像四胞胎长得越像,AI 越容易认错。
  • 主要毛病是“张冠李戴”:AI 最大的问题不是不会算,而是**“图文对不上号”**。
    • 比喻:题目问的是“图 A",AI 脑子里想的却是“图 B"。它把文字描述和具体的图片搞混了,就像你让一个人“指一下穿红衣服的人”,他却指了指穿蓝衣服的人,然后说“我觉得这个更像”。
  • 位置依赖症:AI 太依赖“位置”了。如果你把选项的图片顺序打乱,但文字标签(A、B、C、D)不变,AI 的分数会大幅下降。这说明它不是在看图,而是在背“第几个选项是答案”。

3. 怎么给 AI“补课”?(解决方案)

既然发现了 AI 的弱点,作者就尝试了三种方法来帮它“开窍”:

  • 方法一:把散落的拼图拼成一张大图(整合布局)

    • 做法:不再让 AI 分别看四张分开的小图,而是把题目图和四个选项图拼成一张长图,让 AI 一次性看完。
    • 效果:就像把散落在桌子上的四张纸拼成一张大海报,AI 更容易看清它们之间的关系,成绩有所提升。
  • 方法二:给图片贴上“姓名牌”(显式锚点)

    • 做法:直接在每个选项图片的下面或旁边,用文字标上"A"、"B"、"C"、"D",强行建立图片和文字的联系。
    • 效果:这就像给四胞胎每个人脖子上挂个名牌。AI 不再需要猜“哪个是 A",直接看名牌,成绩提升明显。
  • 方法三:教 AI 学会“一步步思考”(思维链微调)

    • 做法:这是最厉害的一招。作者给 AI 准备了一套专门的“教材”,教它如何像老师一样,一步步地描述每个图,然后对比差异,最后得出结论。
    • 效果:这就像给 AI 请了个私教,教它怎么“找不同”。即使只用了很少量的数据,AI 的成绩也突飞猛进(有的模型提升了 12.6%),证明只要教它正确的“对齐”方法,它就能学会。

4. 总结与意义

VisioMath 不仅仅是一个测试题,它是一个警示牌指南针

  • 警示:目前的 AI 虽然看起来很聪明,但在处理精细的、需要对比的视觉任务时,还像个“近视眼”,容易看走眼。
  • 指南:未来的 AI 发展,不能只靠堆数据,更需要学会如何精准地把文字和具体的图像细节对应起来(即“图文对齐”)。

一句话总结
这篇论文告诉我们要想造出真正懂数学、能看懂复杂图表的 AI,就不能只让它们“大概看看”,而要训练它们像人类一样,拿着放大镜去仔细分辨那些长得极像的“四胞胎”选项,并且学会把文字描述和具体的图片严丝合缝地对上号