OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models

该论文提出了名为 OddGridBench 的可控基准以评估多模态大模型对细微视觉差异的敏感度,发现现有模型表现远逊于人类,并进一步通过引入课程学习与距离感知奖励的 OddGrid-GRPO 强化学习框架显著提升了模型的细粒度视觉判别能力。

Tengjin Weng, Wenhao Jiang, Jingyi Wang, Ming Li, Lin Ma, Zhong Ming

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给现在的超级 AI 做一场"找茬"体检,结果发现了一个令人惊讶的“视力缺陷”。

我们可以把这篇论文的故事分成三个部分:发现问题设计考题对症下药

1. 发现问题:AI 是“宏观大师”,却是“微观近视眼”

想象一下,现在的多模态大模型(MLLMs,比如 GPT-5、Gemini 等)就像是一个博学的老教授

  • 他的强项:他能看懂复杂的图表,能写诗,能解释为什么天空是蓝的,甚至能推理出“如果下雨,地面会湿”这种逻辑。
  • 他的弱项:如果你给他看一张图,图里有 30 个一模一样的苹果,其中有一个苹果稍微转了 5 度,或者稍微红了一点点,或者稍微大了一毫米。这位“老教授”可能会完全瞎掉,甚至自信地告诉你:“没区别啊,都一样!”

论文的核心发现
人类的眼睛非常敏锐,哪怕是一点点细微的差别(比如颜色深浅、旋转角度、位置偏移),我们都能一眼看出来。但目前的顶级 AI 模型,在这些极其细微的视觉差异面前,表现得比人类差远了,甚至有时候还不如随机猜。

2. 设计考题:OddGridBench(找茬大网格)

为了科学地测试 AI 到底“瞎”到什么程度,作者们设计了一个专门的考场,叫 OddGridBench

  • 考场长什么样
    这就好比小时候玩的"大家来找茬"游戏,或者像是一个巨大的九宫格(甚至更大,比如 8x9 的网格)。
  • 题目怎么出
    格子里放满了长得一模一样的图标(比如全是小汽车,或者全是数字"6")。
    • 干扰项:大部分图标完全一样。
    • 目标项:只有一个图标是“异类”。
    • 异类怎么变?作者们用电脑程序精确控制,让这个异类只改变一点点:
      • 颜色:深红变浅红(肉眼几乎看不出,但仪器能测出)。
      • 大小:变大 5% 或变小 5%。
      • 旋转:歪了 10 度。
      • 位置:在格子里稍微挪动了一点点。
  • 考什么
    让 AI 回答:“那个不一样的东西在第几行、第几列?”

考试结果(让人大跌眼镜)
作者测试了 19 种最先进的 AI 模型(包括开源的和闭源的巨头)。

  • 人类考生:几乎全对,准确率 87% 以上。
  • AI 考生:大部分模型准确率只有 20%-50%,甚至有的接近随机乱猜(2%)。
    • 哪怕是像 GPT-5 或 Gemini 2.5 Pro 这样的“学霸”,在旋转位置这种细微差别上,也表现得非常笨拙。
    • 这就好比让一个能写代码的博士去分辨两滴水的重量差,他反而不如一个普通小孩。

3. 对症下药:OddGrid-GRPO(特训营)

既然发现了 AI 是“近视眼”,作者们没有放弃,而是给它们开了一副“眼镜”和一套“特训方案”,叫 OddGrid-GRPO

这个方案有两个核心绝招:

绝招一:循序渐进的“特训课程”(Curriculum Learning)

  • 以前的训练:直接让 AI 做很难的题(比如只相差 1% 的颜色),AI 根本学不会,直接放弃。
  • 现在的训练
    1. 第一阶段(简单):先让 AI 找差别很大的(比如一个红苹果,其他全是绿苹果)。
    2. 第二阶段(中等):差别变小一点(深红 vs 浅红)。
    3. 第三阶段(困难):差别极小(几乎一样的红)。
      就像教小孩学走路,先走平地,再走斜坡,最后走独木桥。这样 AI 就能慢慢建立起对细微差别的敏感度。

绝招二:有温度的“打分机制”(Distance-Aware Reward)

  • 以前的打分:要么全对(给 100 分),要么全错(0 分)。
    • 问题:如果 AI 猜对了位置,只是行数差了一行,它还是得 0 分。这会让 AI 觉得“反正都是错,不如乱猜”。
  • 现在的打分:引入“距离感”。
    • 如果 AI 猜的位置离正确答案很近(比如就在隔壁),虽然没完全对,但给个鼓励分(比如 80 分)。
    • 离得越远,分数越低。
    • 比喻:就像射箭,射中靶心得满分,射在靶心旁边得 90 分,射到墙上得 0 分。这样 AI 就知道:“哦,原来我离得越近越好”,从而学会更精细地调整视线。

特训效果
经过这套“特训”后,AI 的表现突飞猛进。原本只有 17% 准确率的模型,经过训练后能达到 82% 以上,甚至在某些任务上接近人类水平。

总结:这篇论文告诉我们什么?

  1. AI 并不完美:现在的 AI 虽然很聪明,能聊大天、写文章,但在最基础的视觉感知(像人类婴儿一样敏锐地观察世界)上,还非常脆弱。
  2. 细节决定成败:未来的 AI 要想真正理解世界,不能只懂“大道理”,必须学会“抠细节”。
  3. 方法很重要:通过循序渐进的学习和更人性化的奖励机制,我们可以把 AI 的“视力”训练得更好。

一句话比喻
这篇论文就是给 AI 做了一次眼科检查,发现它们虽然能看懂整本书,却看不清书里一个微小的错别字;然后作者给它们配了一副渐进式眼镜,并教它们如何欣赏细微之美,最终让它们的“视力”得到了显著提升。