OrdinalBench: A Benchmark Dataset for Diagnosing Generalization Limits in Ordinal Number Understanding of Vision-Language Models

本文提出了名为 OrdinalBench 的基准数据集,旨在通过标准化的 N 阶物体识别任务及包含 3.9 万条带推理轨迹的数据,系统评估并诊断视觉语言模型在理解序数(特别是大数值和复杂路径场景)时的泛化能力局限。

Yusuke Tozaki, Hisashi Miyamori

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 ORDINALBENCH 的新工具,它就像是一个专门用来“体检”人工智能(特别是视觉语言模型,VLM)的超级数学迷宫

为了让你更容易理解,我们可以把现在的 AI 想象成一个超级聪明的“看图说话”学生。这个学生在识别物体(比如“这是一只猫”、“那是一辆车”)方面已经非常厉害了,甚至能写诗、画画。但是,当老师让他做一件需要按顺序数数走迷宫的复杂任务时,他经常犯迷糊。

1. 这个“体检”是测什么的?

想象一下,老师给 AI 看一张图,上面有一排排整齐排列的物体(比如 300 个不同颜色的方块),并给出一个指令:

“从标号为'O23'的方块开始,顺时针方向走,跳过每 3 个方块数一次,告诉我第 260 个被数到的方块是谁?”

这就叫序数理解(Ordinal Number Understanding)。

  • 普通任务:数数一共有多少个方块(这是“基数”,AI 通常还行)。
  • ORDINALBENCH 任务:不仅要数,还要记住从哪里开始、记住走的方向、记住跳着数的规则,并且要在脑子里一步步更新“我现在数到第几个了”。

2. 这个“体检”有多难?(三个难度关卡)

研究人员设计了这个测试,就像游戏里的关卡一样,难度层层递进:

  • 关卡一:简单的圆圈(Single-Loop)
    就像在操场上绕圈跑。只要跟着转圈数就行。
  • 关卡二:复杂的迷宫(Maze-Loop)
    就像在一个没有死胡同的复杂迷宫里走。AI 必须时刻记住“前面堵了要右转,再堵了要左转”,不能走丢。
  • 关卡三:数字大爆炸(Large Ordinal)
    以前 AI 可能只数过 10 以内的数,现在要它数到300,甚至更多。这就像让一个只背过乘法口诀表前几行的人,突然去算 300 以内的连续加法。

此外,还有一个**“跳着数”**的设定(Skip Counting):比如“每走 3 步才算 1 个数”。这要求 AI 不仅要走路,还要在脑子里做“计数器”的算法,这对很多 AI 来说简直是“大脑过载”。

3. 测试结果:AI 的“阿喀琉斯之踵”

研究人员让目前世界上最先进的几个 AI(比如 GPT-5、Gemini、Qwen 等)来挑战这个测试,结果发现了一个惊人的现象:

  • 简单题还行:在简单的圆圈里数几个数,AI 表现不错。
  • 一难就崩:一旦进入迷宫,或者数字变大(比如数到 200 以上),或者要求“跳着数”,AI 的准确率就断崖式下跌,甚至跌到和瞎猜差不多水平。
  • 过程全错:最有趣的是,研究人员不仅看答案对不对,还看 AI 的思考过程(就像看学生的草稿纸)。发现很多 AI 虽然最后蒙对了答案,但中间的“思考步骤”全是乱的;或者它根本坚持不到最后,数到一半就“断片”了,忘记了刚才数到哪儿。

4. 为什么会这样?(AI 的“大脑”缺陷)

论文认为,现在的 AI 就像是一个记忆力很好的“复读机”,而不是一个逻辑严密的“执行者”

  • 语言瓶颈:AI 习惯把看到的图变成文字描述。但在复杂的迷宫里,文字描述很容易丢失细节(比如“刚才那个路口往右拐”),导致它走着走着就忘了自己在哪。
  • 缺乏“程序感”:AI 很擅长“是什么”(这是苹果),但不擅长“怎么做”(按这个规则走 300 步)。它没有真正学会如何一步步地、稳定地更新自己的状态。

5. 这个研究有什么用?

这就好比医生给 AI 做了一次核磁共振,精准地找到了它的病灶:

  • 不是它认不出物体。
  • 而是它不擅长按规则一步步执行复杂任务

这个测试(ORDINALBENCH)就像是一个标尺,告诉未来的 AI 开发者:“别光盯着让 AI 认图更准了,你们得教它怎么像人一样,在脑子里稳稳地走迷宫、数数、做计划。”

总结一下:
这篇论文告诉我们,现在的 AI 虽然看起来无所不知,但在面对需要长时间专注、按规则一步步执行的任务时,其实非常脆弱。ORDINALBENCH 就是那个专门用来戳破这层窗户纸,逼迫 AI 进化出真正“逻辑推理”能力的工具。