Children's Intelligence Tests Pose Challenges for MLLMs? KidGym: A 2D Grid-Based Reasoning Benchmark for MLLMs

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 KIDGYM（儿童健身房）的新项目，它的目的是给现在的“超级 AI 大脑”（多模态大语言模型，MLLMs）做一次儿童智力测试。

想象一下，现在的 AI 就像是一个读过全世界所有书、看过所有电影的“超级学霸”，但它们真的像人类一样聪明吗？它们能像孩子一样学习新规则、记住东西、规划未来吗？

为了回答这个问题，上海科技大学的研究团队设计了一个2D 网格游戏世界，就像是一个数字版的“儿童游乐场”。在这个游乐场里，AI 需要完成 12 种不同的挑战，就像小朋友做智力题一样。

传统的 AI 测试通常问：“这张图里有什么？”或者“请写一首诗”。但这只能测出 AI 的“记忆力”和“语言库”。

KIDGYM 借鉴了著名的韦氏儿童智力量表（Wechsler Intelligence Scales），把智能拆解成五个核心能力，就像给 AI 做体检：

执行力 (Execution)：就像孩子听到“把苹果放进红篮子”的指令后，能准确把手伸过去拿苹果并放进去。AI 能不能把想法变成正确的动作？
感知推理 (Perception Reasoning)：就像孩子看拼图，能看出缺了一块，并且知道哪块能补上。AI 能不能看懂图片里的逻辑，而不仅仅是认出物体？
记忆力 (Memory)：就像玩“找不同”或“藏猫猫”，孩子需要记住刚才看到的东西。AI 能不能在复杂的游戏中记住刚才拿到的钥匙或藏起来的钻石？
学习能力 (Learning)：就像老师突然说：“今天规则变了，重的东西跑得快！”孩子能不能立刻忘掉旧知识，接受新规则？AI 能不能在没见过的规则下快速适应？
规划能力 (Planning)：就像下棋或走迷宫，孩子需要想好几步：“先拿钥匙，再开门，最后拿宝藏”。AI 能不能规划出一系列步骤来达成目标？

这个“游乐场”是一个 2D 的格子地图，AI 扮演一个小人，背着一个背包，旁边有一个提示栏。

研究人员测试了目前最顶尖的 AI（包括 OpenAI 的 o3、GPT-5，Google 的 Gemini 等）和开源模型。结果非常有趣，就像看到了一个“偏科”的优等生：

简单的任务是“小菜一碟”：
在简单的分类（把水果放进篮子）或记忆（记住刚才看到的玩具）任务上，顶尖的闭源模型（如 o3, GPT-5）几乎能拿满分，表现得像天才儿童。
遇到“抽象”和“数量”就抓瞎：
- 抽象推理：如果让 AI 拼一个没有具体含义的抽象图形（比如一堆乱糟糟的方块），它的表现突然变差，甚至不如随机猜。这说明 AI 很擅长处理“有名字”的东西（如苹果、汽车），但不擅长处理纯粹的“形状逻辑”。
- 数数困难：让 AI 数清楚图里有几个苹果，它经常数错。人类看一眼就知道是 3 个，但 AI 经常把 3 个苹果看成 1 个大团块。这说明 AI 对“数量”的感知很弱。
复合任务是“噩梦”：
当任务需要同时动用多种能力时（比如：先记住钻石在哪，再根据新规则找钥匙，最后规划路线去拿），AI 的成功率断崖式下跌。就像让一个学生一边做数学题，一边背古诗，还要一边跑步，它的大脑就“死机”了。
开源 vs 闭源：
闭源的大模型（如 GPT-5）表现明显优于开源模型。而且，模型越大，表现越好，但即便如此，它们离人类（尤其是人类小孩）在复杂任务上的表现还有很大差距。

这篇论文告诉我们：现在的 AI 虽然很强大，但它们更像是一个“博学的图书管理员”，而不是一个“灵活的小学生”。

KIDGYM 的意义：
它不仅仅是一个测试，更是一个训练场。它告诉未来的 AI 开发者：要想让 AI 真正像人类一样聪明，不能只让它多读点书（增加数据），还要让它学会像孩子一样去观察、记忆、规划和适应新规则。

这就好比，我们以前只教 AI 认字，现在 KIDGYM 告诉我们：该教 AI 怎么“玩”了，因为只有会玩的孩子，才拥有真正的智慧。

类似论文