Children's Intelligence Tests Pose Challenges for MLLMs? KidGym: A 2D Grid-Based Reasoning Benchmark for MLLMs

本文受韦氏儿童智力量表启发,提出了 KidGym 基准,通过 12 个基于 2D 网格的可定制任务,从执行、感知推理、学习、记忆和规划五个维度全面评估多模态大语言模型的认知能力与局限性。

Hengwei Ye, Yuanting Guan, Yuxuan Ge, Tianying Zhu, Zhenhan Guan, Yijia Zhong, Yijing Zhang, Han Zhang, Yingna Wu, Zheng Tian

发布于 2026-03-24
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 KIDGYM(儿童健身房)的新项目,它的目的是给现在的“超级 AI 大脑”(多模态大语言模型,MLLMs)做一次儿童智力测试

想象一下,现在的 AI 就像是一个读过全世界所有书、看过所有电影的“超级学霸”,但它们真的像人类一样聪明吗?它们能像孩子一样学习新规则、记住东西、规划未来吗?

为了回答这个问题,上海科技大学的研究团队设计了一个2D 网格游戏世界,就像是一个数字版的“儿童游乐场”。在这个游乐场里,AI 需要完成 12 种不同的挑战,就像小朋友做智力题一样。

🧠 核心概念:把 AI 当成“孩子”来测试

传统的 AI 测试通常问:“这张图里有什么?”或者“请写一首诗”。但这只能测出 AI 的“记忆力”和“语言库”。

KIDGYM 借鉴了著名的韦氏儿童智力量表(Wechsler Intelligence Scales),把智能拆解成五个核心能力,就像给 AI 做体检:

  1. 执行力 (Execution):就像孩子听到“把苹果放进红篮子”的指令后,能准确把手伸过去拿苹果并放进去。AI 能不能把想法变成正确的动作?
  2. 感知推理 (Perception Reasoning):就像孩子看拼图,能看出缺了一块,并且知道哪块能补上。AI 能不能看懂图片里的逻辑,而不仅仅是认出物体?
  3. 记忆力 (Memory):就像玩“找不同”或“藏猫猫”,孩子需要记住刚才看到的东西。AI 能不能在复杂的游戏中记住刚才拿到的钥匙或藏起来的钻石?
  4. 学习能力 (Learning):就像老师突然说:“今天规则变了,重的东西跑得快!”孩子能不能立刻忘掉旧知识,接受新规则?AI 能不能在没见过的规则下快速适应?
  5. 规划能力 (Planning):就像下棋或走迷宫,孩子需要想好几步:“先拿钥匙,再开门,最后拿宝藏”。AI 能不能规划出一系列步骤来达成目标?

🎮 游戏怎么玩?(KIDGYM 的机制)

这个“游乐场”是一个 2D 的格子地图,AI 扮演一个小人,背着一个背包,旁边有一个提示栏

  • 随机性:每次游戏,物品的摆放、迷宫的路线都是随机生成的。这就像每次去游乐场,滑梯的位置都不一样,防止 AI 靠“死记硬背”通关。
  • 难度分级:每个任务都有简单、中等、困难三个等级(L1, L2, L3)。
  • 背包与提示:AI 可以把东西装进背包(A, B, C, D 四个格子),提示栏会给出规则或线索。

🏆 测试结果:AI 的“成绩单”

研究人员测试了目前最顶尖的 AI(包括 OpenAI 的 o3、GPT-5,Google 的 Gemini 等)和开源模型。结果非常有趣,就像看到了一个“偏科”的优等生:

  1. 简单的任务是“小菜一碟”
    在简单的分类(把水果放进篮子)或记忆(记住刚才看到的玩具)任务上,顶尖的闭源模型(如 o3, GPT-5)几乎能拿满分,表现得像天才儿童。

  2. 遇到“抽象”和“数量”就抓瞎

    • 抽象推理:如果让 AI 拼一个没有具体含义的抽象图形(比如一堆乱糟糟的方块),它的表现突然变差,甚至不如随机猜。这说明 AI 很擅长处理“有名字”的东西(如苹果、汽车),但不擅长处理纯粹的“形状逻辑”。
    • 数数困难:让 AI 数清楚图里有几个苹果,它经常数错。人类看一眼就知道是 3 个,但 AI 经常把 3 个苹果看成 1 个大团块。这说明 AI 对“数量”的感知很弱。
  3. 复合任务是“噩梦”
    当任务需要同时动用多种能力时(比如:先记住钻石在哪,再根据新规则找钥匙,最后规划路线去拿),AI 的成功率断崖式下跌。就像让一个学生一边做数学题,一边背古诗,还要一边跑步,它的大脑就“死机”了。

  4. 开源 vs 闭源
    闭源的大模型(如 GPT-5)表现明显优于开源模型。而且,模型越大,表现越好,但即便如此,它们离人类(尤其是人类小孩)在复杂任务上的表现还有很大差距。

💡 总结与启示

这篇论文告诉我们:现在的 AI 虽然很强大,但它们更像是一个“博学的图书管理员”,而不是一个“灵活的小学生”。

  • 它们能背诵百科全书,但缺乏真正的常识和逻辑推理
  • 它们能处理复杂的语言,但看不懂简单的视觉数量关系
  • 它们擅长单点突破,但不擅长多任务并行的复杂规划

KIDGYM 的意义
它不仅仅是一个测试,更是一个训练场。它告诉未来的 AI 开发者:要想让 AI 真正像人类一样聪明,不能只让它多读点书(增加数据),还要让它学会像孩子一样去观察、记忆、规划和适应新规则

这就好比,我们以前只教 AI 认字,现在 KIDGYM 告诉我们:该教 AI 怎么“玩”了,因为只有会玩的孩子,才拥有真正的智慧。