On the Out-of-Distribution Generalization of Reasoning in Multimodal LLMs for Simple Visual Planning Tasks

该论文提出了一种评估框架,系统研究了多模态大模型在简单视觉规划任务中的推理泛化能力,发现尽管思维链(CoT)能提升分布内表现,但其在分布外(如更大地图)的泛化能力普遍有限,且纯文本模型的表现优于包含图像输入或潜在空间推理的模型,而结合多种文本格式的推理轨迹则能带来最显著的分布外泛化效果。

Yannic Neuhaus, Nicolas Flammarion, Matthias Hein, Francesco Croce

发布于 2026-02-18
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给现在的“超级大脑”(多模态大语言模型)做一场严格的“野外生存考试”

研究人员想知道:这些 AI 是真的学会了“怎么思考”和“怎么规划”,还是仅仅在死记硬背训练时的题目?

为了搞清楚这一点,他们设计了一个非常简单的游戏,并给 AI 出了几道“超纲题”。

🎮 游戏背景:冰冻湖面大冒险

想象一下,你被困在一个冰湖迷宫里。

  • 你的目标:从起点走到宝藏。
  • 你的挑战:冰面上有些洞(陷阱),掉进去就输了。
  • 任务:AI 需要一步步告诉玩家:“先向上走,再向右走……"直到拿到宝藏。

这听起来很简单,就像教小孩走路一样。但论文发现,即使是现在最聪明的 AI,如果没经过专门训练,连这种简单的迷宫都走不通。

🔍 核心实验:是“真懂”还是“背题”?

研究人员把 AI 分成几组,让它们用不同的方式“思考”(也就是论文里说的 CoT,思维链):

  1. 死记硬背组:直接告诉答案,不解释过程。
  2. 纯文字组:用文字描述每一步的想法(例如:“前面有洞,所以我要往右走”)。
  3. 纯图片组:像人类一样,看着地图图片一步步推理。
  4. 混合组(大赢家):既用文字解释,又用网格图(像 Excel 表格一样)把每一步走后的地图画出来。

🏆 考试结果:当题目变难时(OOD 测试)

研究人员先让 AI 在小地图(比如 3x3 或 6x6 格)上练习。然后,突然给它们一张超大地图(比如 10x10 格),或者把起点和终点拉得非常远。

  • 普通 AI(死记硬背或纯图片)
    一旦地图变大,它们就彻底懵了。就像背熟了“从家走到超市”的路线,突然让你走“从家走到隔壁城市”,它们就不知道该怎么办了。它们并没有学会“找路”的逻辑,只是在匹配见过的图案

  • 纯文字 AI
    稍微好一点点,但在面对大地图时,准确率也跌到了谷底。

  • 混合组 AI(文字 + 网格图)
    这是本次考试的冠军! 即使地图变得很大,或者起点终点很远,它们依然能保持不错的准确率。

    • 为什么? 因为它们学会了“边想边画”。
    • 比喻:就像你在解数学题时,不仅在心里想步骤,还在草稿纸上把每一步的算式写下来。这种“可视化”的推理过程,帮它们在大脑中构建了更清晰的地图,而不是靠死记硬背。

💡 几个有趣的发现(打破常识)

  1. 图片并不总是最好的
    我们通常觉得 AI 看图片应该比看文字强。但在这项任务里,纯文字 + 网格图的表现竟然吊打纯图片

    • 比喻:这就好比让你指路,给你看一张模糊的卫星图(图片),不如给你一张画得清清楚楚的地铁线路图(网格文字)来得管用。目前的 AI 在处理图片推理时,可能还没那么“灵光”。
  2. 真正的“举一反三”很难
    大多数 AI 在面对稍微变一点的题目(比如地图变大)时,表现就会断崖式下跌。这说明它们目前更多是在玩“找茬”游戏(模式匹配),而不是真正学会了**“规划算法”**。

  3. 格式决定命运
    怎么让 AI 思考,比让 AI 思考什么更重要。如果让 AI 用“文字描述 + 网格图”这种格式来一步步推理,它就能学会真正的逻辑,从而解决没见过的难题。

🚀 总结与启示

这篇论文告诉我们:
现在的 AI 虽然很聪明,但在**处理新情况(泛化能力)**上还很脆弱。它们往往是在“背答案”,而不是“学方法”。

但是,如果我们教它们用正确的方式思考(比如:一边用文字解释,一边用结构化的图表更新状态),它们就能真正学会“举一反三”,解决更复杂、更陌生的问题。

一句话总结
想教 AI 学会真正的“规划”,别光给它看图片,要教它**“边想边画”**,这样它才能从“死记硬背的优等生”变成“真正会解题的聪明人”。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →