Can Vision-Language Models See Squares? Text-Recognition Mediates Spatial Reasoning Across Three Model Families

该研究揭示了一个视觉语言模型的根本缺陷:尽管视觉编码器相同,但模型在处理无文本标识的填充方格时空间定位能力会严重退化,而一旦方格被渲染为文本符号,其准确率便显著提升,这表明模型的空间推理高度依赖文本识别通路而非原生视觉感知。

Yuval Levental

发布于 2026-02-24
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文其实是在讲一个有点“反直觉”的真相:现在的顶级人工智能(AI),虽然看起来什么都能看懂,但它们其实非常依赖“文字”来理解空间位置。一旦把东西变成纯粹的图形(比如黑块),它们就瞬间“迷路”了。

为了让你轻松理解,我们可以把这篇论文的研究过程想象成一场**“给 AI 做视力测试”**的趣味实验。

1. 实验背景:给 AI 出两道题

研究者给三个最厉害的 AI 模型(分别是 Claude、ChatGPT 和 Gemini)出了 15 张图。每张图都是一个 15x15 的方格网,就像国际象棋棋盘一样大。

  • 任务:让 AI 把图里哪些格子是“黑”的(填满的),哪些是“白”的(空的),准确地抄写下来。

为了测试 AI 到底靠什么“看”,研究者把同样的内容,用两种完全不同的方式画出来:

  • 方式 A(文字版): 把黑格子画成井号 #,白格子画成点 .
    • AI 看到的:像是一堆由符号组成的 ASCII 艺术画。
  • 方式 B(图形版): 把黑格子画成实心的黑色方块,白格子留白,中间没有线。
    • AI 看到的:就是一堆纯粹的黑色色块,没有任何文字特征。

关键点:这两种图在电脑眼里,都是“图片”,都要经过同一个“眼睛”(视觉编码器)去看。理论上,如果 AI 真的“看懂”了图片,这两种方式应该难不倒它。

2. 实验结果:AI 的“双标”现场

结果非常惊人,就像是一个**“文字依赖症”**患者:

  • 当看到“文字版”(# 和 .)时

    • 三个 AI 表现得像超级学霸。它们能准确认出 90% 以上的格子,几乎完美地抄写下来。
    • 比喻:就像你给它们看一张写满汉字的试卷,它们能轻松把每个字都认出来,位置也记得清清楚楚。
  • 当看到“图形版”(黑方块)时

    • 三个 AI 瞬间**“智商下线”**,成绩暴跌。准确率从 90% 掉到了 60% 多,更关键的“定位能力”(F1 分数)直接腰斩甚至更惨(从 80 多分掉到 30 多分)。
    • 比喻:就像你给它们看一张全是黑色墨点的抽象画,它们突然变成了“路痴”。它们大概知道“哦,这里有一团黑的”,但完全分不清具体是哪几个格子黑了。

3. 为什么会出现这种情况?(核心发现)

论文发现,AI 并不是真的在“看”图片的空间结构,而是在**“读”图片里的文字**。

  • 文字识别通道(OCR 模式)
    当 AI 看到 #. 时,它的大脑里有一个专门的“文字识别通道”被激活了。这个通道非常强大,它能把文字转换成它熟悉的“代码”,从而精准地记住每个字符的位置。

    • 比喻:这就像你给 AI 发了一封带地址的快递(文字),它能精准地把货送到门口。
  • 纯视觉通道(看图模式)
    当 AI 看到纯黑方块时,文字通道没被激活,它只能靠“纯视觉通道”。这个通道目前还很笨,它只能看到“大概有一团黑的”,却记不住具体的坐标。

    • 比喻:这就像你给 AI 发了一团没有地址的墨汁,它只能闻出“这里有墨水”,但不知道墨水具体滴在桌子的哪个角落。

4. 有趣的“中间地带”实验

研究者还做了个更有趣的实验,看看能不能“骗”过 AI:

  • 实验 1:在黑色方块里写上"1"和"0"
    • 结果:Claude 和 Gemini 瞬间“复活”,成绩变好了!因为它们又看到了文字,文字通道再次激活。
    • 但 ChatGPT 却更傻了:它看到方块里还有字,反而 confused 了,成绩更差。这说明不同 AI 的“大脑构造”不一样,有的喜欢文字辅助,有的会被文字干扰。
  • 实验 2:用特殊的方块符号(□■)
    • 结果:成绩介于两者之间。因为这些符号虽然是文字,但 AI 平时见得少(训练数据里少),所以识别起来有点吃力。

5. 每个 AI 的“翻车”姿势都不一样

虽然大家都考砸了,但“翻车”的方式很有趣:

  • Claude“数数太少”。它总是漏数,觉得黑块没那么多,或者把黑块的位置记偏了。
  • ChatGPT“疯狂脑补”。它觉得黑块太多了,甚至把本来没有黑块的地方也画上了黑块,把图案画得比原图还大。
  • Gemini“套模板”。当图太复杂时,它直接放弃思考,开始背诵它学过的几何图案(比如画个十字、画个 L 型),完全不管原图长啥样。

6. 这篇论文告诉我们什么?(大白话总结)

  1. AI 的“空间感”是假的:目前的 AI 并不是真的像人类一样拥有强大的空间想象力。它们的空间推理能力,很大程度上是伪装成文字识别的。
  2. 文字是拐杖:只要图里有文字(哪怕是符号),AI 就能走得很稳;一旦把文字拿走,只留图形,AI 就摔跟头了。
  3. 未来的挑战:如果我们想让 AI 真正看懂医学影像(如 X 光片里的肿瘤)、自动驾驶(识别路障)或者科学图表,光靠现在的技术是不够的。我们需要教 AI 在没有文字辅助的情况下,也能精准地“看”懂空间位置。

一句话总结
现在的 AI 就像是一个**“识字但路痴”**的学生,只要题目里有字,它就能做对;一旦题目变成了纯图形,它就彻底晕头转向了。这篇论文就是给这些“优等生”敲响了警钟:别太依赖文字拐杖,你们得学会真正用眼睛看路!

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →