Egocentric Bias in Vision-Language Models

该论文提出了名为 FlipSet 的诊断基准,揭示了当前视觉语言模型在二级视觉观点采择任务中存在严重的自我中心偏差,表明尽管模型具备独立的心理理论能力和空间旋转能力,却缺乏将社会意识与空间操作相结合以进行有效整合推理的机制。

Maijunxian Wang, Yijiang Li, Bingyang Wang, Tianwei Zhao, Ran Ji, Qingying Gao, Emmy Liu, Hokin Deng, Dezhi Luo

发布于 2026-02-19
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给现在的 AI 做一场"换位思考"的体检,结果发现它们虽然很聪明,但在“站在别人角度看世界”这件事上,却犯了一个非常幼稚的错误:太以自我为中心了

为了让你轻松理解,我们可以把这篇论文的核心内容拆解成几个有趣的故事和比喻:

1. 核心任务:让 AI 玩“翻转卡片”游戏

想象一下,你面前有一张卡片,上面写着数字"81"。

  • 你的视角(摄像头):你看到的就是"81"。
  • 猴子的视角:一只毛绒猴子坐在卡片的对面,它看着卡片的背面。如果你把卡片旋转 180 度,猴子看到的应该是"18"。

论文提出的挑战(FlipSet):
研究人员给 AI 看这张卡片和猴子的照片,然后问:"猴子看到了什么?"

  • 如果 AI 回答"18",说明它真的“站到了猴子的位置”,在脑海里把卡片转了一圈。
  • 如果 AI 回答"81",说明它根本不在乎猴子,只看到了自己(摄像头)眼前的东西。

2. 测试结果:90% 的 AI 都“自恋”了

研究人员测试了 103 种 不同的先进 AI 模型(包括各种大模型)。结果令人震惊:

  • 表现极差:绝大多数 AI 的得分甚至低于随机猜对的概率(25%)。
  • 自恋偏差(Egocentric Bias):这是最有趣也最可怕的地方。在 AI 犯错的案例中,75% 以上 的情况是它们直接回答了“摄像头看到的画面”(即"81")。
  • 比喻:这就像你让一个朋友帮你从镜子里看背后的字,他却直接指着镜子里的倒影告诉你答案,完全忘了镜子里的像是反的。AI 们似乎无法跳出自己的“眼睛”,它们太依赖自己看到的画面,而忽略了“别人”看到的画面。

3. 深度诊断:AI 到底哪里“卡”住了?

为了搞清楚 AI 为什么这么笨,研究人员设计了三个“控制实验”,把复杂的任务拆成三个简单的步骤,就像检查一个机器是零件坏了,还是组装坏了:

  • 步骤 A:理论心智(ToM)

    • 问题:“猴子看到的字和你看到的一样吗?”
    • 结果:AI 答对了 90%
    • 比喻:AI 很聪明,它知道“哦,猴子在对面,它看到的肯定和我不同”。它懂道理
  • 步骤 B:心理旋转(MR)

    • 问题:“如果我把'81'这个数字在纸上转 180 度,它变成什么?”(不涉及猴子,只涉及图形旋转)。
    • 结果:AI 答对了 26%(刚过及格线一点点)。
    • 比喻:AI 有点笨手笨脚,让它自己在脑子里转个圈,它经常转晕,转错。
  • 步骤 C:真正的换位思考(L2 VPT)

    • 问题:结合 A 和 B,告诉我要猴子看到什么。
    • 结果:AI 答对了 10%(惨不忍睹)。
    • 比喻:这就是组合缺陷。AI 虽然知道“猴子视角不同”(懂道理),也能勉强转一下数字(有点空间感),但当它需要把这两件事结合起来时,系统就崩溃了。它无法把“我知道猴子在看”和“我要把数字转过来”这两个动作串联起来。

4. 为什么 AI 会这样?

论文发现,即使让 AI 像人类一样“一步步思考”(Chain-of-Thought,比如让它先写推理过程),也没用。

  • 比喻:这就像让一个只会背菜谱的厨师去炒菜。菜谱上写着“先放盐,再放糖”(推理步骤),但厨师手里没有锅,也没有火(缺乏真正的空间模拟机制)。他背得再流利,做出来的菜(答案)还是错的。
  • 根本原因:目前的 AI 主要是靠识别图案(Pattern Matching)来工作的。它们看到"81",就记住了"81"这个形状。它们缺乏一种内在的、像人类大脑那样的“空间模拟器”,无法在脑海里真正构建一个虚拟的 3D 空间并去操作它。

5. 总结与启示

这篇论文告诉我们:
现在的 AI 虽然能写诗、能画画、能聊天,但在真正的空间推理换位思考上,它们还停留在一种“婴儿期”的状态(就像皮亚杰心理学中提到的“自我中心”阶段)。

  • 现状:它们知道别人在看(有社交意识),但无法真正模拟别人的视角(缺乏空间操作能力)。
  • 未来:要造出真正聪明的 AI,不能只靠堆砌更多的数据或参数,我们需要给它们装上真正的“空间大脑”,让它们学会在脑海里真正地去“转动”世界,而不仅仅是“看”到世界。

一句话总结
现在的 AI 就像是一个极度自恋的旁观者,它知道你在看它,但它永远无法真正放下自己,去体验你眼中的世界。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →