Traces of Social Competence in Large Language Models

该研究通过测试 17 个开源大语言模型在 192 个错误信念测试变体上的表现,揭示了模型规模与后训练对社会认知能力的影响,发现命题态度显式化会引发响应模式的交叉效应,且该效应在预训练阶段即已出现,最终通过向量干预证实了“思考”向量是驱动此类社会推理行为的关键因果因素。

Tom Kouwenhoven, Michiel van der Meer, Max van Duijn

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一次对大型语言模型(LLM)的“心理体检”,专门测试它们是否真的拥有**“读心术”**(心理学上称为“心理理论”,Theory of Mind)。

简单来说,研究人员想知道:AI 是真的能理解“别人可能不知道我知道的事情”,还是仅仅在死记硬背和玩文字游戏?

为了让你轻松理解,我们可以把这篇论文的核心内容想象成一场针对 AI 的“侦探考试”

1. 考试题目:经典的“藏巧克力”游戏

想象一下,有个叫 Maxi 的小男孩把巧克力藏在蓝色柜子里,然后出门了。这时候,妈妈把巧克力偷偷移到了绿色柜子里。

  • 问题: 当 Maxi 回来时,他会去哪里找巧克力?
  • 正确答案: 蓝色柜子(因为 Maxi 不知道妈妈动了它,他以为还在老地方)。
  • 错误答案: 绿色柜子(这是现在的真相,但不是 Maxi 的“信念”)。

这就是著名的**“错误信念测试”(False Belief Test)**。人类小孩通常在 4-5 岁能通过这个测试,说明他们开始明白“别人的想法可能和现实不一样”。

2. 发现:AI 是个“偏科”的天才

研究人员让 17 种不同的 AI 模型做了 192 道变体题目。结果发现了一些有趣(甚至有点诡异)的现象:

  • 模型越大,越容易“走火入魔”:
    通常我们认为模型越大越聪明。确实,模型越大,在“错误信念”(别人不知道真相)的题目上得分越高。但是!它们在“正确信念”(大家都知道真相)的题目上,反而变笨了

    • 比喻: 就像一个大厨,如果你让他做一道复杂的“假菜”(别人以为菜在 A 处,其实不在),他做得很好;但如果你让他做一道简单的“真菜”(菜就在 A 处),他反而因为想太多而把菜做糊了。
  • 一个词就能让 AI“翻车”:
    题目里如果直接说"Maxi认为(thinks)巧克力在...",AI 就特别容易答对“错误信念”题,但答错“正确信念”题。
    如果题目改成"Maxi去拿(goes to get)巧克力...",AI 的表现就完全反过来。

    • 比喻: 这就像 AI 被训练成了一种“叛逆少年”。只要看到“认为(think)”这个词,它就下意识地觉得“肯定有人搞错了”,于是拼命往反方向猜。它不是在推理,而是在玩文字接龙

3. 深入调查:AI 的“大脑”里发生了什么?

为了搞清楚 AI 到底是怎么想的,研究人员做了两件事:

  • 观察成长过程(OLMo 2 模型):
    他们看着一个 AI 从“婴儿”(预训练初期)长成“成人”(训练后期)。

    • 发现: AI 先学会了“语法”(比如怎么造句),这很快。但学会“理解别人的想法”要慢得多,而且很不稳定。
    • 结论: 仅仅给 AI 喂更多的数据(像喂孩子吃更多饭),并不保证它会自动学会“读心术”。它可能只是学会了刻板印象:看到“认为”就猜“错的”,看到“去拿”就猜“对的”。
  • 给 AI 做“脑部手术”(向量微调):
    研究人员发现,AI 的神经网络里有一个特定的区域,专门负责处理“认为(think)”这个词。

    • 实验: 他们强行把这个区域的信号“拔高”或“压低”。
    • 结果: 只要稍微调整这个信号,AI 的回答就会立刻改变。
    • 比喻: 这就像发现 AI 的脑子里有一个“叛逆开关”。只要拨动这个开关,AI 就会从“老实人”变成“捣蛋鬼”,完全不管事实是什么,只根据那个词来反应。

4. 最终结论:AI 真的懂“人心”吗?

这篇论文告诉我们一个有点扎心的真相:

目前的 AI 在“读心术”测试中表现不错,并不是因为它们真的拥有了像人类一样的社交智慧或同理心

相反,它们更像是一个极其敏锐的“文字侦探”

  1. 它们记住了大量人类对话中的刻板模式(比如:提到“认为”通常意味着有人搞错了)。
  2. 它们利用这些模式来猜答案,而不是真正去模拟另一个人的心理状态。
  3. 当题目稍微变一下(比如把“认为”改成“去拿”),或者场景变得复杂时,它们的“读心术”就失效了。

一句话总结:
现在的 AI 就像是一个背熟了所有侦探小说台词的演员。如果你按剧本念词,它演得惟妙惟肖;但如果你突然改词,或者问它“角色此刻真实的感受是什么”,它就会露馅,因为它并没有真正“理解”角色,只是在模仿人类说话的样子。

这篇论文提醒我们,在评价 AI 是否拥有“社会智能”时,不能只看它做对了几道题,而要警惕它是否只是在玩文字游戏