When word order matters: human brains represent sentence meaning differently from large language models

该研究利用 7T fMRI 数据发现,尽管基于 Transformer 的大语言模型在捕捉句意方面优于完全忽略词序的模型,但其表现仍远逊于人类大脑及显式编码句法结构的模型,表明 Transformer 并未以类似人类的方式表征句子意义,且句法结构在脑内句意表征中起着关键作用。

原作者: Fodor, J., Murawski, C., Suzuki, S.

发布于 2026-03-18
📖 1 分钟阅读☕ 轻松阅读
⚕️

这是一篇未经同行评审的预印本的AI生成解释。这不是医疗建议。请勿根据此内容做出健康决定。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一场**“大脑与超级 AI 的阅读理解大比拼”**。

研究人员想知道:当人类大脑阅读句子时,它是怎么理解意思的?现在的超级人工智能(比如 GPT-4 这种基于 Transformer 架构的大语言模型)是不是也像人类一样思考?

为了找到答案,他们设计了一个非常巧妙的实验,结果发现:虽然 AI 很聪明,但在理解句子的“结构”和“逻辑”上,它和人类大脑的运作方式其实大相径庭。

下面我用几个简单的比喻来拆解这项研究:

1. 实验设计:给大脑和 AI 出“找茬”题

通常,我们测试 AI 和大脑,是让它们读很多自然的文章。但这有个问题:如果两句话意思不同,可能是因为用的词不同,也可能是因为词序不同。这就很难分清大脑到底是在意“词”还是在意“结构”。

为了解决这个问题,研究人员像**“乐高大师”**一样,精心设计了 108 个句子。

  • 核心 trick: 他们让很多句子包含完全相同的单词,只是交换了位置
    • 例子: “摄影师把设备给了导演”vs“导演把摄影师给了设备”。
    • 这两句话用的词一模一样,但意思完全相反(甚至荒谬)。

这就好比给大脑和 AI 出了一道**“找不同”**的题:如果你们真的懂意思,就应该知道这两句话虽然词一样,但意思天差地别;如果你们只认词,就会觉得这两句话差不多。

2. 参赛选手:谁在代表“理解力”?

研究团队找了四位“选手”来和人类大脑(通过 fMRI 脑扫描测量)做对比:

  1. “单词平均机” (Mean Model): 就像把句子里所有单词的字典意思倒进搅拌机,搅成一团糊糊。它完全不管词序,只认词。
  2. “超级 AI 模型” (Transformers): 也就是 GPT-4 这类大模型。它们很厉害,能根据上下文猜词,但它们是“黑盒”,我们不知道它们内部到底怎么处理的。
  3. “逻辑绘图师” (Graph Models): 这种模型像画地图一样,把句子里谁对谁做了什么(比如“谁”是动作发出者,“谁”是承受者)画成一张结构图。
  4. “混合专家” (Hybrid Model): 结合了单词和结构图的优点,专门关注“语义角色”(比如谁干了什么)。

3. 比赛结果:AI 赢了“词汇”,输了“结构”

研究人员让 30 个人在核磁共振机器里读这些句子,同时记录大脑活动,然后看看哪种模型的大脑活动模式最像人类。

  • 当句子词不一样时: 所有的模型(包括 AI)都能猜对,因为它们都认识这些词。
  • 当句子词一样、只是顺序变了(关键测试)时:
    • “单词平均机”: 彻底懵了。它觉得这两句话意思一样,结果和大脑的反应完全相反(负相关)。
    • “超级 AI 模型”: 比“单词平均机”好一点点,但它依然没能像人类那样敏锐地察觉到顺序变了。它还是觉得这两句话挺像的。
    • “逻辑绘图师”和“混合专家”: 这两个模型表现最好!它们能清晰地分辨出“导演给设备”和“摄影师给设备”的区别,它们的大脑活动模式最像人类

结论就是: 人类大脑在理解句子时,非常依赖**“谁对谁做了什么”的结构关系**。而目前的顶级 AI(Transformer),虽然能写出通顺的文章,但在内部表示上,并没有像人类大脑那样,把“结构”看得那么重。

4. 一个有趣的发现:大脑也会“偷懒”

研究还发现了一个奇怪的现象:如果句子特别长,不管内容是什么,大脑的反应模式都变得很相似。

  • 比喻: 就像你读一本很厚的书,读到最后,你的大脑可能因为太累了或者太专注了,反而不再精细地分析每个字,而是进入了一种“处理长文本”的通用模式。这就像大脑在处理长句子时,会有一种“长句效应”,不管内容多不同,大脑的“疲劳模式”看起来都差不多。

5. 这对我们意味着什么?

  • AI 还没完全“像人”: 虽然 AI 能写出像人的话,也能回答问题,但它们理解世界的方式(特别是通过词序构建意义的方式)和人类大脑有本质区别。AI 可能更像是一个极其强大的“统计学家”,而人类大脑更像是一个“结构工程师”。
  • 未来的方向: 要制造真正像人类一样思考的 AI,可能不能只靠堆数据(像 Transformer 那样),还需要引入更明确的“结构”和“逻辑”规则(像 Graph 模型那样)。

一句话总结:
这篇论文告诉我们,“词序”在人类大脑中至关重要。虽然现在的 AI 很强大,但它们还没学会像人类一样,通过精细的“结构逻辑”来理解句子,它们更多还是依赖“词汇统计”来猜意思。人类的大脑,依然是那个最懂“言外之意”和“逻辑结构”的超级计算机。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →