Causality \neq Invariance: Function and Concept Vectors in LLMs

该论文指出大语言模型中的函数向量(FVs)虽能驱动任务表现但缺乏跨输入格式的不变性,而通过表征相似性分析筛选出的概念向量(CVs)则能更稳定地编码抽象概念并具备更好的跨分布泛化能力,表明模型中存在抽象概念表示,但其机制与驱动上下文学习性能的向量不同。

Gustaw Opiełka, Hannes Rosenbusch, Claire E. Stevenson

发布于 2026-02-27
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个非常有趣的问题:大型语言模型(LLM)到底是怎么“思考”的?它们真的像人类一样,拥有抽象的、不受表面形式影响的“概念”吗?

为了让你轻松理解,我们可以把大模型想象成一个超级繁忙的翻译兼推理工厂。这篇论文发现,这个工厂里其实有两套完全不同的“工作团队”,它们虽然都在处理同一个任务,但干活的方式和目的截然不同。

🎭 核心比喻:两套不同的“特工团队”

想象一下,工厂里有两个特工团队,分别叫 “执行特工队” (Function Vectors, FVs)“概念观察员” (Concept Vectors, CVs)

1. 执行特工队 (FVs):死板的“格式控”

  • 他们是谁? 他们是那些真正决定模型输出结果的人。如果你问模型一个问题,是他们在幕后推手,让模型给出答案。
  • 他们的特点: 他们非常依赖**“怎么问”**(输入格式)。
    • 如果你用开放式提问(比如:“请写出‘大’的反义词”),他们有一套特定的工作模式。
    • 如果你用选择题提问(比如:"‘大’的反义词是:A.小 B.聪明”),他们会立刻换一套完全不同的工作模式。
    • 甚至如果你把问题从英语换成法语,他们的“大脑”也会彻底重组。
  • 比喻: 就像一群只认死理的翻译官。如果你用中文问他们,他们就穿中式长袍思考;如果你用英文问,他们就穿西装思考。虽然他们都在翻译“大”的反义词,但穿长袍的翻译官和穿西装的翻译官,脑子里想的完全是两回事,甚至互不相识(论文说他们的向量几乎是“正交”的,也就是完全垂直、不相关)。
  • 缺点: 他们很擅长在熟悉的环境下(比如都是英语、都是开放式问题)表现完美,但一旦换个环境(比如从英语变成法语,或者从填空变成选择题),他们就容易“水土不服”,甚至把格式特征(比如选择题的括号)也当成答案的一部分输出来。

2. 概念观察员 (CVs):灵活的“抽象大师”

  • 他们是谁? 他们是那些真正理解“概念”本质的人。他们不直接决定输出,但他们脑子里存储着纯粹的“反义词”、“类别”或“因果关系”的抽象逻辑。
  • 他们的特点: 他们无视表面形式
    • 不管你是用英语、法语,还是用选择题、填空题,他们脑子里的“反义词”概念都是一样的。
    • 他们就像一群精通多国语言且深谙逻辑的哲学家。无论用什么语言、什么格式提问,他们理解的“大”和“小”的对立关系是永恒不变的。
  • 缺点: 虽然他们懂道理,但他们不太能直接指挥模型输出。在模型已经准备好回答时,他们能微调一下方向;但如果模型完全没头绪(比如从零开始),他们很难强行启动模型。
  • 比喻: 就像工厂里的总设计师。不管工人是用锤子还是用螺丝刀(输入格式),总设计师脑子里的“房子”图纸(概念)永远是那个样子。

🔍 论文发现了什么惊天大秘密?

以前,科学家以为模型里只有一套“执行特工队”(FVs),认为只要找到了这套向量,就找到了模型理解概念的核心。

但这篇论文说:错啦!你们找错人了。

  1. 因果 ≠ 不变性 (Causality ≠ Invariance):

    • FVs(执行特工)因果的:动了他们,模型的回答就变了。但他们不抽象,他们被输入格式“污染”了。
    • CVs(概念观察员)抽象的:他们真正代表了“反义词”这个概念,不受格式影响。但他们不直接因果,他们更像是背景里的“真理”,不直接推手输出。
  2. 他们甚至不是同一拨人:

    • 研究发现,负责“执行”的神经元(注意力头)和负责“理解概念”的神经元,几乎完全不重叠。就像工厂里,负责按按钮的工人和负责画图纸的工程师,虽然都在同一个车间,但完全不是同一群人。
  3. 谁更厉害?

    • 在熟悉的环境里(同语言、同格式): FVs 更猛,能直接让模型给出正确答案。
    • 在陌生的环境里(换语言、换格式): FVs 会晕头转向,甚至输出乱码或格式错误;而 CVs 依然能保持清醒,虽然它们不能直接让模型“爆改”答案,但它们能确保模型输出的方向是符合逻辑的,不会跑偏。

🚀 这对我们意味着什么?

  • 对于 AI 开发者: 如果你想让模型在特定任务上表现完美(比如只处理英语选择题),用 FVs 来“微调”或“引导”效果最好。但如果你想让模型真正理解逻辑,或者在跨语言、跨格式时保持稳健,你需要关注 CVs。
  • 对于理解人类智能: 人类的大脑可能也是分层的。我们既有那种“看到选择题就自动选 A/B/C"的直觉反应(类似 FVs),也有那种“无论怎么问,‘大’和‘小’总是对立”的抽象逻辑(类似 CVs)。这篇论文告诉我们,AI 目前可能更擅长前者,而后者虽然存在,但还没被完全利用起来。

📝 一句话总结

这篇论文告诉我们:大模型里确实有“抽象概念”,但它们和“决定答案的机制”是两码事。 就像你脑子里有“苹果”这个概念(不管它是红的还是绿的,是画出来的还是写出来的),但当你真的去拿苹果时,你的手会根据苹果是放在盘子里还是篮子里,采取完全不同的动作。

FVs 是那只会根据容器改变动作的手,而 CVs 是那个永远记得“这是苹果”的大脑。 以前我们以为手就是大脑,现在我们知道,它们其实是两个不同的系统。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →