Causality $\neq$ Invariance: Function and Concept Vectors in LLMs

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个非常有趣的问题：大型语言模型（LLM）到底是怎么“思考”的？它们真的像人类一样，拥有抽象的、不受表面形式影响的“概念”吗？

为了让你轻松理解，我们可以把大模型想象成一个超级繁忙的翻译兼推理工厂。这篇论文发现，这个工厂里其实有两套完全不同的“工作团队”，它们虽然都在处理同一个任务，但干活的方式和目的截然不同。

🎭 核心比喻：两套不同的“特工团队”

想象一下，工厂里有两个特工团队，分别叫 “执行特工队” (Function Vectors, FVs) 和 “概念观察员” (Concept Vectors, CVs)。

1. 执行特工队 (FVs)：死板的“格式控”

他们是谁？ 他们是那些真正决定模型输出结果的人。如果你问模型一个问题，是他们在幕后推手，让模型给出答案。
他们的特点： 他们非常依赖**“怎么问”**（输入格式）。
- 如果你用开放式提问（比如：“请写出‘大’的反义词”），他们有一套特定的工作模式。
- 如果你用选择题提问（比如："‘大’的反义词是：A.小 B.聪明”），他们会立刻换一套完全不同的工作模式。
- 甚至如果你把问题从英语换成法语，他们的“大脑”也会彻底重组。
比喻： 就像一群只认死理的翻译官。如果你用中文问他们，他们就穿中式长袍思考；如果你用英文问，他们就穿西装思考。虽然他们都在翻译“大”的反义词，但穿长袍的翻译官和穿西装的翻译官，脑子里想的完全是两回事，甚至互不相识（论文说他们的向量几乎是“正交”的，也就是完全垂直、不相关）。
缺点： 他们很擅长在熟悉的环境下（比如都是英语、都是开放式问题）表现完美，但一旦换个环境（比如从英语变成法语，或者从填空变成选择题），他们就容易“水土不服”，甚至把格式特征（比如选择题的括号）也当成答案的一部分输出来。

2. 概念观察员 (CVs)：灵活的“抽象大师”

他们是谁？ 他们是那些真正理解“概念”本质的人。他们不直接决定输出，但他们脑子里存储着纯粹的“反义词”、“类别”或“因果关系”的抽象逻辑。
他们的特点： 他们无视表面形式。
- 不管你是用英语、法语，还是用选择题、填空题，他们脑子里的“反义词”概念都是一样的。
- 他们就像一群精通多国语言且深谙逻辑的哲学家。无论用什么语言、什么格式提问，他们理解的“大”和“小”的对立关系是永恒不变的。
缺点： 虽然他们懂道理，但他们不太能直接指挥模型输出。在模型已经准备好回答时，他们能微调一下方向；但如果模型完全没头绪（比如从零开始），他们很难强行启动模型。
比喻： 就像工厂里的总设计师。不管工人是用锤子还是用螺丝刀（输入格式），总设计师脑子里的“房子”图纸（概念）永远是那个样子。

🔍 论文发现了什么惊天大秘密？

以前，科学家以为模型里只有一套“执行特工队”（FVs），认为只要找到了这套向量，就找到了模型理解概念的核心。

但这篇论文说：错啦！你们找错人了。

因果 ≠ 不变性 (Causality ≠ Invariance)：
- FVs（执行特工） 是因果的：动了他们，模型的回答就变了。但他们不抽象，他们被输入格式“污染”了。
- CVs（概念观察员） 是抽象的：他们真正代表了“反义词”这个概念，不受格式影响。但他们不直接因果，他们更像是背景里的“真理”，不直接推手输出。
他们甚至不是同一拨人：
- 研究发现，负责“执行”的神经元（注意力头）和负责“理解概念”的神经元，几乎完全不重叠。就像工厂里，负责按按钮的工人和负责画图纸的工程师，虽然都在同一个车间，但完全不是同一群人。
谁更厉害？
- 在熟悉的环境里（同语言、同格式）： FVs 更猛，能直接让模型给出正确答案。
- 在陌生的环境里（换语言、换格式）： FVs 会晕头转向，甚至输出乱码或格式错误；而 CVs 依然能保持清醒，虽然它们不能直接让模型“爆改”答案，但它们能确保模型输出的方向是符合逻辑的，不会跑偏。

🚀 这对我们意味着什么？

对于 AI 开发者： 如果你想让模型在特定任务上表现完美（比如只处理英语选择题），用 FVs 来“微调”或“引导”效果最好。但如果你想让模型真正理解逻辑，或者在跨语言、跨格式时保持稳健，你需要关注 CVs。
对于理解人类智能： 人类的大脑可能也是分层的。我们既有那种“看到选择题就自动选 A/B/C"的直觉反应（类似 FVs），也有那种“无论怎么问，‘大’和‘小’总是对立”的抽象逻辑（类似 CVs）。这篇论文告诉我们，AI 目前可能更擅长前者，而后者虽然存在，但还没被完全利用起来。

📝 一句话总结

这篇论文告诉我们：大模型里确实有“抽象概念”，但它们和“决定答案的机制”是两码事。 就像你脑子里有“苹果”这个概念（不管它是红的还是绿的，是画出来的还是写出来的），但当你真的去拿苹果时，你的手会根据苹果是放在盘子里还是篮子里，采取完全不同的动作。

FVs 是那只会根据容器改变动作的手，而 CVs 是那个永远记得“这是苹果”的大脑。 以前我们以为手就是大脑，现在我们知道，它们其实是两个不同的系统。

Each language version is independently generated for its own context, not a direct translation.

1. 研究问题 (Problem)

核心问题： 大语言模型（LLM）是否以抽象的方式表示概念？即，概念表示是否独立于输入格式（如开放性问题 vs. 多项选择题，或不同语言）？

背景与动机：

认知科学认为，人类通过抽象的关系结构（如“反义”、“类别”）进行类比推理和泛化。
近期研究提出了功能向量（Function Vectors, FVs），认为它们是紧凑的向量表示，能够因果地驱动上下文学习（ICL）任务的性能，且被认为编码了底层概念。
现有假设的局限性： 如果 FVs 是真正抽象的概念表示，那么无论输入格式如何变化，同一概念的 FVs 应该高度相似。然而，本文质疑这一假设，提出 LLM 中可能存在两种不同的机制：一种负责因果驱动任务执行（FVs），另一种负责抽象不变的概念表示（CVs）。

2. 方法论 (Methodology)

研究团队在四种模型（Llama 3.1 8B/70B, Qwen 2.5 7B/72B）上，针对 7 种关系概念（如反义词、类别、因果、翻译等）和 3 种输入格式（英语开放、法语/西班牙语开放、英语多项选择）进行了实验。

2.1 核心方法对比

为了区分“因果驱动”与“抽象表示”，作者对比了两种技术：

激活修补 (Activation Patching, AP) $\rightarrow$ 功能向量 (FVs)
- 原理： 通过破坏提示中的关系（例如将 "Hot $\to$ Cold" 改为 "House $\to$ Cold"），然后修补（patch）特定注意力头的激活，观察模型是否能恢复正确答案。
- 指标： 计算因果间接效应 (CIE) 和 平均间接效应 (AIE)。
- 构建： 选取 AIE 得分最高的 $K$ 个注意力头，将其激活求和形成功能向量 (FV)。
- 目的： 识别直接驱动任务输出的组件。
表示相似性分析 (Representational Similarity Analysis, RSA) $\rightarrow$ 概念向量 (CVs)
- 原理： 分析注意力头的输出表示是否在不同格式下保持对同一概念的一致性。
- 指标： 构建设计矩阵（Design Matrix），标记哪些提示对共享同一概念（忽略格式）。计算注意力头输出矩阵与设计矩阵之间的 Spearman 秩相关系数 ( $\rho$ )。
- 构建： 选取 RSA 得分最高的 $K$ 个注意力头，将其激活求和形成概念向量 (CV)。
- 目的： 识别编码格式不变（Format-Invariant）概念结构的组件。

2.2 向量操控实验 (Steering Experiments)

任务设置： 使用 AmbiguousICL 任务。提示中混合了两个概念（例如：3 个反义词示例 + 2 个翻译示例），模型原本倾向于输出翻译结果。
干预： 将提取的 FV 或 CV 注入到模型的残差流中（ $h_\ell \leftarrow h_\ell + \alpha v$ ），观察模型是否能被引导回第一个概念（反义词）。
评估维度：
- 分布内 (ID)： 提取格式与应用格式一致（如均为英语开放）。
- 分布外 (OOD)： 提取格式与应用格式不一致（如从法语提取，应用于英语开放；或从多项选择提取）。
- 指标： 目标 Token 概率变化 ( $\Delta P$ )、KL 散度（衡量不同格式下干预效果的一致性）、Token 层面的偏差（是否混入格式特征）。

3. 关键发现与结果 (Key Results)

3.1 FVs 与 CVs 由不同的注意力头组成

正交性： 同一概念的 FVs 和 CVs 在向量空间中几乎是正交的。
头部重叠极低： 即使在不同模型和不同层中，通过 AP 选出的因果头（FV）和通过 RSA 选出的不变头（CV）几乎没有重叠（Top-K 重叠率接近 0）。
层级分布： 尽管两者出现在相似的层（Layer），但具体的头部身份（Head Identity）截然不同。这表明因果性和不变性是由不同的机制介导的。

3.2 不变性差异 (Invariance)

FVs 不是格式不变的： 同一概念在不同格式（如开放 vs. 多项选择）下提取的 FVs 几乎正交。FVs 的聚类主要基于输入格式，而非概念本身。
CVs 是格式不变的： 同一概念在不同格式下提取的 CVs 高度相似。CVs 的聚类主要基于概念，跨越了语言和题型。
抽象层级： FVs 编码的是“特定格式下的概念”（如“多项选择题中的反义词”），而 CVs 编码的是更高层级的抽象概念（如“反义词”本身）。

3.3 操控实验 (Steering) 的权衡

分布内 (ID) 表现： FVs 优于 CVs。当提取和应用格式匹配时，FVs 能带来更大的性能提升（ $\Delta P$ ）。
分布外 (OOD) 表现： CVs 优于 FVs。
- FVs 在跨格式（特别是跨语言或多项选择）时性能急剧下降，且容易引入格式伪影（例如：从法语提取的 FV 会强制模型输出法语单词；从多项选择提取的 FV 会强制模型输出括号符号）。
- CVs 在不同格式下表现出更稳定的效果，能更一致地引导模型关注概念本身，而不受表面形式的干扰。
KL 散度： CVs 在不同格式下的干预分布差异（KL 散度）显著小于 FVs，证明了其更好的泛化一致性。

4. 主要贡献 (Contributions)

挑战单一电路假设： 证明了 LLM 中不存在单一的、格式不变的向量来同时驱动 ICL 性能并代表抽象概念。
提出概念向量 (CVs)： 利用 RSA 识别出一组新的注意力头，它们编码了比 FVs 更抽象、更格式不变的概念表示。
机制解耦： 揭示了 LLM 内部存在两种分离的机制：
- FVs (因果驱动)： 负责具体的任务执行，但受表面形式（格式、语言）的强烈影响。
- CVs (抽象表示)： 负责存储抽象的关系结构，具有跨格式的不变性，但因果驱动力较弱。
操控策略的权衡： 明确了在应用层面，若追求分布内的最大控制力应使用 FVs，若追求分布外的鲁棒性和抽象知识探测应使用 CVs。

5. 意义与启示 (Significance)

理论层面：
- 修正了关于“功能向量”的现有认知：FVs 并非完全抽象，它们混合了概念与表面形式（Equivariance vs. Invariance）。
- 支持了 LLM 中存在抽象关系表示的观点，但这些表示并不直接等同于驱动行为的因果组件。
- 对 ICL 理论模型（如单一函数向量检索）提出了挑战，暗示任务表示可能收敛于多个特定于格式的“盆地”，而非单一的全局最小值。
应用层面 (可解释性与控制)：
- 可解释性： 区分“什么导致了输出”（AP/FV）和“模型如何组织知识”（RSA/CV）对于理解模型内部机制至关重要。
- 模型操控 (Steering)： 为模型控制提供了新的策略。如果希望模型在不同语言或题型间保持一致的行为（例如防止格式偏见），应使用 CVs；如果需要在特定格式下最大化性能，应使用 FVs。
- 安全与对齐： 理解 FVs 携带格式信号（如语言、括号）有助于防止模型在跨语言或跨任务场景下产生非预期的格式泄露。

总结

这篇论文通过精细的机械可解释性分析，揭示了大语言模型中**因果性（Causality）与不变性（Invariance）**的分离。LLM 确实拥有抽象的概念表示（CVs），但它们并不直接驱动上下文学习的性能；驱动性能的是对格式敏感的机制（FVs）。这一发现为理解 LLM 的类比推理能力和改进模型控制方法提供了重要的理论依据。

Causality ≠\neq= Invariance: Function and Concept Vectors in LLMs