想象一下，将像 DeepSeek-V3 这样的大型语言模型（LLM）比作一座巨大的多层图书馆。在这座图书馆里，你输入的每一个句子在穿过建筑物的不同楼层（层）时，都会被转换成一个独特的高维“指纹”（向量）。

这篇论文提出的核心问题是：这座图书馆是如何组织这些指纹的？ 具体来说，它是将句子的“结构”（语法）与句子的“含义”（语义）分开存放，还是将它们全部混合在一个巨大的冰沙里？

以下是研究人员发现的简要说明：

1. “平均”技巧（寻找核心）

研究人员意识到，如果你有一堆语法结构相同的句子（例如，“猫坐着”、“狗跑了”、“鸟飞了”），它们共享一个共同的“骨架”。

类比：想象拍摄 100 个戴着完全相同类型帽子的人的照片。如果你将所有这些照片平均叠加，人脸会模糊不清，但帽子会变得超级清晰锐利。
方法：他们在数学上进行了这样的操作。他们选取具有相同语法结构的句子，将其指纹取平均值，从而创建一个“语法质心”（纯粹的语法帽子）。他们对具有相同含义但用词不同的句子也做了同样的处理，以创建一个“语义质心”（纯粹的含义帽子）。

2. “减法”测试（移除帽子）

一旦拥有了这些“纯粹”的语法和含义向量，他们便尝试从原始句子指纹中移除它们。

类比：想象你有一张戴着帽子的人的照片。如果你从照片中数字化地减去“帽子”向量，帽子就会消失。如果照片中的人依然清晰可辨，说明帽子是一个独立的层级；如果人脸也随之消失，则说明帽子和脸是混合在一起的。
结果：当他们从句子中减去“语法帽子”时，该句子就失去了与其他具有相同语法的句子进行匹配的能力。当他们减去“含义帽子”时，它就失去了与含义相同的句子进行匹配的能力。
结论：这证明了模型以线性方式编码语法和含义。它们就像食谱中可以数学分离的不同成分，而不是发生化学反应后融合成新物质的混合物。

3. “平面图”发现（事物的居所）

这座图书馆有许多楼层。研究人员发现，语法和含义生活在不同的楼层。

语法（Syntax）：这就像地基和较低的楼层。它从一开始就存在，并一直保持一致直到顶层。模型几乎立即就能掌握句子的结构。
含义（Semantics）：这就像中间的楼层。当句子进入图书馆时，模型首先查看单词和结构（低楼层）。然后，随着句子移动到中间，模型弄清楚它实际上意味着什么。当它到达最顶层（模型在此生成答案）时，含义依然存在，但重点已转向生成输出。
类比：想象阅读一本书。首先，你识别字母和单词（语法）。然后，在段落的中间，你理解了故事（含义）。你不需要重新识别字母来理解故事，但你确实需要字母才能开始。

4. 单行道（不对称性）

这是最有趣的部分：这种分离并非完全对等。

语法是独立的：如果你从句子中移除“含义”，“语法”依然保持完好无损。即使去除了血肉，骨架依然屹立不倒。
含义是依赖的：如果你从句子中移除“语法”，“含义”会变得有些不稳。它不会完全消失，但会变得难以识别。
类比：想象一座房子。如果你移除家具（含义），房子的结构（语法）依然清晰地是一座房子。但是，如果你移除墙壁和屋顶（语法），家具（含义）就只是地上的一堆杂物；很难看出它原本应该是什么。

总结

这篇论文表明，在这些巨型 AI 模型中：

语法和含义是 distinct（distinct）：它们是分开编码的，而不是混乱地混合在一起。
它们是线性的：你可以从数学上“减去”其中一个。
它们存在于不同的位置：语法无处不在（尤其是早期），而含义在模型处理的中间阶段达到峰值。
语法是坚固的基础：你可以剥离含义而不破坏语法，但剥离语法会使含义难以维系。

这表明，尽管这些模型仅仅是通过预测下一个词来训练的，但它们自然发展出了一种结构，这种结构非常类似于人类语言学家对语言运作方式的看法：一个支撑含义层的结构框架。

技术摘要：大语言模型中的句法与语义差异编码

问题陈述

本研究调查大语言模型（LLM）如何在其高维内部表示中编码句法（结构）和语义（意义）信息。尽管大语言模型的成功激发了人们对解码语言能力的存储位置及方式的兴趣，但关于句法与语义之间关系的争议依然显著。生成式传统通常主张句法的严格自主性，而功能主义方法则认为二者深度纠缠。本文旨在通过确定这两个成分是否以线性方式编码、它们在网络层中的分布情况，以及在未接受显式语言先验训练的模型中它们在多大程度上可以解耦，从而解决这一争议。

方法论

作者利用基于线性运算的几何方法来探测 DeepSeek-V3 模型（6710 亿参数）的表示，并在较小模型（Qwen2-7b、Gemma3-12b、Pythia-6.9b）上进行了定性复现。

1. 数据集构建

本研究依赖于使用其他大语言模型（Gemini、ChatGPT、DeepSeek）生成的匹配句子对：

句法匹配：共享相同词性（POS）模板但表达无关含义的句子对（“句法双胞胎”）。
语义匹配：由原始句子及其英文释义组成的句子对，以及原始句子翻译成六种语言（阿拉伯语、中文、德语、意大利语、西班牙语、土耳其语）的句子对。

2. 质心构建与消融

为了隔离特定类型的信息，作者通过平均隐藏表示来构建“质心”：

句法质心 ( $S_i$ )：所有共享特定词性模板的“句法双胞胎”表示的平均值。这平均掉了语义方差，同时保留了句法结构。
语义质心 ( $T_i$ )：句子 $X_i$ 的所有翻译（不包括原文及其英文释义）表示的平均值。这平均掉了句法和词汇方差，同时保留了语义内容。

消融过程：作者通过从句子向量 $X_i$ 中减去其在相应质心上的投影，来移除特定信息。

句法消融： $X_i \perp S_i = X_i - \frac{X_i \cdot S_i}{|S_i|^2} S_i$
语义消融： $X_i \perp T_i = X_i - \frac{X_i \cdot T_i}{|T_i|^2} T_i$

3. 相似度测量

作者采用基于**信息不平衡（Information Imbalance）**导出的基于排名的相似度度量，而不是像中心核对齐（CKA）这样的线性指标，因为作者指出后者在高维空间中提供的信号较弱。该指标量化了一个表示空间中的最近邻在多大程度上能预测另一个表示空间中的最近邻。

4. 表示聚合

使用两种方法将 token 级别的隐藏状态聚合成句子级别的向量：

拼接：拼接最后 $N$ 个 token（保留位置信息）。
平均：平均最后 $N$ 个 token 的表示（移除位置信息）。

主要结果

1. 句法与语义的线性编码

研究发现，句法和语义都至少部分地以线性方式编码。从句子向量中减去句法或语义质心会显著降低匹配对（句法双胞胎或释义）之间的相似度。这表明，相关信息的很大一部分被这些线性方向所捕获。

2. 差异化的层分布特征

句法和语义的跨层编码特征存在差异：

句法：句法相似度在早期层中较高，并在整个网络中保持相对稳定。它在拼接表示中更为显著，表明其对位置信息的依赖。
语义：语义相似度在早期层中较低，在中间层达到峰值，并在最终输出层略有下降。语义相似度在平均表示中更强。

3. 非对称解耦

一个关键发现是句法和语义相互影响的非对称性：

移除语义：从句法双胞胎中消融语义质心不会显著降低它们的句法相似度。即使移除语义信息，句法依然保持稳健。
移除句法：从释义中消融句法质心会显著降低它们的语义相似度，特别是在中间层。
解释：这表明虽然语义可以部分地从句法中分离出来，但句法更具自主性。移除句法结构（例如词序）会削弱恢复意义的能力，而移除意义并不会破坏句法骨架。

4. 范数分解

对句子向量平方范数的分解显示：

句法成分在早期层中占主导地位。
语义成分在中间层中占主导地位。
这些质心共同解释了向量范数的显著但非全部的部分（在中间层约为 40%），留下了 substantial 的“残差”成分。

5. 下游探测任务影响

消融方法对下游探测任务的影响符合预期：

词性分类：消融句法质心会大幅降低准确率；消融语义质心影响甚微。
释义召回：消融语义质心会大幅降低召回率；消融句法质心会产生较小（但存在）的负面影响。

意义与主张

本文声称对大语言模型可解释性和计算语言学领域做出了三项主要贡献：

语义核心的识别：结果证实，大语言模型处理中存在一个“语义核心”，它具体集中在网络的内部层，与更稳定、跨越各层的句法处理截然不同。
线性叠加的证据：该研究提供了进一步证据，表明简单的线性叠加是深度网络中编码抽象语言特征（句法和意义）的基本机制。
句法的涌现自主性：在未接受显式语言先验训练的模型中观察到句法与语义之间不完美但清晰的分离，表明句法的自主性可能是语言表示固有的、最优的属性。这一发现弥合了生成式语言理论（自主句法）与功能主义观点之间的鸿沟，暗示这种区别可能普遍存在于认知系统中，从人脑到大语言模型。

作者保持谦逊的立场，承认他们的线性方法仅捕捉了这些复杂特征的部分方面，且表示范数的很大一部分仍未被这些质心解释。他们建议未来的工作应探索非线性特征提取以及这些编码的时间动态。

Differential syntactic and semantic encoding in LLMs