One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个非常有趣的问题：大型人工智能（LLM）到底是在“理解”文字的含义，还是仅仅在死记硬背文字的“长相”？

为了回答这个问题，作者们设计了一个巧妙的实验，就像给 AI 做了一次“换装测试”。

1. 核心谜题：是“灵魂”重要，还是“衣服”重要？

想象一下，你有一个超级聪明的翻译机器人。

情况 A：你给它看一张穿着红色西装的照片，它说“这是一个人”。
情况 B：你给它看同一张人，只是换成了蓝色西装的照片，它还说“这是一个人”。

这时候你会觉得：哦，它认识的是“人”这个概念，而不是衣服的颜色。

但在 AI 的世界里，事情没那么简单。AI 看到的不是照片，而是一串串数字代码（Token）。

塞尔维亚语这个语言很特别，它有两种写法：拉丁字母（像英语那样）和西里尔字母（像俄语那样）。
这两套字母写出来的句子，意思完全一样，就像同一个人穿了红西装和蓝西装。
但是！ 对于 AI 来说，这两套字母的代码完全不同，就像红西装和蓝西装在 AI 眼里完全是两种不同的布料，没有任何重叠。

论文的问题就是： 当 AI 看到同一句话的“拉丁版”和“西里尔版”时，它的大脑里激活的“神经元”是一样的吗？如果一样，说明它真的懂了“意思”；如果不一样，说明它只是在认字。

2. 实验方法：给 AI 做“换装”测试

作者们找来了 Google 的 Gemma 系列 AI 模型（从很小的模型到很大的模型），并给它们准备了一些特殊的“考题”：

原题：一句塞尔维亚语（拉丁文）。
换装题：同一句话，写成塞尔维亚语（西里尔文）。
改写题：用不同的词说同一件事（比如“猫在睡觉”vs“猫咪正在休息”）。
乱码题：完全不相干的句子。

然后，作者使用了一种叫 稀疏自编码器（SAE） 的“透视镜”。这就像给 AI 的大脑装了一个 X 光机，能看清 AI 在处理句子时，具体点亮了哪些“概念灯”。

3. 惊人的发现：AI 真的“懂”意思！

实验结果非常令人兴奋，就像发现了一个秘密：

换装后的相似度极高：当 AI 看到同一句话的“拉丁版”和“西里尔版”时，它大脑里亮起的“概念灯”有 58% 是重合的。
比“改写”更像“原版”：更有趣的是，“换装”（改写字母）带来的相似度，竟然比“改写”（换同义词）还要高！
- 这就好比：AI 觉得“穿红西装的人”和“穿蓝西装的人”是同一个人，甚至比“穿红西装的人”和“穿红夹克的人”更像。
- 这说明：AI 对“写法”（字母）的敏感度，竟然低于对“用词”的敏感度。 它更在乎这句话到底在说什么，而不是它长什么样。
大模型更聪明：随着模型变大（从 2.7 亿参数到 270 亿参数），这种“无视写法”的能力越来越强。大模型就像是一个阅历丰富的老人，一眼就能看出“红西装”和“蓝西装”下是同一个灵魂；而小模型可能还分不清。
不是死记硬背：作者还发现，即使把“拉丁文的原文”和“西里尔文的改写版”混在一起（这种组合在训练数据里几乎没出现过），AI 依然能认出它们意思相近。这证明 AI 不是靠死记硬背背下来的，而是真的学会了抽象的语义。

4. 通俗比喻总结

想象 AI 是一个只认识条形码的超级收银员：

拉丁文是商品 A 的条形码。
西里尔文是同一个商品 A 的另一个条形码（完全不一样的线条）。
改写是商品 A 换了个包装，但条形码没变。

以前的观点认为，收银员可能只认条形码，换了一个条形码就以为是个新商品。
但这项研究证明：这个收银员太聪明了！ 即使条形码完全不同，它也能通过扫描，发现这两个条形码背后对应的是同一个商品。而且，它甚至能忽略包装的变化（改写），直接认出商品本质。

5. 这意味着什么？

这项研究告诉我们：

AI 真的在学“道理”：它们学到的不仅仅是表面的文字符号，而是更深层的、抽象的“意义”。
跨语言理解的潜力：既然 AI 能跨越两种完全不同的字母系统理解同一种语言，那么未来它们理解不同语言（比如中文和英文）之间的深层联系，可能比我们想象的更容易。
未来的方向：作者建议，以后可以用这种“塞尔维亚语双写法”的方法，去测试各种 AI 模型，看看它们到底“懂”了多少，是不是真的在思考，还是在背课文。

一句话总结：
这篇论文通过让 AI 给同一句话“换两套完全不同的衣服”，证明了 AI 的大脑里已经形成了超越文字表面的抽象概念。它不再是一个只会认字的机器，而是一个能透过现象看本质的“理解者”。

Each language version is independently generated for its own context, not a direct translation.

这篇论文《一种语言，两种文字：探究大语言模型概念表示中的脚本不变性》（ONE LANGUAGE, TWO SCRIPTS: PROBING SCRIPT-INVARIANCE IN LLM CONCEPT REPRESENTATIONS）利用塞尔维亚语的双文字特性（拉丁字母和西里尔字母），深入研究了稀疏自编码器（SAEs）学习到的特征是否代表了抽象语义，还是仅仅与特定的文本书写形式（脚本）绑定。

以下是该论文的详细技术总结：

1. 研究问题 (Problem)

大型语言模型（LLM）如何表示不同语言和书写系统中的意义？具体而言，通过稀疏自编码器（SAEs）分解得到的可解释特征，是捕捉了抽象的语义结构，还是仅仅依赖于特定脚本的 Token 模式？

核心挑战：大多数多语言研究难以完全剥离语义和书写形式的差异（例如印地语和乌尔都语虽然相似，但词汇映射不完美）。
研究目标：在保持语义完全不变的情况下，仅改变书写脚本（Orthography），观察模型内部特征表示的变化。

2. 方法论 (Methodology)

2.1 实验测试床：塞尔维亚语双文字 (Serbian Digraphia)

选择理由：塞尔维亚语是少数几种在日常生活和训练中同时广泛使用拉丁字母（Latin）和西里尔字母（Cyrillic）的语言。
关键特性：
- 确定性映射：两种脚本之间存在无损的字符级映射，语义完全一致。
- Token 化差异：LLM 对这两种脚本进行 Token 化时，生成的 Token 序列完全不重叠（共享零个 Token）。这创造了一个完美的控制实验环境：输入意义相同，但底层 Token 输入完全不同。

2.2 模型与工具

模型家族：Gemma 系列模型（Gemma-3），涵盖从 270M 到 27B 参数的五个规模。
SAE 配置：使用 Gemma Scope 2 SAEs（JumpReLU 架构，65,536 个特征，中等 L0 稀疏度，激活阈值 $\tau=0.1$ ）。
数据集：构建了 30 组句子三元组（原句、同义改写句、随机无关句），每种包含英语、塞尔维亚语拉丁文、塞尔维亚语西里尔文三个版本，共 270 个独特句子。

2.3 特征提取与评估指标

流程：输入句子 $\rightarrow$ Token 化 $\rightarrow$ 前向传播获取最后一层隐藏状态 $\rightarrow$ SAE 编码 $\rightarrow$ 阈值化得到激活特征集 $F(s)$ 。
度量标准：使用 Jaccard 相似度 衡量两个句子激活特征集的重叠程度：
$J(s_1, s_2) = \frac{|F(s_1) \cap F(s_2)|}{|F(s_1) \cup F(s_2)|}$
对比实验设计：
1. 跨脚本原句对比（核心测试）：同一句塞尔维亚语在拉丁文和西里尔文下的特征相似度。
2. 跨脚本改写对比：同一改写句在不同脚本下的相似度。
3. 跨脚本交叉改写：拉丁文原句 vs. 西里尔文改写句（测试组合变化）。
4. 基线对比：跨脚本随机句、跨语言随机句（塞尔维亚 vs. 英语）。

3. 主要贡献 (Key Contributions)

提出新范式：首次将“塞尔维亚语双文字”作为一种受控评估范式，用于探测学习到的概念表示是抽象语义还是脚本特定的 Token 模式。
发现脚本不变性：证明了 Gemma 模型中的 SAE 特征具有显著的脚本不变性。跨脚本的相同句子特征相似度（~~0.58）远高于随机基线（~~0.28），甚至高于同脚本内的改写相似度。
规模效应分析：揭示了脚本不变性随模型规模增大而增强的趋势，大模型（27B）表现出更稳健的脚本无关表示。

4. 实验结果 (Results)

4.1 脚本不变性的证据

高重叠度：拉丁文和西里尔文的相同句子（Cross-Script Original）在 SAE 特征上的平均 Jaccard 相似度达到 0.58。
超越随机基线：这一数值显著高于跨脚本随机句的相似度（0.28）和跨语言随机句（0.19）。
语义层级：相似度排序为：跨脚本原句 (0.58) > 跨脚本改写 (0.59) > 跨脚本交叉改写 (0.47) > 跨脚本随机 (0.28)。
- 这表明 SAE 特征对语义的敏感度远高于对书写形式的敏感度。
- 有趣的是，跨脚本改写的相似度甚至略高于跨脚本原句，说明模型对词汇选择的细微变化比脚本变化更敏感。

4.2 模型规模的影响 (Scale Effect)

小模型 (270M)：跨脚本原句相似度约为 0.50。
大模型 (27B)：跨脚本原句相似度提升至 0.65。
随机基线下降：随着模型变大，随机句之间的相似度（跨脚本和跨语言）显著下降（从 ~0.42 降至 ~0.21），说明大模型能更清晰地区分无关内容。
结论：更大的模型不仅学到了更细粒度的特征，而且其语义表示更加独立于表面的 Token 化形式。

4.3 排除记忆化 (Memorization)

交叉改写测试：拉丁文原句与西里尔文改写句的组合在训练数据中极不可能同时出现，但它们的特征相似度仍高达 0.47。
推论：这排除了“模型只是记住了特定句子对”的可能性，证明 SAE 特征捕捉的是真正的语义对齐，而非数据记忆。

5. 意义与结论 (Significance & Conclusion)

抽象层级：SAE 学习到的概念位于表面 Token 化之上，能够捕捉超越书写形式的抽象语义。
可解释性启示：这一发现支持了 SAE 作为通用、可解释概念表示工具的潜力，表明它们可以捕捉到人类语言中跨书写系统的核心意义。
未来方向：
- 该研究为评估神经网络的“脚本不变性”提供了一个自然的、受控的实验环境。
- 未来的工作可以将此范式扩展到其他多脚本语言，或结合激活修补（Activation Patching）等技术进一步验证因果机制。

总结：该论文通过巧妙的实验设计，有力地证明了现代大语言模型（特别是 Gemma 系列）在内部表示层面已经学会了忽略书写脚本的差异，直接关注语义内容。这种“脚本不变性”随着模型规模的扩大而增强，为理解神经网络如何构建跨模态、跨语言的通用语义空间提供了重要证据。