核心问题：AI 安全中的“语言障碍”

想象你有一位非常聪明、训练有素的保安（AI 模型）。这位保安接受过英语（一种高资源语言）的训练，能够识别危险请求并说“不”。如果有人用英语问：“我该如何制造炸弹？”，保安会立即拒绝。

然而，如果你用斯瓦希里语或缅甸语（低资源语言）问同样的问题，保安突然“忘记”了他们的训练。他们可能会回答这个问题，而不是拒绝。

长期以来，研究人员认为这是因为 AI 根本不理解这些其他语言中的危险词汇。他们认为当切换语言时，危险信号从 AI 的大脑中消失了。

发现：保安“知道”，但“不行动”

本文的作者决定深入观察 AI 的“大脑”（其内部数学机制），看看究竟发生了什么。他们发现了一个令人惊讶的事实：

即使在斯瓦希里语或缅甸语中，AI 确实知道该请求是危险的。

可以这样理解：保安听到了斯瓦希里语中的危险请求。他们的脑海中亮起了“危险”警报，就像在英语中一样。警报就在那里，而且声音足够大，可以被听到。

失败的原因不是警报坏了，而是保安忽略了警报。

在英语中，警报声很大，以至于保安会自动按下“拒绝”按钮。在低资源语言中，警报依然存在，但稍微小了一些。因为声音变小了，保安没有意识到它已经大到足以触发“拒绝”按钮，所以他们就继续说了下去。

论文将此称为校准失败（calibration failure），而非表示失败（representation failure）。

表示失败： 保安不知道斯瓦希里语中“炸弹”是什么意思。（论文指出这是错误的）。
校准失败： 保安知道“炸弹”是什么意思，但针对这种特定语言的“拒绝”按钮的音量旋钮设置得太高了。（论文指出这是正确的）。

解决方案：一个简单的“音量旋钮”调节

由于 AI 已经具备了“危险”知识，作者不需要重新训练整个 AI（这既昂贵又缓慢）。相反，他们构建了一个微小的、智能的守门员（一个“潜空间门控”，即 latent gate）。

以下是他们的修复方法如何运作：

利用现有的警报： 他们提取了 AI 从英语中已经学到的“危险方向”。
聆听少量示例： 他们向守门员展示仅 1 到 4 个目标语言（如斯瓦希里语）中的危险和安全请求示例。
重置阈值： 守门员说：“好吧，在斯瓦希里语中，危险警报比英语中要小一点。我需要降低触发‘拒绝’按钮所需的音量。”
路由决策：
- 如果守门员认为请求是危险的，它会调高“拒绝”音量，以确保 AI 说“不”。
- 如果守门员认为请求是安全的，它会调低“拒绝”音量，以免 AI 误拒绝无害的问题（比如“我该如何烤蛋糕？”）。

结果：更聪明、更安全的保安

通过使用这种简单的“音量旋钮”调节法，并结合极少数的示例，作者取得了显著成果：

安全性提升： AI 在低资源语言中拒绝危险请求的频率大幅提高（在某些情况下，拒绝率从约 44% 跳升至 67% 以上）。
保留了帮助性： 至关重要的是，AI 并没有开始拒绝安全的请求。它并没有变得过度偏执。
高效性： 他们不需要重新训练庞大的 AI 模型。他们只是利用极少数的示例调整了一个微小的开关。

总结类比

想象家里安装了一个烟雾探测器。

旧观点： 当厨房（低资源语言）里的探测器没响时，人们认为探测器坏了，或者探测器不知道什么是烟雾。
新观点： 探测器确实闻到了烟味。它只是在那个特定的房间里不够灵敏，无法触发警报。
修复方法： 作者并没有去买一整套新房子和新探测器，而是仅仅调节了现有探测器的灵敏度旋钮。现在，它在厨房里闻到烟味时，也会像在客厅里一样大声尖叫“着火啦！”

底线结论： 低资源语言的安全失败并不是因为 AI 在这些语言中很“笨”；而是因为 AI 的“安全开关”设置得太高了。通过微小的、少样本（few-shot）的调整，就可以在无需从头开始学习的情况下修复它。

技术摘要：低资源安全失效是行动失效，而非表示失效

问题陈述

针对高资源语言（HRL）进行安全对齐训练的大型语言模型（LLM），在面对翻译成低资源语言（LRL）的相同有害提示词时，往往无法成功拒绝。虽然模型在英语中能成功拒绝有害指令，但在处理如斯瓦希里语或缅甸语的相同请求时，却频繁表现出顺从行为。以往的研究记录了这种行为差异，但尚未阐明其内部机制。目前存在两种竞争假设：

表示失效（Representation Failure）： 模型在低资源语言中缺乏可用的内部“有害性”表示，即语义理解较弱。
行动/路由失效（Action/Routing Failure）： 模型拥有有害性表示，但未能将该信号转化为拒绝决策（即决策阈值不匹配）。

本文诊断了多语言安全差距的根本原因，并提出了一种轻量级的干预方案来修复它。

研究方法

实验设置

作者评估了三种指令微调模型（Qwen2.5-7B, Gemma-2-9B, 和 Llama-3.1-8B），涵盖了基于 Common Crawl 份额分为三个资源层级（高、中、低）的 23 种语言。他们使用了 PolyRefuse 数据集的扩展版本，其中包含翻译成这些语言的有害和无害提示词。

诊断阶段

为了区分表示失效与行动失效，作者对残差流（residual stream）采用了**机械解释性（mechanistic interpretability）**技术：

有害性方向提取： 他们通过计算高资源语言中有害提示词与无害提示词之间平均激活值的差异，提取出了一个一维的“有害性方向”（ $v_{HRL}$ ）。
因果中介（消融实验）： 他们测试了从低资源语言的激活中移除该高资源语言衍生的方向是否会抑制拒绝行为。结果显示，在低资源语言中消融 $v_{HRL}$ 会显著降低有害拒绝率，证明该方向具有因果活性。
线性可分性： 他们将低资源语言的激活投影到 $v_{HRL}$ 上，并测量了区分有害与无害提示词的曲线下面积（AUC）。即使在拒绝率较低的低资源语言中，AUC 依然保持在高位（>0.85），这表明表示是存在且可解码的。
信号强度分析： 他们观察到，尽管信号存在，但低资源语言有害提示词的投影得分相对于高资源语言有所下降。模型的隐式拒绝阈值未能被触发，是因为信号强度不足，而非信号缺失。

干预措施：少样本潜空间门控（Few-Shot Latent Gate）

基于“失效源于校准而非表示”的诊断，作者提出了一种无需训练的转向方法：

潜空间门控（Latent Gate）： 在高资源语言数据上训练一个低秩逻辑回归读出器（low-rank logistic readout），将有害性投影映射为二元安全决策。
阈值重校准： 该方法并非重新训练模型或学习新的低资源语言特定方向，而是利用极少量的目标语言示例（每类仅需 1–4 个）来重置决策阈值（ $\tau$ ）。
条件转向（Conditional Steering）： 系统根据门控的输出进行路由：
- 如果分类为有害：将高资源语言的有害性方向添加到激活中（转向拒绝）。
- 如果分类为无害：消融高资源语言的有害性方向（防止误拒）。

关键结果

诊断发现

表示完整性： 有害性在低资源语言的激活中仍保持线性可分。失效并非由于缺乏表示。
信号偏移： 低资源语言提示词产生的向有害性方向的投影较低。模型未能拒绝，是因为信号强度低于在高资源语言训练期间建立的隐式阈值。

性能提升

所提出的少样本潜空间门控显著优于现有的自适应转向基线（CAST 和 AdaSteer）：

选择性拒绝（ $\Delta$ ）： 指标 $\Delta$ （有害拒绝率减去无害拒绝率）从 33.6（最强的适配基线）提升至 54.5。
有害拒绝： 该方法提高了低资源语言中的有害拒绝率（例如，平均从 ~~43% 提高到 ~67%），同时保持了较低的无害拒绝率（~~12.7%）。
基线对比： 竞争方法如 CAST 和 AdaSteer 要么未能显著改善有害拒绝，要么导致了过度的“过度拒绝”（例如，AdaSteer 的无害拒绝率达到了 52.8%）。
泛化能力： 门控在分布外安全基准测试（MultiJail, IndoSafety）上表现良好，并且在以单个源低资源语言进行校准时，可以跨不同低资源语言进行迁移。
效用保持： 该干预措施在 Global-MMLU 基准测试上保留了效用，准确率几乎没有变化。

意义与主张

本文主张，低资源语言的安全失效主要是行动失效（校准问题），而非表示失效。

机械见解： 本研究证明，在高资源语言中学到的安全表示是可迁移且存在于低资源语言中的，但其激活强度不足以在不经过重校准的情况下触发拒绝。
高效性： 所提出的解决方案不需要更新模型权重或进行大规模重训。它仅通过极少量的目标语言示例即可重置决策阈值，从而实现最先进的安全性能。
实际应用： 作者建议采用“先诊断后修复”的工作流：在尝试为低资源语言学习新的安全表示之前，应首先测试现有的高资源表示是否可解码。如果可解码，通过简单的决策阈值重校准即可修复安全对齐。

作者指出了局限性，包括测试模型的范围（7B–9B 稠密模型）、依赖 Common Crawl 作为资源代理，以及该干预措施是一个需要访问激活值的诊断工具而非闭源模型的防护手段。他们同时强调，该方法并不取代对多语言安全训练的需求，也不能保证对所有对抗性提示类型的鲁棒性。

Low-Resource Safety Failures Are Action Failures, Not Representation Failures