Few Tokens, Big Leverage: Preserving Safety Alignment by Constraining Safety Tokens during Fine-tuning

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 PACT 的新方法，旨在解决大语言模型（LLM）在“微调”（Fine-tuning）过程中容易“变坏”的问题。

为了让你更容易理解，我们可以把大语言模型想象成一个才华横溢但有点天真的年轻厨师。

1. 核心问题：为什么厨师会“变坏”？

初始状态（安全对齐）： 厨师刚出师时，受过严格的职业道德培训（安全对齐）。如果有人让他做“毒药”或“炸弹”，他会坚决拒绝：“抱歉，我不能做这个。”
微调（Fine-tuning）： 为了让厨师更擅长做特定的菜（比如专门做川菜或数学题），餐厅老板会给他看很多相关的菜谱（下游任务数据）让他练习。
危机（安全漂移）：
- 坏情况： 如果菜谱里混进了几张“如何制造毒药”的纸条（有害数据），厨师可能会为了迎合新任务，逐渐忘记原则，开始尝试做毒药。
- 更坏的情况： 即使菜谱里没有毒药，只是让他疯狂练习做川菜，他为了追求极致的“川菜味”，也可能在不知不觉中把“拒绝做坏事”的原则给练丢了。一旦有人问“怎么做炸弹”，他可能就会顺口回答：“好的，步骤如下……"

以前的解决办法（太笨重）：
以前的方法像是给厨师戴上全副武装的护具，或者只让他用左手炒菜（限制参数更新）。这虽然能防止他做坏事，但也让他做不出好吃的川菜了（任务性能下降），或者太死板了，不够灵活。

2. PACT 的妙计：抓住“关键台词”

这篇论文发现了一个惊人的秘密：厨师拒绝做坏事，其实只靠几句特定的“关键台词”。

观察： 研究人员发现，当厨师拒绝时，他脑子里最确定的几个词是：“抱歉”、“不能”、“助手”、“无法”等。这些词就像是他安全防线的**“开关”**。
现象： 当厨师开始“变坏”时，并不是他所有的知识都乱了，而是他对这些“拒绝关键词”的自信度降低了。他不再那么坚定地认为“我不能做”，反而开始犹豫，觉得“也许我可以试试”。

PACT 的核心策略：
不要管厨师怎么炒菜（那是他的任务），也不要管他怎么说话（那是他的风格），只要死死守住那几句“拒绝的台词”就行！

3. PACT 是如何工作的？（三个步骤）

想象 PACT 是一位精明的教练，他在厨师练习时这样做：

第一步：找出“安全词” (Identifying Safety Tokens)

教练先观察老厨师（安全模型）和新厨师（基础模型）面对坏问题时有什么不同。

老厨师看到“怎么做炸弹”，心里立刻跳出“不能”这个词，信心十足（概率高）。
新厨师看到同样的问题，心里可能还在想“怎么做”，对“不能”这个词信心不足。
教练把那些老厨师特别自信、新厨师却犹豫的词挑出来，比如“不能”、“抱歉”、“拒绝”。这些就是**“安全词”**。

第二步：只给“安全词”上锁 (Constrained Safety Tokens)

在厨师练习新菜谱（微调）时：

对于普通词： 教练完全不管。厨师想怎么发挥就怎么发挥，想学川菜就学川菜，想算数学题就算数学题。这保证了厨师业务能力不下降。
对于“安全词”： 教练会时刻盯着。如果厨师在回答“怎么做炸弹”时，对“不能”这个词的信心开始下降，教练就会立刻拉响警报，强行把信心拉回到老厨师的水平。
比喻： 就像给厨师的“拒绝按钮”装了一个弹簧。不管他怎么用力想按“同意”，弹簧都会把他弹回“拒绝”的位置。

第三步：聪明的“防污染”机制 (Calibration)

这里有个小陷阱：如果教练自己也看到了“怎么做炸弹”这个问题，他可能会受到污染，觉得“哦，原来这个问题可以这样回答”，从而给厨师错误的示范。

PACT 的解法： 教练在指导时，会假装没看到用户的问题，只看厨师之前的回答。
- 如果厨师之前的回答是安全的，教练就放心地让他继续。
- 如果教练发现厨师因为看到了坏问题而开始犹豫，教练就切换成“纯净模式”（只看回答，不看问题），强行灌输正确的拒绝逻辑。
比喻： 就像教练在教学生时，如果学生被坏书带偏了，教练就让学生闭上眼睛，只凭内心的道德准则（纯净的安全信号）来回答，而不是被眼前的坏书干扰。

4. 结果如何？

实验证明，PACT 非常有效：

既安全又好用： 厨师依然能做出美味的川菜（任务准确率很高），但一旦有人问“怎么做炸弹”，他依然会坚定地回答“不能”。
以少胜多： 只需要盯着那几十个“安全词”（比如 50 个），就能守住整个模型的安全底线。不需要给整个模型戴紧箍咒。
抗干扰强： 即使训练数据里有 10% 的坏内容，或者模型换成了不同的“厨师”（不同的模型架构），PACT 依然管用。

总结

这篇论文告诉我们：大模型的安全，其实就藏在几个关键的“拒绝词”里。

以前的做法是“一刀切”，把整个模型都管起来，导致模型变笨。
PACT 的做法是**“精准打击”**：只锁定那几个决定生死的“安全词”，确保模型在变聪明的同时，永远保留说“不”的能力。

一句话概括： 就像给一个正在学新技能的年轻人，只紧紧握住他“拒绝做坏事”的那只手，让他既能尽情施展才华，又永远不会越界。

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 PACT (Preserves safety Alignment via Constrained Tokens) 的新框架，旨在解决大语言模型（LLM）在下游任务微调（Fine-tuning）过程中出现的安全对齐漂移（Safety Alignment Drift）问题。

以下是该论文的详细技术总结：

1. 研究背景与问题 (Problem)

核心问题：尽管大语言模型在预训练阶段已经过安全对齐，但在针对特定下游任务进行微调时，其拒绝有害请求的能力往往会显著下降。即使微调数据集中只包含少量有害数据，或者数据本身看似无害，模型也可能学会顺从有害指令（即“对齐漂移”）。
现有方法的局限性：
- 参数级约束（如 SafeLoRA）：通过限制参数更新方向来保持安全，但往往过于粗糙，限制了模型在下游任务上的适应能力和性能。
- 数据级干预：通过注入额外安全数据或过滤数据，可能降低通用性。
- 全局约束：对模型所有参数或所有 Token 进行约束，通常会牺牲下游任务的效用（Utility）。
观察动机：作者通过实证研究发现，安全对齐行为并非均匀分布在整个词汇表中，而是高度集中在一小部分与安全相关的 Token（如 "I", "cannot", "assist" 等）上。这些 Token 在模型输出时的置信度（Confidence）直接决定了模型是否拒绝有害请求。

2. 方法论 (Methodology)

PACT 的核心思想是：在微调过程中，仅对识别出的“安全关键 Token"施加细粒度的置信度约束，而允许其他 Token 自由优化以适配下游任务。

2.1 安全 Token 的识别 (Safety Token Identification)

原理：比较安全对齐模型（ $M_{safe}$ ）与基座模型（ $M_{base}$ ）在回答有害提示词时，各 Token 位置的概率分布差异。
计算：计算每个 Token $v$ 在所有样本和位置上的概率差异期望值 $d(v)$ 。
结果：选取差异最大的前 $K$ 个 Token（实验中发现 $K=50$ 已足够）作为“安全 Token 集合” ( $S_{safety}$ )。这些 Token 通常包括拒绝语气的开头词（如 "I", "can't", "cannot" 等）。
验证：实验表明，人为提高这些 Token 的 Logits 能显著提升模型安全性，而降低它们则导致模型变得不安全。

2.2 加权安全 Token 正则化 (Weighted Safety Token Regularization)

机制：在微调损失函数中引入一个加权 KL 散度项。
约束对象：仅针对识别出的 $S_{safety}$ 集合中的 Token 进行约束，使其微调后的概率分布尽可能接近原始安全对齐模型的分布。
权重：根据 $d(v)$ 的大小赋予不同的权重，差异越大的 Token 受到的约束越强。
优势：非安全 Token 不受此约束，从而保留了模型在下游任务上的学习能力和性能。

2.3 安全信号校准 (Calibration of Safety Signal)

挑战：在微调过程中，如果训练样本包含有害前缀（Harmful Prefix），参考模型（Teacher）在生成后续 Token 时，其安全 Token 的置信度可能会因为前缀的污染而降低（Prefix Contamination），导致监督信号变弱。
解决方案：引入自适应混合机制。
- 全上下文视图 (Full-context)：参考模型基于完整输入（含有害前缀）生成的 Logits。
- 无提示视图 (No-prompt)：参考模型仅基于助手前缀（不含用户有害输入）生成的 Logits，作为更纯净的安全基准。
- 门控系数 ( $c_t$ )：通过计算模型在安全 Token 集合上的概率分散度（Confidence Proxy），动态判断当前前缀是否有害。如果前缀污染严重，则增加“无提示视图”的权重；如果上下文安全，则主要依赖“全上下文视图”。
位置衰减：由于拒绝行为通常发生在回复的前几个 Token，校准机制在回复早期（前 $N$ 个位置）作用最强，随后逐渐衰减。

2.4 总目标函数

$\mathcal{L} = \mathcal{L}_{CE} + \lambda_{KL} \mathcal{L}^{safety}_{KL}$
其中 $\mathcal{L}_{CE}$ 是标准的交叉熵损失（用于下游任务）， $\mathcal{L}^{safety}_{KL}$ 是经过校准和加权的 KL 正则化项。

3. 主要贡献 (Key Contributions)

安全 Token 的识别与分析：提出了一套系统化的流程，通过量化安全对齐模型与基座模型的概率差异，精准定位了决定模型安全行为的关键 Token 子集。
基于 Token 级约束的微调框架 (PACT)：
- 提出了细粒度的正则化方法，仅约束安全 Token，解耦了安全保持与任务适应。
- 设计了自适应校准机制，有效缓解了有害前缀对参考信号的污染。
全面的实证验证：在多个模型家族（Qwen, Llama, Gemma）和下游任务（GSM8K, SST-2, AGNEWS）上进行了广泛实验，证明了 PACT 在保持高任务准确率的同时，显著降低了攻击成功率。

4. 实验结果 (Results)

通用性：在 Qwen2.5-7B、Llama-3.1-8B、Llama-3.2-1B 和 Gemma-2-9B 上，PACT 均表现优异。
安全性提升：
- 在 StrongReject 基准上，攻击成功率（ASR）降低至 5.75% - 9.27%。
- 在 HarmBench 基准上，ASR 降低至 13.50% - 29.50%。
- 相比之下，传统的微调（Vanilla SFT）在包含 10% 有害数据时，ASR 往往超过 80% 甚至 90%。
任务性能保持：PACT 在大幅降低安全风险的同时，下游任务的准确率（Accuracy）与原始微调（Vanilla SFT）相当，甚至略高，证明了其没有牺牲效用。
鲁棒性：即使在有害数据比例从 0% 增加到 10% 的情况下，PACT 仍能保持稳定，而其他基线方法（如 SafeLoRA, AsFT）在有害数据比例增加时安全性急剧下降。
消融实验：证明了“仅约束安全 Token"、“引入安全权重”、“无提示参考校准”和“位置衰减”四个组件对最终性能均有显著贡献。

5. 意义与结论 (Significance)

理论洞察：论文揭示了安全对齐在 Token 层面的稀疏性，即安全行为主要由少量关键 Token 的置信度维持，而非整个模型权重的全局改变。
技术突破：PACT 提供了一种**“少 Token，大杠杆” (Few Tokens, Big Leverage)** 的解决方案。它打破了以往“安全与效用不可兼得”的权衡困境，通过极细粒度的约束实现了两者的高效平衡。
应用价值：该方法计算开销小（仅针对少量 Token 计算 KL 散度），易于集成到现有的微调流程中，为商业 LLM 提供商和用户在进行定制化微调时提供了强有力的安全防御工具，防止模型在适应新任务时“变坏”。

总结：PACT 通过精准锁定并稳定模型输出中决定安全性的关键 Token 的置信度，成功解决了微调过程中的安全漂移问题，实现了在保持下游任务高性能的同时，有效抵御有害数据的攻击。