Detoxifying LLMs via Representation Erasure-Based Preference Optimization

该论文提出了一种名为 REPO 的新型偏好优化方法,通过令牌级表示擦除将有毒续写强制收敛至良性对应表示,从而在深度修改毒性编码神经元的同时保留模型通用能力,实现了远超现有方法的抗对抗攻击及重学习攻击的鲁棒性。

Nazanin Mohammadi Sepahvand, Eleni Triantafillou, Hugo Larochelle, Doina Precup, Daniel M. Roy, Gintare Karolina Dziugaite

发布于 2026-03-02
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 REPO 的新方法,旨在给大型语言模型(LLM)“排毒”,让它们不再说脏话或生成有害内容。

为了让你更容易理解,我们可以把大语言模型想象成一个刚毕业的大学生,他读过互联网上所有的书(包括很多脏话和坏主意)。现在,我们要教他变得有礼貌、安全。

1. 以前的方法为什么不够好?(“表面功夫”)

以前的方法(比如 DPO、NPO)就像是给这个学生贴“封条”

  • 做法:老师告诉他:“当你看到‘脏话’这个词时,不要说出口,换个词。”
  • 问题:这只是在输出层面做文章。学生脑子里其实还藏着那些坏主意和脏话的“方向”。
  • 后果
    • 容易被骗:如果坏人用一种很狡猾的方式提问(比如“角色扮演”或“越狱攻击”),学生就会撕掉封条,把脏话吐出来。
    • 容易遗忘:如果学生稍微复习一下(微调),或者换个环境,他很快就能“重新学会”那些脏话,因为脑子里的“坏方向”还在。

这就好比把垃圾扫到了地毯下面,看起来干净了,但地毯一掀开,垃圾还在。

2. REPO 是怎么做的?(“彻底清除记忆”)

REPO 的方法叫基于表示擦除的偏好优化。听起来很复杂,其实可以用一个生动的比喻来解释:

想象这个学生的大脑里有一个“思维地图”

  • 有害的想法(脏话)在地图上有一条红色的路
  • 无害的想法(好话)在地图上有一条绿色的路

以前的方法只是告诉学生:“走绿路,别走红路。”
REPO 的做法是:直接把地图上的“红路”抹掉,让红路的位置变得和绿路一模一样,甚至把红路彻底填平,变成一片空地。

具体步骤(用比喻):

  1. 配对训练
    老师给出一组题目(Prompt),然后提供两个答案:

    • 好答案(保留):礼貌的回复。
    • 坏答案(遗忘):粗鲁的回复。
  2. 双重任务

    • 任务一(保住好话):确保学生在回答“好答案”时,思维路径和原来一样流畅,不要变笨。
    • 任务二(抹掉坏话):这是核心。老师训练一个**“侦探”(判别器),试图分辨学生脑子里的“红路”和“绿路”有什么区别。同时,老师强迫学生把“红路”的思维信号伪装成“绿路”**。
    • 结果:学生为了骗过侦探,必须把脑子里关于“脏话”的深层神经连接彻底修改,让“说脏话”和“说好话”在脑子里变得无法区分
  3. 颗粒度控制
    以前的方法可能是一次性把整个“脏话概念”模糊掉。但 REPO 非常精细,它是按“单词”级别(Token-level)来操作的。

    • 就像是在一本字典里,它不是把整页纸涂黑,而是精准地擦除每一个脏字所在的笔画,而保留其他字的清晰度。

3. 为什么 REPO 这么厉害?(“治本”)

  • 无法“回炉重造”:因为坏主意在脑子里的“路”已经被填平了,学生就算想重新学,也找不到原来的“红路”在哪里了。哪怕只给他看 10 个坏例子,他也学不回来了。
  • 防住“越狱”:坏人用各种花哨的话术(越狱攻击)试图诱导学生,但因为学生脑子里根本没有那条“红路”了,无论怎么诱导,都触发不了脏话生成。
  • 不伤脑子:因为它只擦除特定的“坏路”,所以学生说其他话(比如写代码、写故事)的能力完全不受影响,依然聪明伶俐。

4. 总结

  • 旧方法:像戴面具。面具摘下来,人还是原来的坏人。
  • REPO:像整容手术。直接改变了大脑的构造,把“变坏”的生理基础给切除了。

这篇论文证明了,通过这种深层的、精细的“大脑改造”,我们可以制造出真正安全、难以被攻破的语言模型,而不仅仅是表面看起来安全的模型。这对于让 AI 真正安全地进入我们的生活至关重要。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →