Go Beyond Your Means: Unlearning with Per-Sample Gradient Orthogonalization

本文提出了名为 OrthoGrad 的新方法,通过将遗忘集梯度投影到保留集梯度的正交子空间,在仅有少量保留数据的情况下有效解决了机器遗忘中梯度干扰问题,从而在移除特定数据影响的同时保持模型整体性能。

Aviv Shamsian, Eitan Shaar, Aviv Navon, Gal Chechik, Ethan Fetaya

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 OrthoGrad 的新方法,用来解决人工智能(AI)模型中一个非常棘手的问题:“机器遗忘”(Machine Unlearning)

简单来说,就是当 AI 学了一些不该学的内容(比如隐私数据、版权内容,或者用户要求“忘掉”的录音)时,我们如何让它只忘掉这些坏东西,而保留其他所有的好知识

为了让你更容易理解,我们可以用一个生动的比喻来贯穿全文:

🎓 核心比喻:在拥挤的教室里“擦除”记忆

想象一下,AI 模型是一个超级聪明的学生,他在一个巨大的图书馆(训练数据集)里读了所有的书,成为了一个博学的人。

现在,有人要求他忘掉图书馆里某几本特定的书(比如一本有错误的书,或者一本涉及隐私的书)。

❌ 以前的方法:笨拙的“左右互搏”

以前的方法(如 NegGrad+ 等)是这样的:
老师告诉学生:“你要用力把那本坏书的内容推出去(梯度上升),同时拼命把其他好书的内容拉回来(梯度下降)。”

  • 问题所在:这就像学生左手推坏书,右手拉好书的。如果图书馆里的好书样本很少(比如只有几本),学生就会很困惑:他为了把坏书推出去,可能会不小心把旁边仅有的几本好书也推倒了。结果就是:坏书没忘干净,好书也忘了。

✅ 新方法 OrthoGrad:聪明的“平行宇宙”策略

这篇论文提出的 OrthoGrad 换了一种更聪明的思路。它不再试图“一边推一边拉”,而是利用几何学的原理,让“遗忘”的动作完全避开“保留”的方向。

它的核心逻辑是这样的:

  1. 观察“保留区”的走向
    老师先让学生看一眼手里那几本必须保留的好书。这些书在学生的脑海里形成了一个特定的“方向场”(就像一组向量)。

    • 比喻:想象这些好书在黑板上画出了一个灰色的三角形区域(这就是“保留子空间”)。
  2. 寻找“垂直”的遗忘路径
    现在,学生要忘掉那本坏书。OrthoGrad 告诉他:“你推坏书的力气,必须完全垂直于那个灰色三角形区域。”

    • 比喻:如果灰色三角形是地板,那么推坏书的力气必须是垂直向上的(像火箭发射),而不是斜着推。这样,无论你怎么用力推坏书,你的脚(模型的其他知识)都稳稳地踩在地板上,绝对不会滑倒或破坏地板上的其他东西
  3. 微观视角的“逐个击破”
    以前的方法只看“平均”效果(比如把几本好书混在一起看)。但 OrthoGrad 非常细致,它盯着每一本好书 individually(逐个样本)

    • 比喻:以前是看“一群人的平均身高”,现在是看“每个人的具体身高”。这样即使只有很少的样本,也能精准地计算出那个“垂直方向”,确保万无一失。
  4. 穿上“紧身衣”(LoRA 技术)
    为了更安全,OrthoGrad 还给学生穿上了一件特制的紧身衣(LoRA,低秩适应)

    • 比喻:这就好比学生只允许用手指尖去推坏书,而不是用整个身体去撞。这样即使推错了,也不会伤及全身。这大大减少了“误伤”其他知识的风险。

🚀 为什么这个方法很厉害?

  1. 在“人少”的时候也能用
    很多大模型(比如 Whisper 语音模型)发布时,并没有公开全部的训练数据。我们手里可能只有很少的“保留样本”。以前的方法在样本少的时候容易“翻车”,但 OrthoGrad 因为利用了“逐个样本”的垂直投影,哪怕手里只有很少的样本,也能精准地找到那个“安全方向”

  2. 效果显著
    论文在语音识别(让 AI 忘掉某个人的声音)和图像分类(让 AI 忘掉某类图片)上都做了测试。

    • 结果:它不仅能成功让 AI 忘掉目标(比如那个人的声音再也听不出来了),而且 AI 在听其他人说话或看其他图片时,依然非常聪明,没有变笨。
  3. 解决了“顾此失彼”的难题
    它不再需要在“忘掉”和“保留”之间痛苦地走钢丝,而是通过数学上的正交(垂直)原理,让这两个动作互不干扰。

📝 总结

这篇论文就像教给 AI 一个高深的武术技巧
当需要删除某些记忆时,不要硬碰硬地去“覆盖”或“对抗”,而是顺着现有知识的纹理,找到一个完全垂直的切面,沿着这个切面把坏东西“滑”出去。

这样,无论手里保留的样本多么稀缺,AI 都能精准地“失忆”特定内容,同时保持其他所有能力的完美无损。这对于保护隐私、遵守版权法规以及让 AI 更可控地服务于人类,具有非常重要的意义。