Erase at the Core: Representation Unlearning for Machine Unlearning

本文提出了“核心擦除”(Erase at the Core, EC)框架,通过结合多层对比学习与深度监督机制,解决了现有机器遗忘方法仅实现表面遗忘而保留内部特征表示的问题,从而在确保保留集性能的同时,实现了从输出层到中间特征层的全方位信息擦除。

Jaewon Lee, Yongwoo Kim, Donghyun Kim

发布于 2026-03-02
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为**“核心擦除”(Erase at the Core, 简称 EC)**的新方法,旨在解决人工智能(AI)模型中一个非常棘手的问题:如何真正让 AI“忘记”它学过的某些特定信息,而不仅仅是假装忘记。

为了让你更容易理解,我们可以把训练好的 AI 模型想象成一个在大脑里装满知识的“超级学生”

1. 问题的根源:表面遗忘 vs. 深层残留

现状:
现在的 AI 模型如果违反了隐私规定(比如用户要求删除自己的照片),我们需要让它“忘记”这些照片。
目前的很多方法就像是在**“掩耳盗铃”**。

  • 比喻: 想象这个学生被要求忘记“苹果”这个概念。现在的旧方法(近似遗忘)就像是给学生的嘴巴贴上了封条,或者把试卷上关于“苹果”的答案涂黑。当老师(测试者)问“这是什么?”时,学生回答“我不知道”或者乱猜,看起来好像真的忘了。
  • 真相: 但是,这个学生的大脑深处(中间层特征)依然清晰地记得苹果长什么样、是什么颜色。如果换个老师,只问学生“画一个苹果”或者用一种新的方式提问,学生依然能画出来,甚至能认出苹果。
  • 论文术语: 这被称为**“表面遗忘”(Superficial Forgetting)**。模型在输出层(嘴巴)表现得很像忘了,但在内部特征(大脑)里,关于“苹果”的信息依然清晰可见,甚至可以被重新利用。

2. 解决方案:核心擦除(EC)

为了解决这个问题,作者提出了**“核心擦除”(EC)**。

比喻:
如果说旧方法只是给学生的嘴巴贴封条,那么EC 方法就是直接去重塑学生的大脑结构

  • 怎么做?
    想象这个学生的知识是分层存储的:

    • 浅层(底层): 记得线条、颜色(比如红色的、圆的)。
    • 深层(高层): 记得概念(比如“这是苹果”、“这是水果”)。

    旧方法通常只修改最后一层(概念层),而 EC 方法则从浅到深,层层清理。它会在学生大脑的每一个关键节点(中间层)都安装一个“橡皮擦”。

  • 具体操作:

    1. 多层次的“橡皮擦”: 作者给 AI 模型的中间层都加上了特殊的辅助模块(EC 模块)。
    2. 双重任务:
      • 对“要忘记的数据”(比如苹果): 强迫这些数据的特征在每一层都变得模糊,甚至把它们强行“推”到“保留数据”(比如香蕉、橘子)的特征区域里去。这就好比强行把“苹果”的记忆打散,混入“香蕉”的记忆中,让大脑再也无法区分出什么是苹果。
      • 对“要保留的数据”(比如香蕉): 同时,还要确保学生依然能清晰地记住香蕉,不能把香蕉也忘了。
    3. 层层加码: 越靠近大脑深处(高层)的节点,擦除的力度越大,因为那里存储着最核心的概念。

3. 为什么这个方法很厉害?

  • 彻底性: 经过 EC 处理后的模型,不仅嘴巴闭上了(输出层不认苹果),连大脑里的记忆也被彻底打乱了。即使有人试图通过“线性探测”(一种高级的逆向工程手段,就像重新给大脑装个新嘴巴)来恢复记忆,也恢复不了了,因为大脑里的“苹果”痕迹已经消失了。
  • 通用性(插件化): EC 就像一个通用的“大脑清理插件”。你可以把它插在任何现有的 AI 遗忘方法上,让它们变得更强。就像给普通的橡皮擦加上了“强力去污剂”,让原本只能擦掉表面字迹的橡皮,能连纸背面的痕迹都擦干净。
  • 不伤及无辜: 它在强力擦除“苹果”记忆的同时,很好地保护了“香蕉”的记忆,模型在保留数据上的表现依然很好。

4. 实验结果:真的有效吗?

作者在大海一样的数据集(ImageNet,包含 1000 种物体)上做了测试,让模型忘记其中的 100 种。

  • 旧方法: 看起来忘了,但内部特征和原模型几乎一模一样(相似度很高)。
  • EC 方法: 内部特征发生了巨大的变化,和原模型“分道扬镳”,相似度极低。这意味着“苹果”的记忆真的被从核心层面抹去了。

总结

这篇论文的核心思想就是:真正的遗忘,不能只停留在“嘴上说说”(输出层),必须深入到“大脑深处”(中间特征层)去彻底抹除痕迹。

“核心擦除”(EC)就像是一个全脑深度清洁工,它确保当用户要求删除数据时,AI 不仅仅是假装不知道,而是从根子上把这段记忆彻底粉碎,既满足了隐私保护的需求,又保证了 AI 在其他任务上的正常表现。这对于未来构建更安全、更合规的 AI 系统至关重要。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →