Roots Beneath the Cut: Uncovering the Risk of Concept Revival in Pruning-Based Unlearning for Diffusion Models

该论文揭示了基于剪枝的扩散模型遗忘方法存在严重安全隐患,即被剪枝的权重位置本身会泄露关键信息,使得攻击者无需额外数据或训练即可完全恢复被遗忘的概念,并据此提出了相应的防御策略。

Ci Zhang, Zhaojun Ding, Chence Yang, Jun Liu, Xiaoming Zhai, Shaoyi Huang, Beiwen Li, Xiaolong Ma, Jin Lu, Geng Yuan

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文揭示了一个关于人工智能(AI)的惊人秘密:你以为把 AI 脑子里的“坏念头”剪掉了,其实它们只是被“藏”了起来,随时可能死灰复燃。

我们可以把这篇论文的故事想象成一场关于**“记忆删除与恢复”**的侦探游戏。

1. 背景:AI 也有“遗忘权”吗?

现在的 AI 绘画模型(比如 Midjourney 或 Stable Diffusion)非常强大,但它们是在海量数据上训练的,里面可能包含了一些不该出现的东西(比如版权图片、敏感内容或隐私信息)。

为了遵守法律(比如欧盟的 GDPR),我们需要让 AI“忘记”这些特定的东西。目前有一种很流行、很高效的方法叫**“剪枝式遗忘”(Pruning-based Unlearning)**。

  • 通俗比喻:想象 AI 的大脑是一个巨大的图书馆,每一本书代表一种知识(比如“梵高风格”或“某位明星”)。
  • 剪枝法:为了删除“梵高”,管理员直接找到所有写着“梵高”的书架,把上面的书全部抽走,把书架清空,贴上“此处无书”的标签(把权重设为 0)
  • 优点:这不需要重新训练 AI,速度极快,而且看起来非常干净。

2. 核心发现:被剪掉的“树根”还在地下

这篇论文的作者发现,这种“剪枝法”其实有一个巨大的安全漏洞

  • 比喻:虽然管理员把地上的树(书)砍掉了,把树坑填平了,但他留下了一个明显的“树坑”形状
  • 漏洞:在 AI 的世界里,这个“树坑”就是被设为 0 的位置。虽然书没了,但“这里曾经有一本书”这个位置信息泄露了。
  • 后果:黑客不需要知道原来的书里写了什么,也不需要重新种树。他们只需要看着这些“树坑”,就能推断出这里原来种的是什么树,甚至能把树重新“种”回去,让 AI 再次画出梵高的画。

3. 黑客是怎么做到的?(攻击框架)

作者设计了一套“复活术”,完全不需要原始数据,也不需要重新训练,只需要利用 AI 模型里剩下的部分来“猜”回被删掉的内容。

这套方法分三步走,就像侦探破案:

  1. 低秩矩阵补全(猜方向)

    • 比喻:虽然书没了,但图书馆的布局(其他没被删的书)还在。黑客利用数学方法,根据周围书架的排列规律,猜出被删掉的书原本应该是“正着放”还是“倒着放”(即权重的正负号)。
    • 发现:作者惊讶地发现,只要猜对了书的方向(正负号),哪怕不知道书有多厚(数值大小),AI 就能认出这本书了。
  2. Top-K 信号保留(抓重点)

    • 比喻:猜出来的方向可能有些不准。黑客发现,那些最厚、最重要的书(数值大的权重),猜对方向的可能性最高。于是,他们只保留那些“看起来最像真的”的方向,把那些模棱两可的扔掉。
  3. 神经元最大缩放(填土种树)

    • 比喻:方向对了,现在需要把书放回去。黑客发现,只要给这些位置填上最厚的书(赋予最大的数值),就能最大程度地唤醒 AI 的记忆。

结果:这套方法非常成功!原本被“遗忘”的概念(比如高尔夫球、梵高风格、甚至是不雅内容),在短短 7 分钟内,准确率从8% 飙升到了 54%。这意味着,原本以为被安全删除的东西,实际上完全复活了

4. 如何防御?(给树坑“伪装”)

既然知道了“树坑”会泄露秘密,作者也提出了一种简单的防御方法。

  • 旧方法:把树砍了,树坑里填土(0)。这太明显了,一眼就能看出这里缺了东西。
  • 新方法(高斯模糊防御):把树砍了,树坑里不要填土,而是撒上一层均匀的沙子(高斯噪声)
    • 如果沙子撒得太少(方差太小),还是能看出坑。
    • 如果沙子撒得太多(方差太大),会把整个图书馆弄乱,AI 就画不出画了。
    • 最佳方案:撒适量的沙子,让树坑看起来和周围的地面一样自然,让人分不清哪里是原来的树,哪里是撒的沙子。

总结

这篇论文告诉我们一个深刻的道理:
在 AI 安全领域,“简单粗暴地删除”(设为 0)并不等于“彻底遗忘”。那些被删除的位置本身,就是一条通往秘密的“后门”。

  • 对于开发者:以后做 AI 遗忘功能时,不能只是把数据设为 0,得想办法把“删除的痕迹”也抹掉(比如撒点沙子)。
  • 对于大众:如果你以为把 AI 里的敏感信息删了就安全了,这篇论文告诉你:小心,它们可能只是睡着了,随时会醒过来。

这篇论文就像给 AI 安全界敲响了警钟:在修剪 AI 的枝叶时,别忘了它深埋地下的根,因为那些根,才是记忆真正的藏身之处。