Benchmarking Unlearning for Vision Transformers

本文首次针对视觉 Transformer(VT)建立了机器遗忘基准,通过系统评估不同架构、容量、数据集及遗忘协议下的算法性能,揭示了 VT 与 CNN 在数据记忆机制上的差异,并为该领域的可复现比较与性能基准设定了重要参考。

Kairan Zhao, Iurie Luca, Peter Triantafillou

发布于 2026-02-24
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给人工智能(AI)的“记忆”做一场大体检,特别是针对一种叫做**“视觉 Transformer"(VT)**的新型 AI 模型。

为了让你更容易理解,我们可以把整个研究过程想象成**“清理一个超级图书馆”**的故事。

1. 背景:为什么需要“清理”?

想象一下,你开了一家非常聪明的图书馆(AI 模型),里面存了成千上万本书(训练数据)。

  • 问题:有时候,图书馆里混进了一些坏书(比如带有偏见、错误信息、或者泄露隐私的书)。
  • 需求:根据法律(比如“被遗忘权”),如果有人要求把关于他的那本书删掉,或者把坏书扔掉,图书馆必须彻底忘记这些书的存在,就像它们从来没进过图书馆一样。
  • 现状:以前,大家主要研究怎么清理传统的图书馆(CNN 模型)。但现在,一种更先进、更强大的新型图书馆(视觉 Transformer,VT)流行起来了,它读图的方式和传统图书馆完全不同。但是,没人知道怎么高效地清理这种新型图书馆

2. 核心任务:给新型图书馆做“遗忘测试”

这篇论文就是世界上第一个专门研究如何清理这种新型图书馆(VT)的“基准测试”。作者们就像一群挑剔的图书管理员,他们设计了各种场景来测试不同的“清理方法”。

他们测试了哪些东西?

  1. 不同的图书馆结构
    • ViT:像是一个喜欢全局视野的管理员,看一张图时,会同时关注整张图的每一个角落(全局注意力)。
    • Swin-T:像是一个喜欢局部细节的管理员,像传统图书馆一样,先关注局部再拼凑整体(层级结构)。
  2. 不同的清理工具(算法)
    • 微调(Fine-tune):就像把坏书扔掉后,重新读一遍剩下的好书,让管理员适应新环境。
    • NegGrad+:一种更激进的方法,不仅读好书,还专门针对坏书进行“反向训练”,强行让管理员“忘掉”坏书的特征。
    • SalUn:一种精细操作,找出管理员脑子里哪些“神经元”记住了坏书,然后只切除这些部分。
  3. 不同的“记忆”探测仪(代理指标)
    • 要清理,得先知道管理员记住了什么。作者们测试了多种“探测仪”(比如看管理员对某本书的自信程度,或者重新训练后的表现),看看哪种工具能最准确地找到那些“顽固的记忆”。

3. 有趣的发现(用比喻解释)

发现一:新型图书馆和旧图书馆的“记性”其实很像

以前大家以为,新型图书馆(VT)因为结构不同,记东西的方式肯定和旧图书馆(CNN)不一样。

  • 结果:作者发现,它们记东西的规律惊人地相似!就像不管是用钢笔还是用键盘写字,人类记住一首诗的规律是一样的。这意味着,以前用来清理旧图书馆的方法,大部分也能用在新型图书馆上。

发现二:不同的“清理工具”适合不同的“管理员”

  • ViT(全局视野型):这种管理员喜欢**“微调”**。因为它的记忆比较分散,像一张大网,直接切除某根神经(SalUn)效果不好,不如把剩下的书重新读一遍(微调),让它自然遗忘。
  • Swin-T(局部细节型):这种管理员和旧图书馆很像,**“反向训练”(NegGrad+)**对它效果最好。因为它有局部记忆的习惯,针对性地“洗脑”效果立竿见影。

发现三:越复杂的书,越难清理

  • 在简单的书(如 CIFAR-10,只有 10 种小动物)面前,新型图书馆因为受过很好的“预训练”(在 ImageNet 上读过很多书),很容易就能把坏书忘掉。
  • 但在复杂的书(如 ImageNet,成千上万种物体)面前,预训练的优势就变小了,清理难度变大。这时候,**“Holdout Retraining"(一种特殊的探测仪)**成了最靠谱的工具,它能帮管理员在复杂环境下也能忘得干净。

发现四:连续清理也不会“失忆”

  • 现实情况是,我们可能今天忘一本书,明天忘一本书(连续遗忘)。
  • 结果:作者测试了连续 5 次甚至 10 次清理,发现图书馆并没有因为反复清理而变笨。只要选对了工具(比如 NegGrad+),图书馆能一直保持清醒,不会越忘越乱。

4. 总结:这篇论文有什么用?

这篇论文就像给未来的 AI 开发者提供了一份**“操作手册”**:

  1. 如果你用的是 ViT 模型:想删数据?试试微调,简单有效。
  2. 如果你用的是 Swin 模型:想删数据?试试NegGrad+,效果最强。
  3. 不管哪种模型:在复杂任务中,用Holdout Retraining这个工具来探测记忆,最靠谱。
  4. 不用担心:连续删除数据不会搞坏模型,现有的方法很稳定。

一句话总结
这篇论文告诉我们,虽然新型 AI 模型(视觉 Transformer)很强大,但清理它们并不像想象中那么难。只要选对“手术刀”(算法)和“探测器”(记忆指标),我们就能让这些 AI 既聪明又守规矩,真正符合“被遗忘权”的要求。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →