MPU: Towards Secure and Privacy-Preserving Knowledge Unlearning for Large Language Models

本文提出了 MPU 框架,通过服务器端的预处理(生成扰动副本)和后处理(聚合更新与去噪)模块,在严格禁止共享服务器参数和客户端遗忘集的双重隐私约束下,实现了大语言模型的高效且隐私安全的知识遗忘。

Tiantong Wang, Xinyu Yan, Tiantong Wu, Yurong Hao, Yong Jiang, Fei Huang, Wei Yang Bryan Lim

发布于 2026-03-02
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 MPU 的新方法,旨在解决大语言模型(LLM)在“遗忘”特定信息时面临的一个棘手难题:如何在保护隐私的前提下,让模型“忘记”它不该知道的东西?

为了让你更容易理解,我们可以把这个过程想象成**“一家神秘的餐厅(服务器)”和“一位挑剔的顾客(客户端)”之间的故事**。

1. 核心难题:一个“死结”

  • 背景:餐厅(服务器)有一本绝密的“总菜单”(模型参数),里面记录了所有菜的做法。顾客(客户端)手里有一张“黑名单”(遗忘集),上面写着:“请把我的名字从所有菜谱里删掉,但我不能把这张黑名单给你看,因为这是我的隐私。”
  • 困境
    • 如果餐厅直接看黑名单来改菜单,顾客的隐私就泄露了。
    • 如果餐厅把总菜单给顾客看,让顾客自己改,餐厅的绝密配方(模型参数)就泄露了。
    • 如果谁都不给对方看,怎么改菜单呢?这就成了一个死结。

2. MPU 的解决方案:一场“魔术表演”

MPU 就像一位高明的魔术师,它不需要双方交换秘密,就能完成“删除”任务。它分三步走:

第一步:准备“干扰版”菜单(Pre-Process)

餐厅不会把真实的总菜单给顾客。相反,它准备了 2 份(或更多)“干扰版”菜单

  • 加噪(Perturbation):就像在菜单上故意洒了一些胡椒粉和盐(随机噪声),让顾客看不清原本的字迹。
  • 重排(Reparameterization):就像把菜单上的菜名顺序打乱,或者把“红烧肉”改名叫“红焖肉”,但味道完全没变(功能不变)。
  • 目的:顾客拿到这些菜单后,既看不出原本的配方,也无法反推出真实的总菜单。

第二步:顾客“盲删”(Client-Side Unlearning)

顾客拿着这些“干扰版”菜单,在自己的厨房里(本地环境),对着自己的“黑名单”进行删除操作。

  • 因为菜单被“打乱”和“加噪”了,顾客只能根据感觉去修改。
  • 顾客修改完后,把修改的痕迹(比如:把第 3 页的“红焖肉”改成了“素食”)打包发回给餐厅。
  • 关键点:顾客没有把“黑名单”给餐厅,餐厅也没看到顾客的修改过程,只收到了修改痕迹。

第三步:餐厅“去噪”并合并(Post-Process)

餐厅收到顾客发回的修改痕迹后,开始施展“魔术”:

  • 还原(Invert):餐厅知道之前是怎么“打乱”菜单的,所以它能轻松地把“红焖肉”还原回“红烧肉”的格式。
  • 抵消噪声(Harmonic Denoising):这是 MPU 最聪明的地方。
    • 因为餐厅准备了多份菜单,每份菜单上的“胡椒粉”(噪声)方向是随机且相互抵消的。
    • 当餐厅把顾客对多份菜单的修改痕迹合并在一起时,那些随机的“胡椒粉”会互相抵消掉(就像把两杯加了相反方向盐的水倒在一起,盐味就没了)。
    • 剩下的,就是纯粹的、真实的修改建议
  • 更新:餐厅用这个纯净的修改建议,更新自己真实的总菜单。

3. 为什么这个方法很厉害?

  • 双重隐私保护
    • 顾客不用担心把“黑名单”(隐私数据)泄露给餐厅。
    • 餐厅不用担心把“总菜单”(核心资产)泄露给顾客。
  • 效果惊人
    • 实验证明,即使加了“胡椒粉”(噪声),通过这种“多份合并抵消”的方法,最终的效果几乎和直接看黑名单修改(没有隐私保护的情况)一样好,甚至有时候更好!
    • 这就像你蒙着眼睛画画,但因为有多个蒙眼画家同时画,最后把画拼起来,反而比睁眼画得更准。

4. 总结

MPU 就像是一个“去噪的合唱团”
餐厅让多个“蒙眼歌手”(被加噪和重排的模型副本)去唱一首“遗忘之歌”。虽然每个歌手唱的时候都有杂音(噪声),但当餐厅把他们的声音合在一起时,杂音互相抵消了,只剩下清晰、准确的“遗忘指令”。

这样,餐厅既保护了自己的乐谱,顾客也保护了自己的秘密,还成功地把不想让人知道的那段旋律从歌里抹去了。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →