Towards Privacy-Guaranteed Label Unlearning in Vertical Federated Learning: Few-Shot Forgetting without Disclosure

本文提出了垂直联邦学习中首个针对标签遗忘的隐私保障方法,通过表示级流形混合增强生成合成嵌入,结合基于梯度的遗忘与恢复优化步骤,在无需泄露数据的前提下实现了高效且保留实用性的标签遗忘。

Hanlin Gu, Hong Xi Tae, Lixin Fan, Chee Seng Chan

发布于 2026-03-02
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种解决垂直联邦学习(VFL)中“遗忘”难题的新方法。为了让你轻松理解,我们可以把这项技术想象成一场“高难度的记忆擦除手术”

1. 背景:什么是垂直联邦学习?(拼图的秘密)

想象一下,医院(拥有病人的病历和检查结果)和保险公司(拥有病人的缴费记录和信用评分)想要合作,训练一个 AI 来预测疾病风险。

  • 问题:他们不能直接把病人的原始数据(比如具体的病历或身份证号)发给对方,因为涉及隐私。
  • 解决方案(垂直联邦学习):他们像玩拼图一样。医院只负责拼图的一半(特征 A),保险公司负责另一半(特征 B)。双方只在训练过程中交换一些“中间线索”(比如加密后的特征向量),最后拼出一个完整的模型,但谁也没见过对方的原始数据。

2. 核心挑战:被遗忘的“权利”(橡皮擦难题)

现在,假设一位病人行使了“被遗忘权”(比如 GDPR 规定),要求删除他的数据。

  • 传统做法:把这位病人的数据从所有地方删掉,然后重新训练整个模型。这就像为了擦掉拼图上的一小块,把整幅画撕碎重画,耗时耗力,成本极高。
  • 垂直联邦的难点
    • 标签很敏感:在医院和保险的例子中,**“是否患病”**这个标签(Label)通常只在医院手里,而且非常敏感。
    • 同步困难:因为双方要配合,如果一方要删除数据,另一方必须配合调整,不能乱套。
    • 现有方法失效:以前的方法要么太慢,要么在删除数据时不小心把“谁的数据被删了”这个秘密泄露给了另一方(比如保险公司通过观察医院的调整,猜出谁被删了)。

3. 论文的创新:少样本“魔法”遗忘术

这篇论文提出了一种**“少样本遗忘”(Few-Shot Unlearning)的方法,就像是用“魔法橡皮擦”**,只需要极少的样本就能精准擦除,而且不伤及无辜。

核心比喻:曼哈顿混音(Manifold Mixup)——“制造替身”

想象你要从一本名册里删掉“张三”的名字。

  • 传统做法:把整本名册翻一遍,找到张三,划掉,然后重新复印整本书。
  • 这篇论文的做法
    1. 制造“替身”:我们不需要张三的所有朋友(大量数据)。我们只需要几个和张三长得很像的“替身”(公开的小样本数据)。
    2. 混合训练(Mixup):利用一种叫**“流形混合(Manifold Mixup)”**的技术,把这些“替身”像调鸡尾酒一样混合起来。
      • 通俗解释:就像把几杯不同颜色的果汁倒在一起,产生一种新的、模糊的颜色。这种“混合果汁”既包含了张三的特征,又模糊了具体是谁。
    3. 反向操作(梯度上升)
      • 通常训练是让模型“记住”答案。
      • 这里我们让模型**“故意记错”**。利用那些“混合果汁”(合成数据),我们给模型一个指令:“把关于张三的信息彻底忘掉!”
      • 因为用了混合技术,模型不需要看到张三的所有原始数据,只需要看到几个“替身”的混合信号,就能学会如何把张三的信息从大脑中抹去。

关键步骤:

  1. 生成替身:用少量公开数据,通过“混合”技术生成虚拟的“遗忘样本”。
  2. 主动遗忘:让拥有标签的一方(医院)和拥有特征的一方(保险公司)利用这些虚拟样本,进行**“反向训练”**(梯度上升),强行把模型里关于特定标签的记忆“推”出去。
  3. 修复记忆:因为强行遗忘可能会误伤其他病人(比如把“李四”也忘了),所以最后再做一个**“微调”**步骤,用剩下的正常数据把模型修好,确保其他病人的预测依然准确。

4. 为什么这个方法很厉害?(三大优势)

  1. 极速且省钱
    • 比喻:以前擦除一个名字要拆掉整栋大楼(重训),现在只需要用一把小刀(几秒种)精准切掉那一小块。论文显示,他们的速度比现有方法快16 到 1200 倍
  2. 保护隐私(不泄露秘密)
    • 比喻:以前的方法在擦除时,可能会不小心把“张三被删了”这个信息通过某种信号传给保险公司。
    • 新方法通过只交换“混合后的替身”信号,让保险公司完全猜不出具体是谁被删了。论文证明,这种“过程隐私”的泄露率从 100% 降到了14% 甚至更低
  3. 不伤及无辜
    • 比喻:就像做手术只切除肿瘤,不伤害健康器官。实验证明,在删除特定病人数据后,模型对其他病人的判断准确率几乎没有下降

5. 总结

这篇论文就像是给垂直联邦学习系统装上了一把**“智能手术刀”**。

  • 以前:想删除一个人的数据,得把整个系统推倒重来,或者在删除过程中不小心泄露了“谁被删了”的秘密。
  • 现在:只需要几个“替身”样本,通过巧妙的“混合”和“反向遗忘”技术,就能在几秒钟内精准擦除特定标签的记忆,既快又安全,还不会搞坏模型对其他人的判断。

这对于医疗、金融等对隐私要求极高的领域来说,是一个巨大的进步,让“被遗忘权”在复杂的合作网络中真正变得可行。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →