Towards Privacy-Guaranteed Label Unlearning in Vertical Federated Learning: Few-Shot Forgetting without Disclosure

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种解决垂直联邦学习（VFL）中“遗忘”难题的新方法。为了让你轻松理解，我们可以把这项技术想象成一场“高难度的记忆擦除手术”。

1. 背景：什么是垂直联邦学习？（拼图的秘密）

想象一下，医院（拥有病人的病历和检查结果）和保险公司（拥有病人的缴费记录和信用评分）想要合作，训练一个 AI 来预测疾病风险。

问题：他们不能直接把病人的原始数据（比如具体的病历或身份证号）发给对方，因为涉及隐私。
解决方案（垂直联邦学习）：他们像玩拼图一样。医院只负责拼图的一半（特征 A），保险公司负责另一半（特征 B）。双方只在训练过程中交换一些“中间线索”（比如加密后的特征向量），最后拼出一个完整的模型，但谁也没见过对方的原始数据。

2. 核心挑战：被遗忘的“权利”（橡皮擦难题）

现在，假设一位病人行使了“被遗忘权”（比如 GDPR 规定），要求删除他的数据。

传统做法：把这位病人的数据从所有地方删掉，然后重新训练整个模型。这就像为了擦掉拼图上的一小块，把整幅画撕碎重画，耗时耗力，成本极高。
垂直联邦的难点：
- 标签很敏感：在医院和保险的例子中，**“是否患病”**这个标签（Label）通常只在医院手里，而且非常敏感。
- 同步困难：因为双方要配合，如果一方要删除数据，另一方必须配合调整，不能乱套。
- 现有方法失效：以前的方法要么太慢，要么在删除数据时不小心把“谁的数据被删了”这个秘密泄露给了另一方（比如保险公司通过观察医院的调整，猜出谁被删了）。

3. 论文的创新：少样本“魔法”遗忘术

这篇论文提出了一种**“少样本遗忘”（Few-Shot Unlearning）的方法，就像是用“魔法橡皮擦”**，只需要极少的样本就能精准擦除，而且不伤及无辜。

核心比喻：曼哈顿混音（Manifold Mixup）——“制造替身”

想象你要从一本名册里删掉“张三”的名字。

传统做法：把整本名册翻一遍，找到张三，划掉，然后重新复印整本书。
这篇论文的做法：
1. 制造“替身”：我们不需要张三的所有朋友（大量数据）。我们只需要几个和张三长得很像的“替身”（公开的小样本数据）。
2. 混合训练（Mixup）：利用一种叫**“流形混合（Manifold Mixup）”**的技术，把这些“替身”像调鸡尾酒一样混合起来。
  - 通俗解释：就像把几杯不同颜色的果汁倒在一起，产生一种新的、模糊的颜色。这种“混合果汁”既包含了张三的特征，又模糊了具体是谁。
3. 反向操作（梯度上升）：
  - 通常训练是让模型“记住”答案。
  - 这里我们让模型**“故意记错”**。利用那些“混合果汁”（合成数据），我们给模型一个指令：“把关于张三的信息彻底忘掉！”
  - 因为用了混合技术，模型不需要看到张三的所有原始数据，只需要看到几个“替身”的混合信号，就能学会如何把张三的信息从大脑中抹去。

关键步骤：

生成替身：用少量公开数据，通过“混合”技术生成虚拟的“遗忘样本”。
主动遗忘：让拥有标签的一方（医院）和拥有特征的一方（保险公司）利用这些虚拟样本，进行**“反向训练”**（梯度上升），强行把模型里关于特定标签的记忆“推”出去。
修复记忆：因为强行遗忘可能会误伤其他病人（比如把“李四”也忘了），所以最后再做一个**“微调”**步骤，用剩下的正常数据把模型修好，确保其他病人的预测依然准确。

4. 为什么这个方法很厉害？（三大优势）

极速且省钱：
- 比喻：以前擦除一个名字要拆掉整栋大楼（重训），现在只需要用一把小刀（几秒种）精准切掉那一小块。论文显示，他们的速度比现有方法快16 到 1200 倍。
保护隐私（不泄露秘密）：
- 比喻：以前的方法在擦除时，可能会不小心把“张三被删了”这个信息通过某种信号传给保险公司。
- 新方法通过只交换“混合后的替身”信号，让保险公司完全猜不出具体是谁被删了。论文证明，这种“过程隐私”的泄露率从 100% 降到了14% 甚至更低。
不伤及无辜：
- 比喻：就像做手术只切除肿瘤，不伤害健康器官。实验证明，在删除特定病人数据后，模型对其他病人的判断准确率几乎没有下降。

5. 总结

这篇论文就像是给垂直联邦学习系统装上了一把**“智能手术刀”**。

以前：想删除一个人的数据，得把整个系统推倒重来，或者在删除过程中不小心泄露了“谁被删了”的秘密。
现在：只需要几个“替身”样本，通过巧妙的“混合”和“反向遗忘”技术，就能在几秒钟内精准擦除特定标签的记忆，既快又安全，还不会搞坏模型对其他人的判断。

这对于医疗、金融等对隐私要求极高的领域来说，是一个巨大的进步，让“被遗忘权”在复杂的合作网络中真正变得可行。

Each language version is independently generated for its own context, not a direct translation.

这是一篇发表于 ICLR 2026 的会议论文，题为《Towards Privacy-Guaranteed Label Unlearning in Vertical Federated Learning: Few-Shot Forgetting Without Disclosure》（面向垂直联邦学习的隐私保障标签遗忘：无泄露的少样本遗忘）。

以下是对该论文的详细技术总结：

1. 研究背景与问题 (Problem)

垂直联邦学习 (VFL) 的遗忘挑战：
- 垂直联邦学习允许拥有不同特征但共享样本 ID 的多个组织（如银行和医院）协作训练模型，同时保护数据隐私。
- 随着 GDPR 和 CCPA 等法规的实施，“被遗忘权”要求模型能够移除特定数据的影响。
- 现有的联邦遗忘研究主要集中在水平联邦学习 (HFL) 或 VFL 中的被动方（特征方）移除（即整个客户端退出）。
- 核心痛点：VFL 中的标签遗忘 (Label Unlearning) 尚未得到充分探索。在 VFL 中，标签通常由主动方（Active Party）持有，且往往包含高度敏感信息（如 HIV 状态、贷款审批结果）。现有的 VFL 遗忘方法在移除标签时，往往需要全量重训练，或者在遗忘过程中通过梯度/中间结果泄露被遗忘样本的标签信息，导致隐私泄露。
同步性与效率约束：VFL 架构要求严格的同步协调，所有参与方必须等待最慢的一方，这使得基于全量数据重训练或复杂迭代的方法在计算效率上极不现实。
数据稀缺性：在实际场景中，可能只有少量样本需要被遗忘，且主动方可能无法或不愿提供大量原始数据用于重训练。

2. 方法论 (Methodology)

作者提出了一种基于少样本 (Few-Shot) 的 VFL 标签遗忘框架，核心思想是利用流形混合 (Manifold Mixup) 技术生成合成嵌入，仅使用少量公开数据即可完成高效遗忘，同时保护隐私。

该方法包含三个关键步骤（如图 1 所示）：

2.1 垂直流形混合 (Vertical Manifold Mixup)

动机：由于用于遗忘的样本数量极少（少样本设置），直接进行梯度更新效果不佳。
机制：
- 利用流形混合技术，在隐藏层嵌入 (Embeddings) 层面而非原始特征层面进行插值。
- 被动方（Passive Parties）计算本地嵌入 $H_k$ 并发送给主动方。
- 主动方在接收到的嵌入上进行混合操作： $\text{Mix}_\lambda(a, b) = \lambda \cdot a + (1-\lambda) \cdot b$ ，生成合成嵌入 $\vec{H}_u$ 和对应的混合标签 $\vec{y}_u$ 。
- 优势：这种操作在不泄露原始数据的前提下，极大地丰富了梯度信号，使得仅用少量样本（如每类 40 个）也能模拟全量数据的遗忘方向。

2.2 垂直基于梯度的标签遗忘 (Vertical Gradient-Based Label Unlearning)

主动方遗忘：主动方对合成嵌入 $\vec{H}_u$ $H_{u}$ 和混合标签 $\vec{y}_u$ $y_{u}$ 执行梯度上升 (Gradient Ascent)，最大化损失函数，从而“遗忘”目标标签信息。
- 更新公式： $\omega = \omega + \eta \nabla_\omega \ell(F_\omega(\vec{H}_u), \vec{y}_u)$
被动方遗忘：主动方计算合成嵌入的梯度 $\frac{\partial \ell}{\partial \vec{H}_u}$ $\frac{\partial ℓ}{\partial H _{u}}$ 并回传给对应的被动方。被动方利用这些梯度更新本地模型，移除与目标标签相关的表示信息，而无需接触原始标签。
- 更新公式： $\theta_k = \theta_k + \eta \nabla_{\vec{H}_u} \ell \cdot \nabla_{\theta_k} \vec{H}_k$
理论保证：论文证明了在流形混合增强的公共数据上进行的梯度更新方向，与在全量遗忘数据上进行的更新方向是正相关的（Theorem 1），确保了遗忘的有效性。

2.3 剩余准确率恢复 (Remained Accuracy Recovery)

问题：单纯的梯度上升可能会破坏模型在保留数据（Retained Data）上的性能。
解决：引入一个恢复阶段。利用少量保留数据的合成嵌入 $\vec{H}_r$ ，对主动方和被动方模型执行标准的梯度下降 (Gradient Descent)，以恢复模型在保留类别上的预测精度。

3. 关键贡献 (Key Contributions)

首创 VFL 标签遗忘：这是首个专门针对垂直联邦学习中标签遗忘问题的解决方案，填补了该领域的空白。
少样本高效遗忘机制：提出了一种仅依赖少量公开数据（Few-Shot）即可实现高效遗忘的方法。通过流形混合技术，解决了小样本下梯度估计方差大、遗忘效果差的问题。
过程隐私保障 (Process Privacy)：
- 提出了“过程隐私”的概念，量化了遗忘过程中被动方对删除集（Deletion Set）的推断能力。
- 该方法仅交换合成嵌入的梯度，避免了传统重训练或边界遗忘中直接暴露被删除样本 ID 或标签的问题。实验显示，相比重训练（100% 泄露），该方法将成员推断泄露率降低至 14.38% (CIFAR-10) 和 4.04% (CIFAR-100)。
计算效率：整个遗忘过程在几秒钟内完成，且随着被动方数量的增加，运行时间呈线性增长，远优于全量重训练和其他基线方法。

4. 实验结果 (Experimental Results)

作者在多个数据集（MNIST, CIFAR-10/100, ModelNet, Brain Tumor MRI, COVID-19 Radiography, Yahoo Answers）和模型（ResNet18, Vgg16, MixText）上进行了广泛实验。

遗忘有效性 (Unlearning Effectiveness)：
- 被遗忘标签准确率 ( $y_u$ )：将目标标签的预测准确率降至接近 0%（随机猜测水平），表明模型成功“忘记”了该标签。
- 攻击成功率 (ASR)：在成员推断攻击下，ASR 略低于重训练模型，表明没有泄露额外的隐私信息，且避免了"Streisand 效应”（即模型对所有遗忘样本一致错误分类）。
效用保持 (Utility Preservation)：
- 保留数据准确率 ( $D_r$ )：在移除标签后，模型在保留数据上的准确率下降极小（通常 < 2%），显著优于 Fine-Tuning、Fisher Forgetting 和 Amnesiac 等方法。
效率 (Time Efficiency)：
- 运行时间比现有方法快 16 到 1200 倍。
- 在不同数量的被动方（1-8 个）下均保持高效。
多模态与多标签：
- 方法在图像和文本（Yahoo Answers）数据上均有效。
- 在单标签、双标签及多标签遗忘场景下均表现稳健。
消融实验：
- 验证了流形混合模块和恢复模块的必要性：缺少流形混合会导致遗忘不彻底；缺少恢复模块会导致保留数据性能下降。
- 证明了仅需极少量的公共样本（如每类 40 个）即可达到与全量数据相当的效果。

5. 意义与影响 (Significance)

理论突破：首次定义了 VFL 环境下的标签遗忘问题，并提出了基于流形混合的少样本解决方案，为垂直联邦学习中的隐私合规提供了新的理论视角。
实践价值：该方法计算成本低、执行速度快，且不需要访问原始敏感数据，非常适合在医疗、金融等对隐私和效率要求极高的垂直领域部署。
隐私新维度：引入了“过程隐私”这一概念，强调了在遗忘协议交互过程中（而不仅仅是最终模型）保护删除集信息的重要性，为未来的联邦学习隐私研究设立了新标准。

总结：这篇论文通过巧妙结合流形混合与梯度上升/下降策略，成功解决了垂直联邦学习中标签遗忘的难题，实现了在不泄露隐私、不重训练全量模型的前提下，快速且彻底地移除敏感标签信息，同时保持了模型在剩余数据上的高性能。