Certifying the Right to Be Forgotten: Primal-Dual Optimization for Sample and Label Unlearning in Vertical Federated Learning

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 FedORA 的新方法，旨在解决人工智能（AI）在“垂直联邦学习”环境下的一个棘手问题：如何让用户行使“被遗忘权”，即让 AI 彻底忘记某些特定数据或类别，而无需重新训练整个模型。

为了让你更容易理解，我们可以把整个场景想象成一家跨国联合烹饪餐厅。

1. 背景：什么是“垂直联邦学习”？

想象一下，有一家餐厅（AI 模型），但它不是由一个人掌勺的，而是由几个不同的部门（参与方）合作完成的：

部门 A（被动方）：只负责切菜（拥有特征 1，比如食材的新鲜度）。
部门 B（被动方）：只负责调味（拥有特征 2，比如香料种类）。
部门 C（主动方/主厨）：负责最后摆盘和决定这道菜叫什么名字（拥有标签/分类结果）。

他们不能把各自的食材和秘方直接交换（因为涉及隐私），只能互相传递处理过的“半成品”（特征嵌入）来共同训练出最好的菜谱。这就是垂直联邦学习。

2. 问题：当有人要求“被遗忘”时

现在，根据法律（如 GDPR），一位顾客（数据所有者）说：“我后悔了，请把我的数据从你们的菜谱里彻底删掉，我不希望 AI 再根据我的喜好做菜。”

这就叫机器遗忘（Machine Unlearning）。

在传统的“水平联邦学习”（大家都有完整的菜谱，只是食材不同）中，删数据相对容易。但在“垂直联邦学习”中，因为菜谱是拼凑出来的，删掉一个人的数据，就像是要从一道已经做好的复杂菜肴中，精准地剔除掉某个人贡献的那一点点盐味，同时不能让整道菜变难吃，也不能让其他顾客觉得味道变了。

现有的方法主要有两个缺点：

重新训练（Retrain）：把那个人删了，然后从头开始重新学一遍菜谱。这太慢了，就像为了删掉一个错字，把整本书撕了重写。
梯度上升（Gradient Ascent）：强行让 AI 对那个人的数据“感到困惑”或“故意猜错”。但这就像是为了让 AI 忘记一个人，故意把它教傻，结果 AI 可能连其他正常顾客也记不住了（过度遗忘），或者根本忘不掉（遗忘不彻底）。

3. 解决方案：FedORA（联邦优化移除算法）

作者提出了 FedORA，它像是一个聪明的“记忆橡皮擦”，专门用来在垂直联邦学习中擦除特定数据的影响。

核心创意一：不是“教错”，而是“教糊涂”

以前的方法试图让 AI 对要删除的数据故意猜错（比如把猫的图片硬说是狗）。但这容易把 AI 搞乱。
FedORA 的做法是：让 AI 对要删除的数据感到“完全不确定”。

比喻：想象你在教一个学生认字。以前的方法是让他把“苹果”硬说是“香蕉”，结果他可能把“梨”也认成香蕉了。FedORA 的方法是告诉他：“关于这个‘苹果’，你什么都别猜，你就觉得它既像苹果又像梨，完全拿不准。”
技术点：他们设计了一种新的“遗忘损失函数”，鼓励模型输出均匀的概率分布（即最大熵），让模型对特定数据“失忆”到无法区分任何类别，而不是强行分类错误。

核心创意二：左右手互搏的“原对偶优化”

FedORA 使用了一种数学上的原对偶（Primal-Dual）框架。

比喻：想象有两个小人在控制模型。
- 左手（原变量）：负责“保持现状”，努力记住剩下的顾客，保证菜好吃（保留模型效用）。
- 右手（对偶变量）：负责“施加压力”，专门盯着要删除的数据，不断推搡模型，直到模型彻底忘记它们。
- 这两个小人通过一种精妙的平衡机制（拉格朗日乘子法）互相配合。如果模型还没忘掉，右手就用力推；如果忘掉了，右手就松手。这样既保证了遗忘，又不会把模型推散架。

核心创意三：聪明的“不对称批处理”

在擦除数据时，FedORA 很懂得“偷懒”（其实是优化效率）。

比喻：
- 对于要删除的数据：必须全部检查一遍，确保一个不留（全量处理）。
- 对于剩下的数据：既然模型已经学会怎么做了，不需要每次都把剩下的所有顾客都过一遍。只需要随机抽查一小部分（比如 5%）来微调一下，保持手感即可。
效果：这大大减少了计算量和通信成本，就像你不需要为了擦掉黑板上的一个错字，把整块黑板重新擦一遍再写一遍。

核心创意四：自适应的“步长调节”

在擦除过程中，FedORA 会像开车一样，根据路况自动调整速度。

比喻：如果模型参数变化很剧烈（路况不好），它就放慢脚步（减小步长）以防翻车；如果变化很平稳，它就加速前进。这保证了整个擦除过程既快又稳。

4. 结果：它做得怎么样？

作者在各种数据集（从简单的表格数据到复杂的图片识别）上进行了测试：

遗忘效果：FedORA 能像“重新训练”一样彻底地忘记目标数据，甚至更好。
保留效果：在忘记目标数据的同时，它保留了对其他数据的识别能力，几乎和“重新训练”一样好。
安全性：它能有效防御“成员推断攻击”（黑客试图判断某人的数据是否在训练集中）和“后门攻击”（黑客植入的恶意触发器）。
效率：它比重新训练快得多，比现有的其他遗忘方法更稳定。

总结

FedORA 就像是一个高明的记忆管理大师。在多方合作（垂直联邦学习）的复杂环境下，它不仅能精准地帮用户“删除记忆”（行使被遗忘权），还能保证 AI 的“大脑”不会因为这次删除而变笨或崩溃。它通过让模型对特定数据“感到困惑”而非“故意犯错”，配合聪明的数学平衡术和高效的抽查机制，实现了既忘得干净，又记得牢固，还省时间的完美平衡。

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于**垂直联邦学习（Vertical Federated Learning, VFL）中样本和标签遗忘（Unlearning）**的学术论文总结。论文提出了一种名为 FedORA 的新方法，旨在解决在分布式特征架构下，如何高效、安全地移除特定数据或类别对模型的影响，以满足“被遗忘权”（Right to be Forgotten）的合规要求。

以下是该论文的详细技术总结：

1. 研究背景与问题定义 (Problem)

背景：联邦学习（FL）允许在不共享原始数据的情况下进行协作训练，但 AI 模型仍可能“记住”敏感数据。随着 GDPR 等法规的实施，用户有权要求删除其数据及其对模型的影响。
挑战：
- 垂直联邦学习（VFL）的特殊性：在 VFL 中，不同参与方持有同一组样本的不同特征（互补特征）。移除样本或标签需要跨多方协调，且特征间的依赖关系使得隔离和移除特定数据贡献变得复杂。
- 现有方法的局限性：
  - 重训练（Retrain）：虽然效果最好，但计算和通信开销巨大，不可行。
  - 梯度上升（Gradient Ascent）：通过最大化目标数据的损失来“遗忘”，但容易导致模型不稳定、灾难性遗忘（过度遗忘）或无法完全遗忘，且难以平衡遗忘效果与模型效用。
- 遗忘类型：
  - 样本遗忘：移除特定样本。
  - 标签遗忘：移除整个类别及其所有关联样本。

2. 核心方法论：FedORA (Methodology)

作者提出了 FedORA（Federated Optimization for data Removal via primal-dual Algorithm），这是一个基于**原始 - 对偶（Primal-Dual）**优化框架的联邦遗忘算法。

A. 问题建模

将遗忘问题形式化为一个带约束的优化问题：

目标：最小化剩余数据（Retained Data）上的损失 $L_r(\Theta)$ ，以保持模型效用。
约束：确保目标遗忘数据（Unlearning Data）上的损失 $L_u(\Theta)$ 大于某个阈值 $\gamma$ （即模型必须“忘记”这些数据，使其预测变得不确定）。
正则化：引入近端项（Proximal term）防止参数偏离初始值过远，避免灾难性遗忘。

B. 原始 - 对偶框架 (Primal-Dual Framework)

利用拉格朗日对偶性，将约束问题转化为鞍点问题（Saddle-point problem）：
$\min_{\Theta} \max_{\Omega \ge 0} \left( L_r(\Theta) + \frac{\rho}{2}\|\Theta - \Theta_{init}\|^2 + \Omega(\gamma - L_u(\Theta)) \right)$

原始变量 ( $\Theta$ )：模型参数。
对偶变量 ( $\Omega$ )：作为遗忘强度的“证书”。当模型未能满足遗忘约束时， $\Omega$ 增大，施加更大的遗忘压力；当满足约束时， $\Omega$ 减小。
优化过程：交替更新原始变量（最小化剩余数据损失）和对偶变量（最大化遗忘约束的违反程度）。

C. 关键技术创新

基于不确定性的遗忘损失函数 (Uncertainty-based Unlearning Loss)：
- 不同于传统的梯度上升（强制模型将目标数据分类错误），FedORA 旨在让模型对目标数据产生最大不确定性（即输出均匀分布）。
- 损失函数设计为：最大化预测分布的熵（Entropy），同时最小化预测分布与均匀分布的 KL 散度。这避免了过度遗忘导致的模型性能崩溃。
自适应步长机制 (Adaptive Step Size)：
- 根据原始和对偶变量在连续迭代间的变化幅度，动态调整步长。如果变化剧烈则减小步长以保证稳定性，变化平缓则增大步长加速收敛。
非对称批处理设计 (Asymmetric Batch Design)：
- 遗忘数据：使用全量批次（Full Batch）处理，确保彻底移除影响。
- 剩余数据：由于剩余数据在初始训练中已影响模型，无需全量重训。FedORA 仅采样部分批次（比例 $\delta$ ）进行处理。这显著降低了计算和通信开销。

3. 主要贡献 (Key Contributions)

首创性框架：提出了 VFL 中首个基于原始 - 对偶优化的样本和标签遗忘方法（FedORA）。
新的损失函数：设计了鼓励分类不确定性的损失函数，解决了梯度上升方法的不稳定性问题。
效率优化：引入了自适应步长和非对称批处理策略，在保证遗忘效果的同时大幅降低了计算和通信成本。
理论保证：证明了 FedORA 得到的模型与从头重训练（Train-from-scratch）得到的模型之间的差异是有界的，从理论上保证了遗忘的有效性。

4. 实验结果 (Results)

作者在表格数据（Income）和图像数据（MedMNIST, CIFAR-10/100, Tiny-ImageNet）上进行了广泛实验。

遗忘有效性 (Unlearning Effectiveness)：
- 在遗忘准确率（Unlearning Accuracy，越低越好）方面，FedORA 在大多数场景下优于或接近重训练（Retrain），显著优于梯度上升（GA）和其他基线方法。
- 在**成员推断攻击（MIA）和后门攻击（Backdoor Attack）**的防御能力上，FedORA 表现优异，MIA-ASR 接近 50%（随机猜测水平），BD-ASR 极低，证明目标数据的影响已被有效移除。
模型效用 (Utility Preservation)：
- 在剩余数据上的测试准确率（Test Accuracy）与重训练（Retrain）非常接近，远优于其他遗忘方法（如 GA、ICO、CVFU）。
效率 (Efficiency)：
- 计算与通信开销：FedORA 的运行时间显著低于重训练（Retrain）和 CVFU，略高于仅处理遗忘数据的梯度上升（GA），但考虑到其更好的效用保持和遗忘效果，性价比极高。
- 非对称批处理：实验表明，仅处理 5%-25% 的剩余数据即可达到与全量处理相近的模型效用，实现了约 4.5 倍的加速。
鲁棒性：
- 在非独立同分布（Non-IID）数据设置下，FedORA 依然保持稳定的遗忘能力和模型性能。
- 在加入高斯噪声（模拟差分隐私）的情况下，FedORA 仍能保持有效的遗忘效果。

5. 意义与结论 (Significance & Conclusion)

理论意义：首次将原始 - 对偶优化引入 VFL 遗忘领域，利用拉格朗日对偶性为遗忘过程提供了数学上的可行性与最优性证明。
实践意义：
- 为垂直联邦学习场景下的数据合规（GDPR 等）提供了一套高效、可落地的解决方案。
- 解决了 VFL 中因特征分布在不同方而导致的遗忘协调难题。
- 通过“不确定性”而非“错误分类”的遗忘策略，有效平衡了“彻底遗忘”与“保留模型通用能力”之间的矛盾。
未来展望：论文指出当前工作主要集中在样本和标签删除，未来可探索标签修正（Label Correction）场景，以及将该框架扩展到大语言模型（LLM）的联邦遗忘中。

总结：FedORA 通过巧妙的数学建模（原始 - 对偶框架）和工程优化（非对称批处理、自适应步长），在垂直联邦学习中实现了高效、稳定且理论可证的数据遗忘，是解决分布式 AI 隐私合规问题的重要进展。