Towards Privacy-Guaranteed Label Unlearning in Vertical Federated Learning: Few-Shot Forgetting without Disclosure

Each language version is independently generated for its own context, not a direct translation.

🏠 物語の舞台：二人の料理人（垂直型フェデレーテッド学習）

まず、この技術がどんな状況で使われるか想像してください。

A さん（病院）： 患者さんの「病気の有無（ラベル）」を知っているが、詳しい検査データは持っていない。
B さん（検査機関）： 患者さんの「詳細な検査データ（特徴量）」を持っているが、病気の有無は知らない。

この二人は、お互いのデータを直接見せ合わずに（プライバシーを守りながら）、協力して「病気を診断する AI」を作ります。これを**「垂直型フェデレーテッド学習」**と呼びます。

🚫 問題：「忘れたい」という権利

ある日、患者さんが「私のデータを使って AI を作らないでください。私の病歴を忘らせてください（GDPR などの権利）」と申し出ました。

従来の方法： AI を最初から作り直す（全リトレーニング）。
- 問題点： 時間がかかりすぎる。また、B さん（検査機関）に「あ、A さんが特定の患者のデータを消したいと言った」という情報が漏れてしまうリスクがある。
既存の「忘れさせる」技術： 水平型（みんなが同じデータを持っている場合）では研究が進んでいますが、この「二人が役割分担している場合」では、「ラベル（病気の有無）」だけを消す方法がほとんどありませんでした。

💡 解決策：「魔法の混ぜ合わせ」で瞬時に忘れる

この論文の著者たちは、**「少量のデータで、瞬時に、かつ安全に忘れさせる」**という新しい方法を考え出しました。

1. 「マンダラ・ミックスアップ」：料理の味付けを混ぜる

通常、何かを「忘れる」には、そのデータそのものが必要です。でも、プライバシーを守るために、消したいデータそのものは使えません。

そこで、著者たちは**「マンダラ・ミックスアップ（Manifold Mixup）」**という技術を応用しました。

例え話：
- 消したい「辛いカレー（患者 A）」と、残したい「甘口カレー（患者 B）」の**「味（特徴）」を、AI の頭の中で混ぜ合わせて、「新しい架空のカレー」**を作ります。
- この「架空のカレー」は、実際には存在しないものですが、AI にとっては「辛い味」と「甘口味」が混ざったような**「合成されたデータ」**として認識されます。
- これを「少量のサンプル」で行うだけで、AI は「辛いカレー（消したいデータ）」の存在を、まるで最初からなかったかのように薄れさせることができます。

2. 「逆方向への押し戻し」：記憶を消す

AI が「架空のカレー」を見て学習する際、通常の学習（正解に近づける）とは逆に、**「あえて間違える方向（勾配上昇）」**にパラメータを調整します。

例え話：
- 「辛いカレー」の記憶を消したいので、AI に**「辛さをゼロにする」**ように強く指示します。
- これを A さん（ラベル持ち）と B さん（データ持ち）が協力して行いますが、B さんは「辛さ（ラベル）」そのものを見ずに、A さんから送られてくる「指示（勾配）」だけで、自分のデータから辛さの痕跡を消し去ることができます。

3. 「味付けの復元」：残った料理は美味しく

「辛いカレー」を消す過程で、「甘口カレー」の味まで薄れてしまうのが心配です。
そこで、最後に**「復元ステップ」**を行います。

例え話：
- 消したくない「甘口カレー」のデータを使って、AI の味付けを微調整し、元の美味しさを取り戻させます。

✨ この方法のすごいところ（3 つのメリット）

超高速（数秒で完了）：
- 最初から作り直す必要がありません。少量のデータで瞬時に処理できます。
プライバシー保護（誰にもバレない）：
- B さんは「誰のデータを消したか」を推測できません。A さんとのやり取りも、実際の患者データそのものではないため、漏洩のリスクが激減します。
精度維持（残ったデータは完璧）：
- 消したくないデータ（他の患者さん）の精度は、ほとんど落ちません。

🎯 まとめ

この論文は、**「AI から特定の人の記憶（ラベル）を消したい時、全データを消去し直す必要はない」**と証明しました。

まるで、**「料理の味付けを少し混ぜ合わせて、特定のスパイスの味だけを消し去り、他の味はそのまま保つ」**ような、精巧で効率的な魔法の技術です。

これにより、医療や金融など、プライバシーが極めて重要な分野でも、AI を使いながら「忘れられる権利」を尊重できるようになります。

コードは公開されています：
https://github.com/bryanhx/Towards-Privacy-Guaranteed-Label-Unlearning-in-Vertical-Federated-Learning

Each language version is independently generated for its own context, not a direct translation.

この論文は、垂直連合学習（Vertical Federated Learning: VFL）における「ラベルの忘却（Label Unlearning）」という、これまで注目されてこなかった課題に焦点を当てた研究です。以下に、問題定義、提案手法、主要な貢献、実験結果、および意義について詳細に要約します。

1. 問題定義と背景

垂直連合学習（VFL）の特性: VFL では、複数の組織が異なる特徴量（Feature）を持ち、共通のサンプル ID 空間を共有してモデルを構築します。通常、ラベル（正解データ）を持つ「アクティブパーティ」と、特徴量を持つ「パッシブパーティ」が存在します。
忘却の必要性: GDPR や CCPA などの「忘れられる権利」規制により、特定のデータ（特にラベル）をモデルから削除する「機械的忘却（Machine Unlearning）」が求められています。
既存研究の限界: 従来の連合学習における忘却研究は、水平連合学習（HFL）や、パッシブパーティ全体が退出する場合の「特徴量の忘却」に集中していました。しかし、医療（HIV 陽性などの診断結果）や金融（ローン承認の可否）など、ラベル自体が極めて機微な情報である VFL 環境において、**「ラベルの忘却」**を効率的かつプライバシーを保護しながら行う手法は存在しませんでした。
VFL 特有の課題: VFL では、パッシブパーティとアクティブパーティの同期処理が必須であり、全参加者が完了するまで待機する必要があります。このため、忘却処理の効率化が極めて困難です。また、忘却プロセス中にラベル情報が漏洩するリスク（プロセスプライバシー）も懸念されます。

2. 提案手法：Few-Shot Label Unlearning

論文では、少量の公開データのみを用いて、アクティブ・パッシブ両方のモデルからラベル情報を効率的に削除する「Few-Shot Label Unlearning」フレームワークを提案しています。この手法は以下の 3 つのステップで構成されます。

ステップ 1: 垂直マンフォールドミックスアップ（Vertical Manifold Mixup）

目的: 忘却対象のラベルを持つデータが少量（Few-shot）しかない場合、直接の勾配更新では不十分になる問題を解決します。
手法: 特徴量そのものを混ぜるのではなく、各パッシブパーティが生成した埋め込み表現（Embedding）のレベルでミックスアップ（Manifold Mixup）を適用します。
- 公開データ $D_{p,u}$ の埋め込みを、同じパッシブパーティ内でランダムな係数 $\lambda$ を用いて線形結合し、合成埋め込み $\vec{H}^u$ を生成します。
- これにより、限られたデータから多様な合成信号を生成し、勾配推定の分散を低減します。

ステップ 2: 垂直勾配ベースのラベル忘却（Vertical Gradient-Based Label Unlearning）

アクティブパーティ: 合成された埋め込み $\vec{H}^u$ と、忘却対象ラベルの混合ラベル $\vec{y}^u$ を用いて、損失関数を**最大化（Gradient Ascent）**する方向にモデルパラメータを更新します。これにより、ラベル情報の学習を「逆転」させ、忘却させます。
パッシブパーティ: アクティブパーティから、合成埋め込みに対する勾配 $\frac{\partial \ell}{\partial \vec{H}^u_k}$ を受け取ります。これを用いて、ローカルモデルを同様に勾配上昇（Gradient Ascent）で更新します。
プライバシー保護: パッシブパーティは生のラベルにアクセスせず、勾配のみを通じて対応する表現を忘却します。

ステップ 3: 残存データの精度回復（Remained Accuracy Recovery）

目的: 忘却処理によって、残りのデータ（保持データ）に対するモデルの精度が低下するのを防ぎます。
手法: 保持データのラベルを持つ少量の公開データ $D_{p,r}$ を用いて、通常の勾配降下（Gradient Descent）によりモデルを微調整します。これにより、忘却対象以外のタスク性能を維持します。

3. 主要な貢献

VFL におけるラベル忘却の初提案: VFL 環境におけるラベル忘却に特化した最初の手法を提案しました。
Few-Shot 学習とマンフォールドミックスアップの活用: 少量の公開データ（ラベル付き）のみで、効率的かつ効果的な忘却を実現する新しいアーキテクチャを設計しました。これにより、全データ再学習や大量の補助データが不要になりました。
プロセスプライバシーの定義と検証: 忘却プロセス自体がパッシブパーティにどの程度の情報を漏らすかという「プロセスプライバシー」の概念を定義し、提案手法が再学習や既存手法に比べて漏洩リスクを大幅に低減することを理論的・実証的に示しました。

4. 実験結果

MNIST, CIFAR-10/100, ModelNet, 脳腫瘍 MRI, COVID-19 画像、Yahoo Answers（テキスト）など、多様なデータセットとモデル（ResNet18, Vgg16, MixText）を用いて評価されました。

性能維持（Utility Preservation）: 保持データ（ $D_r$ ）の精度をほぼ維持（再学習レベル）しつつ、忘却対象ラベル（ $y_u$ ）の予測精度をほぼ 0% にまで低下させました。既存手法（Fine-Tuning, Fisher Forgetting など）は、複雑なデータセットで保持精度が著しく低下する傾向がありました。
忘却効果（Unlearning Effectiveness）: メンバーシップ推論攻撃（MIA）に対する攻撃成功率（ASR）が、再学習モデルと同程度かそれ以下に抑えられ、ラベル情報がモデルから適切に削除されたことを示しました。
計算効率: 再学習や全データを用いる手法に比べ、実行時間が劇的に短縮されました（16 倍〜1200 倍高速）。パッシブパーティの数が増えても、実行時間は線形的にしか増加しません。
多様性: 画像データだけでなく、テキストデータ（Yahoo Answers）でも高い有効性を示し、モダリティに依存しないロバスト性を確認しました。
プライバシー漏洩: 再学習では 100% のメンバーシップ漏洩が発生するのに対し、提案手法では CIFAR-10 で約 14%、CIFAR-100 で約 4% まで漏洩率を低減しました。

5. 意義と結論

この研究は、VFL におけるプライバシー保護の新たな方向性を示しています。特に、ラベルという機微な情報を、再学習なしで、かつ他パーティへの情報漏洩を最小限に抑えながら削除する手法は、医療や金融など規制の厳しい分野での VFL 実用化に不可欠です。
「マンフォールドミックスアップ」を忘却の効率化メカニズムとして再定義し、少量データで高品質な忘却を実現した点は、機械学習の忘却研究全体においても重要な進展です。コードは公開されており、今後の研究や実装の基盤となるでしょう。