Towards Privacy-Guaranteed Label Unlearning in Vertical Federated Learning: Few-Shot Forgetting without Disclosure

Each language version is independently generated for its own context, not a direct translation.

🧠 Le Problème : L'Effet "Oublier" dans un Monde Collaboratif

Imaginez que plusieurs hôpitaux (ou banques) veulent travailler ensemble pour créer un super-médecin (ou un super-banquier) capable de diagnostiquer des maladies ou d'évaluer des risques. Ils ne veulent pas partager leurs dossiers patients secrets (les données brutes), alors ils utilisent une technique appelée Apprentissage Fédéré Vertical.

Le Scénario : L'Hôpital A a les photos des poumons (les caractéristiques), et l'Hôpital B a les résultats des analyses de sang (les étiquettes/labels). Ensemble, ils entraînent un modèle.
Le Dilemme : Un jour, un patient dit : "J'ai changé d'avis, effacez mes données de votre système, je veux que vous m'oubliiez" (c'est le "droit à l'oubli" ou Right to be Forgotten).
Le Problème actuel : Pour effacer l'influence de ce patient, les méthodes actuelles sont soit trop lentes (il faut tout recommencer de zéro, comme réécrire tout un livre pour changer une virgule), soit elles laissent des traces qui permettent de deviner quel patient a été effacé. C'est comme essayer de retirer une tache de café d'un tapis blanc sans abîmer le tissu ni laisser de trace de l'aspirateur.

💡 La Solution : La "Gomme Magique" à Few-Shot (Peu d'exemples)

Les auteurs de ce papier proposent une nouvelle méthode pour effacer ces données sensibles (les étiquettes, comme "HIV positif" ou "Prêt refusé") sans tout casser et sans que personne ne sache qui a été effacé.

Voici comment cela fonctionne, étape par étape, avec des analogies :

1. Le "Mixup" de Manifold : La Cuisine de l'Imagination 🥣

Au lieu d'avoir besoin de tous les dossiers du patient à effacer (ce qui est risqué pour la vie privée), la méthode utilise un petit nombre d'exemples publics (disons 40 photos de chats et de chiens).

L'analogie : Imaginez que vous voulez apprendre à un cuisinier à ne plus faire un plat spécifique (le "plat à oublier"). Au lieu de lui donner la recette complète du plat à oublier, vous lui donnez quelques ingrédients de base et vous lui demandez de mélanger (mixer) des ingrédients de différents plats pour créer de nouvelles combinaisons imaginaires.
En technique : Ils créent des "images synthétiques" en mélangeant les représentations internes des données. Cela permet de générer une infinité de variations virtuelles à partir de très peu de données réelles. C'est comme si vous appreniez à un artiste à oublier un style de peinture en lui montrant seulement quelques croquis mélangés, plutôt que tout son portfolio.

2. L'Effacement par "Remontée" (Gradient Ascent) : Le Revers de la Médaille 🔄

Une fois ces mélanges créés, le modèle apprend à faire l'inverse de ce qu'il doit faire.

L'analogie : Si le modèle a appris à dire "C'est un chat" pour une image, on lui dit maintenant : "Non, dis que c'est un chien !". On pousse le modèle dans la direction opposée à ce qu'il a appris.
Le résultat : Le modèle "oublie" activement l'information spécifique liée à l'étiquette qu'on veut supprimer, comme si on lui faisait faire un pas en arrière pour annuler un pas en avant.

3. La Récupération : Le "Rattrapage" 🏃‍♂️

Parfois, en effaçant une chose, on abîme un peu les autres.

L'analogie : Imaginez que vous effacez une tache sur un t-shirt, mais vous avez un peu froissé le tissu autour. Cette étape consiste à "repasser" le tissu pour que le reste du t-shirt (les autres patients, les autres maladies) reste parfaitement lisse et précis.
En technique : Ils réajustent le modèle sur les données qui ne doivent pas être effacées pour s'assurer que la précision globale reste excellente.

🛡️ Pourquoi c'est révolutionnaire ?

Vitesse Éclair ⚡ : Au lieu de réentraîner tout le modèle (ce qui prendrait des heures ou des jours), cette méthode fait le travail en quelques secondes. C'est comme utiliser un correcteur instantané plutôt que de réécrire tout le document.
Confidentialité Totale 🔒 : C'est le point le plus important. Dans les méthodes précédentes, quand on demandait d'effacer un patient, les autres hôpitaux pouvaient parfois deviner quel patient avait été effacé en regardant les changements. Ici, grâce à la méthode de mélange (mixup) et à l'utilisation de très peu de données publiques, personne ne peut savoir qui a été effacé. C'est comme si vous retiriez une page d'un livre sans que les autres lecteurs ne sachent laquelle c'était.
Efficacité avec peu de données 📉 : On n'a besoin que d'un tout petit échantillon de données publiques (quelques dizaines) pour effacer l'influence de milliers de données privées. C'est comme utiliser une petite clé pour déverrouiller une porte massive.

🎯 En Résumé

Ce papier présente une gomme magique pour l'intelligence artificielle collaborative. Elle permet de respecter le droit à l'oubli des individus (effacer leurs données sensibles) :

Sans ralentir le système.
Sans abîmer la qualité des prédictions pour les autres.
Et surtout, sans révéler qui a demandé à être oublié.

C'est une avancée majeure pour la confiance dans les systèmes de santé et bancaires, garantissant que la technologie peut apprendre de nous sans jamais nous "harcèlement" avec nos données passées.

Each language version is independently generated for its own context, not a direct translation.

1. Le Problème : L'oubli des étiquettes en Apprentissage Fédéré Vertical (VFL)

L'apprentissage fédéré vertical (VFL) permet à plusieurs organisations de collaborer sur un modèle commun en partageant des identifiants d'échantillons communs, mais en conservant des caractéristiques (features) différentes. Dans ce cadre, une partie "active" détient les étiquettes (labels), tandis que les parties "passives" détiennent les caractéristiques.

Le papier aborde un défi critique souvent négligé : l'oubli des étiquettes (Label Unlearning). Contrairement à l'apprentissage horizontal où l'on oublie souvent des clients entiers, le VFL nécessite de supprimer l'influence d'un sous-ensemble spécifique d'étiquettes (souvent sensibles, comme un diagnostic médical ou un statut de crédit) sans réentraîner l'ensemble du modèle.

Les défis majeurs identifiés sont :

Sensibilité des données : Les étiquettes dans le VFL sont souvent des informations hautement confidentielles.
Contraintes de synchronisation : Le VFL exige une coordination stricte entre les parties, rendant les processus d'oubli coûteux en temps de calcul.
Manque de solutions existantes : Les méthodes actuelles de "Federated Unlearning" se concentrent principalement sur la suppression de clients passifs ou de caractéristiques, et non sur la suppression d'étiquettes spécifiques tout en protégeant la vie privée des données supprimées durant le processus.
Efficacité des données : Obtenir un grand nombre d'échantillons d'entraînement pour l'oubli est souvent impossible ou coûteux, nécessitant des méthodes "Few-Shot" (peu d'échantillons).

2. Méthodologie Proposée

Les auteurs proposent un cadre d'oubli Few-Shot (peu d'échantillons) qui repose sur trois étapes principales, illustrées dans la Figure 1 du papier :

A. Manifold Mixup Vertical (Augmentation des données)

Pour pallier le manque de données d'entraînement pour l'oubli (seulement quelques échantillons étiquetés disponibles, notés $D_{p,u}$ ), l'équipe réutilise la technique de Manifold Mixup.

Au lieu de mélanger directement les images ou les textes, le mélange se fait au niveau des embeddings (représentations latentes) générés par les modèles passifs.
La partie active génère des embeddings synthétiques en interpolant les représentations de deux échantillons d'oubli : $\vec{H} = \lambda H_i + (1-\lambda)H_j$ .
Cela crée une distribution de données enrichie et "aplatie", fournissant des signaux plus robustes pour les étapes suivantes, même avec un très petit nombre d'échantillons (ex: 40 par classe).

B. Oubli par Ascension de Gradient (Gradient Ascent)

Une fois les embeddings augmentés générés, la partie active et les parties passives effectuent une mise à jour pour "oublier" les étiquettes cibles :

Partie Active : Elle effectue une ascension de gradient (Gradient Ascent) sur la fonction de perte par rapport aux étiquettes à oublier. Cela maximise l'erreur sur ces étiquettes spécifiques, forçant le modèle à les "oublier".
Parties Passives : Elles reçoivent les gradients inverses de la partie active et mettent à jour leurs modèles locaux de manière à annuler l'influence des représentations associées aux étiquettes supprimées, sans jamais avoir accès aux étiquettes brutes.
Théorème 1 : Les auteurs démontrent théoriquement que la direction de mise à jour obtenue via ce mixup sur un petit ensemble public est positivement alignée avec celle qui serait obtenue en utilisant l'ensemble complet des données à oublier.

C. Récupération de la Précision (Remained Accuracy Recovery)

L'oubli agressif peut dégrader les performances sur les données conservées ( $D_r$ ). Pour contrer cela, une étape de récupération est introduite :

En utilisant un petit ensemble de données conservées ( $D_{p,r}$ ), le modèle subit une descente de gradient standard (Gradient Descent) pour restaurer la précision sur les classes restantes.
Cela garantit que l'efficacité de l'oubli ne se fait pas au détriment de l'utilité globale du modèle.

3. Contributions Clés

Première approche pour l'oubli d'étiquettes en VFL : C'est le premier travail à adresser spécifiquement la suppression d'étiquettes sensibles dans un cadre VFL, où les parties actives et passives doivent toutes participer au processus d'oubli.
Méthode Few-Shot efficace : L'utilisation du Manifold Mixup permet d'atteindre des performances d'oubli élevées avec un nombre très réduit d'échantillons (jusqu'à 40 par classe), évitant ainsi le besoin de réentraînement complet.
Protection de la vie privée du processus (Process Privacy) : Les auteurs introduisent le concept de "Process Privacy". Contrairement aux méthodes de réentraînement ou d'oubli par frontière (Boundary Unlearning) qui peuvent révéler aux parties passives quelles étiquettes sont supprimées (via les gradients ou les IDs), leur méthode limite la fuite d'information. Les parties passives ne voient que des embeddings mélangés de données publiques, réduisant considérablement le taux de fuite de membres (Membership Leakage).
Efficacité computationnelle : Le processus est extrêmement rapide (quelques secondes), car il ne nécessite pas de réentraînement sur l'ensemble du dataset.

4. Résultats Expérimentaux

Les auteurs ont évalué leur méthode sur sept jeux de données variés (images et texte) : MNIST, CIFAR-10/100, ModelNet, IRM cérébrale (Brain Tumor MRI), Radiographie COVID-19 et Yahoo Answers.

Préservation de l'utilité ( $D_r$ ) : La méthode proposée maintient une précision élevée sur les données conservées (souvent > 89-98%), surpassant ou égalant les méthodes de référence comme le Fine-Tuning (FT) et le SSD, tout en évitant la dégradation sévère observée avec Fisher Forgetting ou Amnesiac.
Efficacité de l'oubli ( $y_u$ ) : La précision sur les étiquettes oubliées chute drastiquement (proche de 0% ou au niveau du hasard), indiquant que le modèle a effectivement oublié ces informations.
Taux de réussite de l'attaque (ASR) : Le taux de réussite des attaques d'inférence de membres (MIA) est faible, prouvant que le modèle ne fuit pas d'informations sur les données supprimées.
Efficacité temporelle : La méthode est 16 à 1200 fois plus rapide que les méthodes existantes (comme le réentraînement ou le Fine-Tuning), car elle ne nécessite que quelques époques sur un petit sous-ensemble de données.
Robustesse : Les résultats restent stables quel que soit le nombre de parties passives (de 1 à 8) et fonctionnent également avec des mécanismes de protection de la vie privée supplémentaires (Différentielle Privée, Compression de gradients).
Comparaison avec le "Streisand Effect" : Contrairement à certaines méthodes qui font que le modèle prédit systématiquement une mauvaise classe (Streisand effect), la méthode proposée atteint un équilibre où l'oubli est réel sans créer de biais étrange révélateur.

5. Signification et Impact

Ce travail établit une nouvelle direction pour l'apprentissage fédéré vertical en répondant aux exigences réglementaires croissantes (comme le RGPD et le CCPA) concernant le "droit à l'oubli".

Innovation Théorique : Il formalise le problème de l'oubli d'étiquettes en VFL et prouve mathématiquement que l'oubli peut être efficace avec très peu de données grâce au mixup de variétés (manifold mixup).
Pratique et Sécurité : En garantissant que le processus d'oubli lui-même ne révèle pas quelles données sont supprimées (Process Privacy), cette méthode rend le VFL beaucoup plus viable pour des secteurs sensibles comme la santé et la finance.
Efficacité : La capacité d'oublier des étiquettes en quelques secondes, sans réentraînement massif, rend cette technologie applicable en temps réel dans des environnements de production.

En résumé, cette recherche démontre qu'il est possible de concevoir des mécanismes d'oubli à la fois efficaces, rapides et respectueux de la vie privée dans des architectures complexes de VFL, en réimaginant l'augmentation de données (mixup) comme un outil central pour la suppression de connaissances.