ProxyFL: A Proxy-Guided Framework for Federated Semi-Supervised Learning

Each language version is independently generated for its own context, not a direct translation.

🌍 Le Problème : Une Classe Éparpillée et Confuse

Imaginez un grand projet d'école où des élèves de différentes écoles (les clients) doivent travailler ensemble pour créer un manuel de référence unique (le modèle global), mais sans jamais se montrer leurs cahiers personnels (pour protéger leur vie privée). C'est ce qu'on appelle l'apprentissage fédéré.

Le problème, c'est que dans ce projet, deux choses compliquent la tâche :

La différence entre les écoles (Hétérogénéité externe) : L'école A a des élèves qui adorent les chats, l'école B préfère les chiens, et l'école C n'aime que les hamsters. Si l'on mélange simplement leurs réponses, le manuel final risque d'être bizarre et confus.
Le manque d'étiquettes à l'intérieur de chaque école (Hétérogénéité interne) : Dans chaque école, seuls quelques élèves ont des étiquettes claires sur leurs dessins ("C'est un chat !"), mais la majorité a des dessins sans étiquette. Les élèves doivent deviner ("C'est peut-être un chat ?"). Souvent, ils ne sont pas sûrs d'eux. Pour éviter les erreurs, les méthodes actuelles jettent simplement les dessins où les élèves sont hésitants. Résultat ? On perd beaucoup de matériel utile !

🚀 La Solution : ProxyFL (Le Guide des "Proxys")

Les auteurs proposent une nouvelle méthode appelée ProxyFL. Au lieu de simplement mélanger les réponses ou de jeter les doutes, ils utilisent un système de "Proxys" (des guides ou des ambassadeurs).

Voici comment cela fonctionne, étape par étape :

1. Les Proxys : Des Ambassadeurs au lieu de Chiffres

Au lieu de regarder les poids mathématiques complexes du modèle (comme si on regardait les notes brutes de chaque élève), ProxyFL utilise les poids du classificateur comme des "Proxys".

L'analogie : Imaginez que chaque catégorie (Chat, Chien, Hamster) a un Ambassadeur (un Proxy). Cet ambassadeur représente l'idée parfaite de ce qu'est un "Chat" pour tout le groupe.
Pourquoi c'est génial ? Ces ambassadeurs sont déjà dans le modèle, donc on n'a pas besoin de les envoyer partout (pas de coût de communication supplémentaire) et ils ne révèlent pas les données privées des élèves.

2. Pour le Problème des Écoles Différentes (Hétérogénéité Externe)

L'ancienne méthode : Le professeur central prenait la moyenne des ambassadeurs de chaque école. Si une école avait un élève très bruyant (une "valeur aberrante" ou outlier), la moyenne était faussée.
La méthode ProxyFL (Ajustement Global) : Le professeur central ne se contente pas de faire une moyenne. Il réajuste les ambassadeurs globaux. Il dit : "Écoutez, l'ambassadeur 'Chat' de l'école A est un peu trop excentré. On va le rapprocher doucement des autres pour qu'il représente vraiment l'idée de 'Chat' pour tout le monde, sans se laisser influencer par les cas bizarres."
Résultat : Le manuel final est plus juste et plus robuste, même si les écoles sont très différentes.

3. Pour le Problème des Doutes (Hétérogénéité Interne)

C'est ici que ProxyFL brille vraiment. Quand un élève est hésitant sur un dessin (faible confiance), les anciennes méthodes le jetaient. ProxyFL dit : "Ne le jetez pas ! Utilisons-le intelligemment."

Le concept de "Catégories Indécises" : Au lieu de forcer l'élève à choisir un seul animal (ce qui risque d'être faux), ProxyFL lui permet de dire : "Je ne suis pas sûr, mais ce dessin ressemble à la fois à un Hamster et à une Souris."
La Piscine de Proxys Positifs/Négatifs :
- On crée un groupe de "Proxys Positifs" (les ambassadeurs des catégories possibles : Hamster ET Souris).
- On crée un groupe de "Proxys Négatifs" (tout ce qui ne ressemble pas à ça, comme un Chat ou un Chien).
- L'élève apprend alors à rapprocher son dessin des ambassadeurs "Hamster/Souris" et à l'éloigner des autres.
L'analogie : C'est comme si un élève hésitant disait : "Je ne suis pas sûr si c'est un chat ou un chien, mais je suis sûr que ce n'est pas une voiture." Le système utilise cette certitude négative pour apprendre, au lieu de jeter l'élève parce qu'il n'est pas sûr à 100%.

🏆 Pourquoi c'est une révolution ?

On ne jette plus rien : On utilise même les élèves les plus hésitants, ce qui accélère l'apprentissage.
On évite les erreurs de moyenne : En ajustant les ambassadeurs (Proxys) au lieu de faire une moyenne brute, on évite que les écoles "bizarres" ne gâchent le travail de tout le monde.
Confidentialité préservée : Comme les Proxys sont juste des parties du modèle, personne ne voit les données brutes des élèves.

En résumé

ProxyFL est comme un chef d'orchestre très malin. Au lieu de forcer tous les musiciens (les clients) à jouer exactement la même note ou de rejeter ceux qui jouent faux, il :

Ajuste la partition globale pour qu'elle soit parfaite malgré les différences d'écoles.
Permet aux musiciens incertains de jouer une "gamme de notes possibles" au lieu de se taire, en les guidant vers les bonnes familles d'instruments.

Le résultat ? Un modèle global qui apprend plus vite, mieux, et avec beaucoup plus de données, tout en respectant la vie privée de chacun.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

L'apprentissage semi-supervisé fédéré (FSSL) vise à entraîner collaborativement un modèle global en exploitant des données partiellement annotées chez les clients, tout en préservant la vie privée. Cependant, cette tâche se heurte à deux défis majeurs liés à l'hétérogénéité des données :

Hétérogénéité externe (entre les clients) : Les distributions de données varient considérablement d'un client à l'autre (non-IID). Les méthodes d'agrégation traditionnelles (comme la moyenne pondérée des poids) peinent à capturer la distribution globale idéale car elles sont sensibles aux valeurs aberrantes (outliers) provenant de clients aux distributions très différentes.
Hétérogénéité interne (au sein d'un client) : Il existe un déséquilibre entre les données étiquetées et non étiquetées, ainsi qu'un déséquilibre entre les classes. Les méthodes FSSL actuelles filtrent souvent les échantillons non étiquetés à faible confiance pour éviter les erreurs d'étiquetage (pseudo-labels). Cela réduit la quantité de données disponibles pour l'entraînement, aggravant le problème de l'hétérogénéité interne et ralentissant la convergence.

L'article identifie deux questions clés : comment modéliser la distribution globale sans biais d'agrégation simple, et comment exploiter efficacement les échantillons non étiquetés à faible confiance sans introduire de bruit excessif ?

2. Méthodologie : ProxyFL

Les auteurs proposent ProxyFL, un cadre unifié qui utilise les poids appris du classifieur comme "proxies" pour modéliser la distribution des catégories, tant localement que globalement. Cette approche évite les problèmes de confidentialité et les coûts de communication supplémentaires, car les proxies font partie intégrante des paramètres du modèle.

Le cadre repose sur deux mécanismes principaux :

A. Ajustement Global des Proxies (Global Proxy Tuning - GPT)

Pour résoudre l'hétérogénéité externe, ProxyFL ne se contente pas de moyenner les poids des classifieurs locaux.

Principe : Le serveur maintient un ensemble de "proxies globaux" $\Omega_G$ (un vecteur par catégorie).
Optimisation : Au lieu d'une agrégation simple, le serveur optimise explicitement ces proxies globaux pour qu'ils soient proches des proxies locaux de la même catégorie et éloignés des autres catégories.
Objectif : Minimiser une fonction de perte de type contraste (inspirée de la perte softmax) qui attire les proxies globaux vers les clusters locaux pertinents tout en repoussant les outliers. Cela permet de mieux s'adapter à la distribution globale réelle malgré les disparités entre clients.

B. Apprentissage de Proxies à Catégories Indécises (Indecisive-Categories Proxy Learning - ICPL)

Pour résoudre l'hétérogénéité interne et exploiter les données à faible confiance :

Construction d'ensembles de catégories : Au lieu d'assigner un seul pseudo-label (risqué pour les échantillons à faible confiance), le système construit un ensemble de catégories indécises ( $\xi_i$ ) pour chaque échantillon non étiqueté à faible confiance. Cet ensemble contient plusieurs catégories probables (ex: {souris, hamster}) plutôt qu'une seule prédiction.
Priorité Dynamique : Un prior global dynamique $P'_G(Y)$ est utilisé pour contraindre la sélection de ces catégories, ajustant les seuils selon la fréquence des classes (majoritaires vs minoritaires).
Pool de Proxies Positifs/Négatifs : Un mécanisme d'apprentissage contrastif est introduit.
- Proxy Positif : Pour un échantillon à faible confiance, le proxy positif est une somme pondérée des poids des catégories de son ensemble $\xi_i$ .
- Proxies Négatifs : Tout autre échantillon dont l'ensemble de catégories ne chevauche pas celui de l'échantillon courant est considéré comme négatif.
Avantage : Cela permet d'inclure tous les échantillons (même à faible confiance) dans l'entraînement tout en atténuant l'impact des erreurs d'étiquetage potentielles grâce à la supervision par ensemble plutôt que par label unique.

3. Contributions Clés

Première approche unifiée : C'est la première méthode FSSL à utiliser un proxy unique pour atténuer simultanément l'hétérogénéité externe (via GPT) et interne (via ICPL).
Efficacité et Confidentialité : L'utilisation des poids du classifieur comme proxies n'ajoute aucun coût de communication significatif ni risque de fuite de données (contrairement aux prototypes de features qui pourraient permettre une reconstruction inverse).
Nouvelle stratégie d'agrégation et d'entraînement : Remplacement de l'agrégation par moyenne simple par une optimisation explicite des proxies globaux, et remplacement du filtrage des données à faible confiance par une stratégie d'ensemble de catégories.

4. Résultats Expérimentaux

Les expériences ont été menées sur plusieurs jeux de données (CIFAR-10, CIFAR-100, SVHN, CINIC-10) avec différents niveaux d'hétérogénéité (paramètre $\alpha$ de la distribution de Dirichlet).

Performance : ProxyFL surpasse systématiquement les méthodes de l'état de l'art (FedAvg, FedProx, FedMatch, SAGE, etc.) sur tous les jeux de données et tous les niveaux d'hétérogénéité.
- Exemple : Sur CIFAR-100 avec $\alpha=0.1$ (très hétérogène), ProxyFL atteint 58.75% contre 55.82% pour le meilleur concurrent (SAGE).
- Sur SVHN et CINIC-10, les gains sont également significatifs (jusqu'à +3.39% d'amélioration par rapport au second meilleur).
Convergence : L'analyse montre que ProxyFL converge beaucoup plus rapidement que les méthodes de base. Il atteint des niveaux de précision élevés avec moins de rounds de communication (ex: 45 rounds contre 119 pour LPL sur CIFAR-100 à 30% de précision).
Analyse des modules : Les études d'ablation confirment que les modules GPT et ICPL sont tous deux essentiels et que leur combinaison offre les meilleurs résultats. L'ajustement des proxies globaux s'avère robuste face aux outliers, et l'utilisation des ensembles de catégories indécises est supérieure à l'attribution directe de pseudo-labels ou au rejet des données.

5. Signification et Impact

ProxyFL représente une avancée significative dans le domaine de l'apprentissage fédéré semi-supervisé. En traitant simultanément les problèmes de distribution entre les clients et la gestion des données non étiquetées incertaines, il offre une solution robuste aux scénarios réels où les données sont rares, déséquilibrées et privées.

L'innovation principale réside dans le changement de paradigme : au lieu de filtrer les données "douteuses" ou de moyenner aveuglément les modèles, ProxyFL modélise l'incertitude via des ensembles de catégories et optimise la représentation globale via des proxies. Cela permet d'exploiter la totalité des données disponibles tout en maintenant une haute précision, rendant le FSSL plus viable pour des applications industrielles complexes.