Federated Active Learning Under Extreme Non-IID and Global Class Imbalance

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple et imagée de ce papier de recherche, conçue pour être comprise par tout le monde, même sans bagage technique.

🌍 Le Problème : Une École où les Élèves ne se parlent pas

Imaginez un grand projet éducatif mondial. Au lieu de mettre tous les élèves dans la même classe (ce qui serait une violation de la vie privée), chaque élève reste chez lui avec ses propres cahiers. Ils doivent apprendre ensemble à reconnaître des objets (comme des chats, des voitures ou des maladies) sans jamais montrer leurs cahiers à personne. C'est ce qu'on appelle l'apprentissage fédéré.

Mais il y a deux gros problèmes dans cette école :

Le déséquilibre des matières (Imbalance Globale) : Imaginez que sur 100 élèves, 90 ont des cahiers remplis de photos de "chats", mais seulement 5 ont des photos de "girafes" et 5 d'"éléphants". Si l'école apprend uniquement sur ce qui est le plus courant, elle deviendra experte en chats mais ignorera totalement les girafes. C'est le problème de la longue traîne : les cas rares sont ignorés.
Les différences locales (Non-IID) : Chaque élève a un style d'écriture différent. Certains dessinent des chats très réalistes, d'autres des croquis abstraits. Si l'enseignant essaie de tout mélanger sans faire attention, le cours devient confus.

De plus, l'école a un budget très serré pour les correcteurs (les humains qui étiquettent les images). Elle ne peut pas tout corriger. Elle doit donc choisir intelligemment quelles images montrer aux correcteurs pour apprendre le plus vite possible. C'est l'apprentissage actif.

🔍 La Découverte : Qui est le meilleur professeur ?

Les chercheurs se sont demandé : "Pour choisir les images à corriger, devons-nous utiliser le cerveau du professeur principal (le modèle global) ou celui de l'élève individuel (le modèle local) ?"

Ils ont découvert une règle d'or, un peu comme choisir entre un expert généraliste et un spécialiste local :

Si la classe est très déséquilibrée (beaucoup de chats, peu de girafes) mais que tous les élèves dessinent de la même façon, le Professeur Principal est le meilleur. Il a vu assez de données pour comprendre que les girafes sont rares et importantes, et il peut guider les élèves à les chercher.
Si les élèves sont très différents (chacun a son propre style de dessin), le Professeur Principal se perd. Il devient trop "moyen" et ne voit pas les spécificités. Dans ce cas, il vaut mieux que chaque élève choisisse ses propres images à corriger, car il connaît mieux son propre style.

Le secret du succès ? Peu importe qui choisit, l'objectif final est toujours le même : s'assurer qu'on ne corrige pas que des chats ! Il faut forcer l'école à regarder les girafes et les éléphants, même si c'est difficile.

🛠️ La Solution : FairFAL (L'École Équitable)

Pour résoudre ce casse-tête, les chercheurs ont créé FairFAL. C'est un système intelligent qui agit comme un directeur d'école très organisé. Voici comment il fonctionne en trois étapes simples :

1. Le Thermomètre Intelligent (Sélection Adaptative)

Avant chaque leçon, le directeur vérifie deux choses :

"Est-ce qu'on a trop de chats et pas assez de girafes dans l'ensemble ?" (Imbalance globale).
"Est-ce que les élèves dessinent tous pareil ou sont-ils très différents ?" (Hétérogénéité locale).

Selon la réponse, il décide instantanément : "Aujourd'hui, c'est le Professeur Principal qui choisit les images" OU "Aujourd'hui, chaque élève choisit pour lui-même". C'est comme changer de mode de chauffage selon la météo : on s'adapte pour rester au chaud (performant).

2. Le Guide des Modèles (Étiquetage par Prototype)

Souvent, les élèves sont biaisés : ils pensent que tout ce qui ressemble vaguement à un chat est un chat. Pour éviter ça, FairFAL utilise un guide visuel.

Imaginez qu'on crée un "modèle parfait" de chat, de girafe et d'éléphant en utilisant les meilleures images de l'école.
Quand un élève voit une nouvelle image, il ne se fie pas à son intuition, mais il la compare à ces modèles parfaits.
Si l'image ressemble plus à un modèle de girafe, on lui dit : "Attention, c'est une girafe !". Cela force le système à chercher activement les images rares (les girafes) plutôt que de se contenter des images faciles (les chats).

3. Le Tri par Diversité (Échantillonnage Équilibré)

Une fois qu'on a identifié les images intéressantes (par exemple, les girafes), on ne veut pas en choisir 10 qui se ressemblent toutes (par exemple, 10 girafes qui regardent toutes à gauche).

Le système utilise une technique mathématique (appelée k-center) pour s'assurer que les 10 girafes choisies sont différentes entre elles : une qui regarde à gauche, une qui mange, une qui dort, etc.
Cela garantit que l'école apprend une vision complète et variée du monde, pas juste un cliché.

🏆 Le Résultat : Une École Plus Intelligente et Plus Juste

En testant cette méthode sur plusieurs jeux de données (images de vêtements, de voitures, et même de maladies de la peau), FairFAL a battu toutes les méthodes existantes.

Pourquoi est-ce important ?
Dans le monde réel, comme dans les hôpitaux ou les voitures autonomes, on ne veut pas d'une IA qui est excellente pour détecter les cas courants mais qui échoue lamentablement sur les cas rares et critiques (comme une maladie rare).

FairFAL assure que l'IA apprend équitablement. Elle ne sacrifie pas les minorités pour le confort de la majorité. C'est comme dire : "Peu importe que vous soyez un élève avec un cahier rempli de chats ou un élève avec un seul croquis de girafe, votre voix compte, et nous allons apprendre à tous ensemble."

En résumé, ce papier nous apprend que pour construire une intelligence artificielle collaborative et privée, il ne suffit pas de mélanger les données. Il faut être stratège (choisir le bon professeur), juste (chercher les cas rares) et varié (ne pas se répéter).

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

L'apprentissage fédéré (FL) permet d'entraîner des modèles collaboratifs sans partager les données brutes, préservant ainsi la vie privée. L'apprentissage actif (AL) vise à réduire les coûts d'annotation en sélectionnant les échantillons les plus informatifs. La combinaison de ces deux paradigmes, l'Apprentissage Actif Fédéré (FAL), est cruciale pour des déploiements réels où les budgets d'annotation sont limités.

Cependant, les méthodes FAL existantes échouent souvent dans des scénarios réalistes caractérisés par deux défis majeurs :

Non-IID extrême (Hétérogénéité des clients) : Les distributions de données varient considérablement d'un client à l'autre (gérées par le paramètre $\alpha$ de la partition Dirichlet).
Déséquilibre de classes global (Longue traîne) : La distribution globale des étiquettes est fortement biaisée, avec des classes minoritaires critiques apparaissant de manière éparses à travers les clients (gérée par le ratio de déséquilibre $\rho$ ).

Le problème central : Dans ces conditions, les stratégies d'acquisition actuelles tendent à ignorer les classes minoritaires, conduisant à un biais systématique vers les classes majoritaires ("head classes") et à une utilisation inefficace du budget d'annotation. De plus, il est incertain de savoir quel modèle (le modèle global agrégé ou le modèle local d'un client) devrait être utilisé pour sélectionner les échantillons à annoter.

2. Observations Empiriques Clés

Avant de proposer leur solution, les auteurs ont mené une étude systématique sur l'impact du choix du modèle de requête (Global vs Local) :

Observation 1 (Modèle de requête) :
- Pour les stratégies basées sur l'incertitude (ex: Entropie), le modèle local est généralement supérieur, sauf lorsque le déséquilibre global est sévère et que les clients sont relativement homogènes (dans ce cas, le modèle global aide à contrer le biais local).
- Pour les stratégies basées sur la diversité (ex: Coreset), le modèle global surpasse systématiquement le modèle local car il offre des représentations de caractéristiques plus discriminantes et alignées globalement.
Observation 2 (Équilibre des classes) : La performance finale est fortement corrélée à la capacité du modèle de requête à sélectionner un échantillonnage équilibré en termes de classes, en particulier pour les classes minoritaires.
Observation 3 (Représentations) : Le modèle global fournit des prototypes de classes plus robustes et cohérents que les modèles locaux, ce qui est essentiel pour guider l'acquisition dans un contexte de longue traîne.

3. Méthodologie : Le Framework FairFAL

Sur la base de ces observations, les auteurs proposent FairFAL, un cadre FAL adaptatif et équitable (class-fair) composé de trois modules principaux :

A. Sélection Adaptative de Modèle (Adaptive Model-Selection)

Pour décider dynamiquement quel modèle (Global ou Local) utiliser comme sélecteur de requête pour chaque client, sans fuite de données :

Le système estime deux métriques locales :
1. La sévérité du déséquilibre de classes global ( $\bar{\gamma}$ ).
2. La divergence entre la distribution locale et la distribution globale ( $d_k$ ).
Un score de sélection continu $s_k$ est calculé. Si le déséquilibre global est fort et que les clients sont homogènes, le modèle global est choisi. Sinon, le modèle local est privilégié.
Cette décision est prise localement en utilisant uniquement des statistiques agrégées, garantissant la confidentialité.

B. Étiquetage Pseudo-Guidé par Prototypes (Prototype-Guided Pseudo-Labeling)

Pour garantir un équilibre des classes lors de la sélection, même avec un modèle biaisé :

Le modèle global est utilisé comme extracteur de caractéristiques pour calculer des prototypes de classe (moyenne des vecteurs de caractéristiques normalisés des échantillons étiquetés).
Les échantillons non étiquetés reçoivent des pseudo-étiquettes basées sur la similarité (cosinus) avec ces prototypes globaux, plutôt que sur les logits directs du classifieur.
Cela force l'acquisition à être consciente des classes et réduit le biais vers les classes majoritaires.

C. Échantillonnage Équilibré Incertitude-Diversité (Two-Stage Balanced Sampling)

Pour éviter la redondance tout en maintenant la diversité :

Étape 1 (Sélection par classe) : Pour chaque classe, un pool de candidats sur-complet est formé en sélectionnant les échantillons les plus incertains (selon le modèle choisi à l'étape A).
Étape 2 (Affinement par diversité) : Un algorithme de k-center est appliqué dans un espace d'embedding de gradient (utilisant les caractéristiques globales) pour sélectionner un sous-ensemble diversifié parmi les candidats. Cela assure que les échantillons retenus couvrent bien l'espace des caractéristiques tout en respectant un budget par classe.

4. Résultats Expérimentaux

Les auteurs ont évalué FairFAL sur cinq benchmarks (FMNIST, CIFAR-10, CIFAR-100, OctMNIST, DermaMNIST) avec des configurations de déséquilibre ( $\rho=20$ ) et d'hétérogénéité ( $\alpha=0.1$ et $\alpha=100$ ).

Performance Supérieure : FairFAL surpasse systématiquement les méthodes de l'état de l'art (KAFAL, LoGo, IFAL, BADGE, etc.) et les stratégies AL classiques. L'écart de performance s'élargit à mesure que la tâche devient plus difficile (ex: CIFAR-100) et que le déséquilibre est sévère.
Robustesse : La méthode fonctionne bien sur des données médicales naturellement déséquilibrées (OctMNIST, DermaMNIST), un scénario critique pour les applications réelles.
Analyse d'ablation :
- La sélection adaptative de modèle est cruciale pour stabiliser le processus.
- L'utilisation de prototypes globaux (plutôt que locaux) améliore significativement la qualité de l'échantillonnage par classe.
- La stratégie à deux étapes (incertitude + diversité) est supérieure aux approches à une seule étape.
Généralisation : FairFAL reste performant avec différents frameworks FL (FedProx, SCAFFOLD), différents nombres de clients (5 à 20) et différentes architectures de réseaux (CNN, MobileNet, ResNet).

5. Contributions et Signification

Contributions principales :

Analyse Systématique : Première étude détaillée montrant que l'équilibre de l'échantillonnage des classes est le facteur déterminant de la performance en FAL, et que le choix du modèle de requête dépend de l'interaction entre le déséquilibre global et l'hétérogénéité locale.
Framework FairFAL : Proposition d'une méthode adaptative qui intègre la sélection de modèle, l'équilibrage par prototypes et la diversité, sans compromettre la vie privée.
Validation Rigoureuse : Démonstration de l'efficacité sur des scénarios extrêmes (Non-IID + Longue traîne) et sur des données médicales réelles.

Signification :
Ce travail comble un vide important dans la littérature sur l'apprentissage fédéré. Il démontre que pour des déploiements réels où les données sont à la fois privées, hétérogènes et déséquilibrées, les stratégies d'acquisition doivent être conscientes de l'équilibre des classes et adaptatives. FairFAL offre une solution robuste pour maximiser l'efficacité des budgets d'annotation dans des environnements fédérés complexes, ce qui est essentiel pour des domaines sensibles comme la santé et l'industrie.

Le code est disponible publiquement sur GitHub, facilitant la reproduction et l'adoption par la communauté.