Fair Lung Disease Diagnosis from Chest CT via Gender-Adversarial Attention Multiple Instance Learning

Each language version is independently generated for its own context, not a direct translation.

🏥 Le Défi : Diagnostiquer sans faire de discrimination

Imaginez que vous êtes un médecin expert qui doit examiner des scanners pulmonaires 3D (des sortes de "gâteaux" composés de centaines de tranches fines) pour détecter quatre choses :

Des poumons sains.
Une infection (COVID-19).
Un type de cancer (Adénocarcinome).
Un autre type de cancer (Cancer épidermoïde).

Le problème ? L'équipe de chercheurs a reçu un défi spécial : leur modèle d'intelligence artificielle ne doit pas seulement être précis, il doit être juste envers les hommes et les femmes.

Dans le monde médical, les algorithmes ont souvent un défaut : ils apprennent des biais. Par exemple, si le modèle remarque que "les hommes ont souvent ce type de cancer", il pourrait se dire : "Ah, c'est un homme, donc c'est probablement ce cancer", même si les poumons sont sains. Cela crée des erreurs graves pour les femmes.

L'objectif de ce papier est de construire un détective IA qui regarde uniquement la maladie, et non le genre du patient.

🧩 Les Trois Obstacles Majeurs

Pour réussir, ils devaient surmonter trois écueils, qu'on peut comparer à des situations du quotidien :

1. L'Aiguille dans la Botte de Foin (Le signal rare)

Un scanner 3D contient entre 100 et 800 tranches. Mais la maladie (une petite tumeur) n'est souvent visible que sur 3 ou 4 tranches. Le reste du gâteau est sain.

L'erreur classique : Si on fait une "moyenne" de toutes les tranches, les 99 tranches saines noient le signal des 3 tranches malades. C'est comme essayer de sentir une goutte de café dans un océan d'eau.
La solution : Au lieu de tout mélanger, ils ont créé un système d'"Attention". Imaginez un chef cuisinier qui goûte chaque tranche du gâteau et ne garde que les tranches où il sent le goût du café. Le modèle apprend à ignorer les tranches saines et à se concentrer sur celles qui comptent.

2. Le Groupe Manquant (Le déséquilibre des données)

Dans les données d'entraînement, il y avait beaucoup d'hommes et de femmes, mais un groupe était presque inexistant : les femmes atteintes du cancer épidermoïde.

Le problème : C'est comme si vous appreniez à reconnaître les pommes, mais que vous n'aviez vu que 5 pommes rouges sur 1000 pommes vertes. Le modèle ne saurait jamais reconnaître la pomme rouge.
La solution : Ils ont utilisé une technique de "sur-échantillonnage". Ils ont pris les rares cas de femmes malades et les ont montrés au modèle beaucoup plus souvent, comme si on leur disait : "Regarde bien cette image, c'est très important, ne l'oublie pas !".

3. Le Secret Caché (Le genre comme indice trompeur)

Même si on ne donne pas le genre du patient à l'IA, l'IA est très maline. Elle peut deviner le genre en regardant la forme des poumons ou la façon dont le scanner a été pris.

Le danger : Si l'IA utilise ce "indice" pour deviner la maladie, elle triche. Elle ne diagnostique pas la maladie, elle devine le genre.
La solution (Le "Cerveau Inverse") : Ils ont ajouté un module spécial appelé GRL (Couche de Réversion de Gradient).
- L'analogie : Imaginez que vous entraînez un détective. En même temps, vous avez un "maître de l'ombre" qui essaie de deviner le genre du patient en regardant ce que le détective a appris.
- Si le maître de l'ombre réussit à deviner le genre, cela signifie que le détective a gardé des indices sur le genre. Le "maître" envoie alors un signal de punition (réversion du gradient) pour dire au détective : "Efface ces indices ! Tu dois oublier le genre pour bien faire ton travail !".
- Résultat : Le détective apprend à voir la maladie sans se soucier de savoir si le patient est un homme ou une femme.

🏆 Comment ils ont gagné (La Méthode)

Pour arriver à un résultat solide, ils ont combiné plusieurs astuces :

L'Ensemble de Détectives : Au lieu d'entraîner un seul modèle, ils en ont entraîné cinq (comme cinq détectives différents). À la fin, ils votent tous ensemble pour décider du diagnostic. Si l'un se trompe, les autres corrigent.
Le Miroir (Test-Time Augmentation) : Ils regardent le scanner dans le sens normal, puis le retournent comme dans un miroir (horizontal flip) et le regardent à nouveau. Cela double la quantité d'informations et rend le diagnostic plus stable.
L'Ajustement Fin (Seuils) : Parfois, la probabilité qu'un patient ait un cancer est de 40%. Normalement, on dit "non". Mais pour les cas rares (comme les femmes avec ce cancer spécifique), ils ont ajusté la barre pour dire : "Attends, 40% c'est déjà assez suspect, on vérifie de plus près".

📊 Le Résultat

Leur système a obtenu un score de 0,685 (sur une échelle où plus c'est haut, mieux c'est).
Le plus beau ? Les hommes et les femmes ont eu exactement le même niveau de précision.

Avant : Le modèle était meilleur pour les hommes.
Après : Le modèle est juste pour tout le monde.

💡 En Résumé

Ce papier nous dit que pour créer une IA médicale équitable, il ne suffit pas de donner plus de données. Il faut :

Apprendre à l'IA à se concentrer sur les détails importants (Attention).
Lui forcer la main pour qu'elle oublie les biais de genre (GRL).
Protéger les groupes minoritaires en les montrant plus souvent (Sur-échantillonnage).

C'est un peu comme entraîner un juge : on ne veut pas qu'il regarde l'habit du client (le genre), mais uniquement les preuves (les tranches de scanner malades).

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

L'article présente une solution au Fair Disease Diagnosis Challenge (Workshop PHAROS-AIF-MIH, CVPR 2026). L'objectif est de classifier des volumes de tomodensitométrie (CT) thoraciques en quatre catégories : Sain, COVID-19, Adénocarcinome et Carcinome épidermoïde.

Le défi principal réside dans la métrique d'évaluation : le score final est la moyenne des scores Macro-F1 par genre ( $P = \frac{1}{2}(MacroF1_{male} + MacroF1_{female})$ ). Cela pénalise explicitement les modèles qui obtiennent de bons résultats pour un genre mais échouent pour l'autre, exigeant une équité démographique stricte.

Trois difficultés majeures sont identifiées :

Sparsité du signal pathologique : Les anomalies (nodules, opacités) n'apparaissent que sur quelques tranches parmi les 100 à 200 d'un volume CT. Le pooling moyen dilue le signal, tandis que le pooling max est sensible aux artefacts.
Déséquilibre démographique intersectionnel : La classe "Femmes atteintes de Carcinome épidermoïde" est extrêmement sous-représentée (seulement 18 cas contre 91 hommes), ce qui entraîne une sous-performance systématique pour ce sous-groupe.
Biais de genre latent : Même sans entrée explicite de genre, les modèles puissants peuvent encoder le genre via des paramètres d'acquisition ou la morphologie, utilisant ces informations comme des "raccourcis" (spurious cues) pour prédire la maladie, faussant ainsi l'équité.

2. Méthodologie

L'approche proposée est un cadre d'apprentissage profond multi-composants combinant l'apprentissage multiple-instance (MIL) et l'adversarialité.

Architecture du Modèle

Backbone : Utilisation de ConvNeXt (Base/Tiny) pré-entraîné sur ImageNet pour extraire des caractéristiques de chaque tranche 2D.
Attention-Based MIL (Multiple Instance Learning) :
- Le volume CT est traité comme un "sac" de tranches.
- Un réseau d'attention (MLP à deux couches) attribue un poids d'importance à chaque tranche.
- Une représentation globale du scan est obtenue par une somme pondérée des embeddings des tranches. Cela permet au modèle d'ignorer automatiquement les tranches saines et de se concentrer sur les zones pathologiques, sans supervision au niveau de la tranche.
Tête Adversariale (Gradient Reversal Layer - GRL) :
- Une petite tête de classification de genre est attachée à la représentation du scan via une Couche de Réversion de Gradient (GRL).
- Lors de la rétropropagation, les gradients de la tâche de genre sont inversés et multipliés par un facteur $\lambda_{adv}$ .
- Objectif : Forcer le backbone à apprendre une représentation du scan qui est prédictive de la maladie mais indépendante du genre, supprimant ainsi les biais démographiques latents.

Protocole d'Entraînement et de Traitement des Données

Prétraitement : Redimensionnement des tranches à 224x224, normalisation ImageNet, et augmentation de données stochastique (flips, rotations) pendant l'entraînement.
Gestion du déséquilibre :
- Utilisation de la Focal Loss avec lissage d'étiquettes (label smoothing) pour pénaliser les exemples faciles et se concentrer sur les cas difficiles.
- Suréchantillonnage ciblé : Utilisation de WeightedRandomSampler pour garantir que les cas rares (Femmes, Carcinome épidermoïde) apparaissent dans presque chaque lot d'entraînement.
- Validation croisée stratifiée : Les plis sont construits sur la clé composite (Classe, Genre) pour assurer la présence de tous les sous-groupes dans chaque ensemble d'entraînement et de validation.
Stratégie d'inférence :
- Ensembling : Combinaison des prédictions de 5 plis (5-fold cross-validation) par vote de logits doux (soft voting).
- Augmentation au test (TTA) : Application d'un flip horizontal déterministe.
- Optimisation des seuils (Post-hoc) : Ajustement des seuils de décision par classe sur des prédictions "Out-of-Fold" (OOF) pour maximiser le F1 binaire sans sur-ajuster aux données de validation.

3. Résultats

Les expériences ont été menées sur un jeu de données de 889 scans (734 entraînement, 155 validation).

Performance Globale : Le modèle atteint un score moyen de validation de 0,685 (±0,030), avec un meilleur pli individuel à 0,759.
Équité de Genre :
- Le Macro-F1 moyen pour les femmes (0,691) est légèrement supérieur à celui des hommes (0,679), démontrant que le biais de genre a été efficacement éliminé.
- L'intégration du GRL a permis de réduire l'écart de performance entre les genres, prouvant que le modèle ne repose plus sur des corrélations de genre pour la classification.
Classes Difficiles : Le Carcinome épidermoïde (SCC) reste la classe la plus difficile (F1 moyen ~0,366), principalement en raison du manque de données pour le sous-groupe féminin, mais les interventions (suréchantillonnage) ont évité l'effondrement total de cette classe.
Étude Ablative : Le tableau d'ablation montre que le passage du pooling moyen au pooling max, puis à l'attention MIL, améliore la robustesse spatiale. L'ajout du GRL est crucial pour fermer l'écart d'équité.

4. Contributions Clés

Architecture MIL à base d'attention : Permet d'identifier les tranches diagnostiquement pertinentes à partir de labels au niveau du scan uniquement, sans annotation de tranche.
Mécanisme d'équité adversarial : Utilisation d'un GRL pour supprimer explicitement l'information prédictive du genre de la représentation du volume.
Protocole d'entraînement multi-facettes : Combinaison de stratification, de Focal Loss, de lissage d'étiquettes et de suréchantillonnage ciblé pour gérer les déséquilibres complexes (classe et sous-groupe).
Stratégie d'inférence robuste : Ensembling 5-fold avec TTA et optimisation de seuils OOF pour une généralisation fiable.

5. Signification et Conclusion

Ce travail démontre que l'équité démographique en IA médicale ne peut pas être obtenue uniquement par le nettoyage des données, mais nécessite une attention méthodologique explicite et multi-couches.

L'approche proposée prouve qu'il est possible de construire un modèle de diagnostic volumétrique précis tout en garantissant une équité stricte entre les genres, même en présence de déséquilibres de données sévères et intersectionnels. Les auteurs suggèrent que pour les futurs travaux, des techniques d'augmentation générative (ex: diffusion) pourraient être nécessaires pour pallier le manque de données des sous-groupes extrêmement rares (comme les femmes atteintes de SCC), car le suréchantillonnage seul a ses limites face à la pénurie de données.

Le code est disponible publiquement, favorisant la reproductibilité et l'adoption de ces techniques d'équité dans le domaine de l'imagerie médicale.