CompDiff: Hierarchical Compositional Diffusion for Fair and Zero-Shot Intersectional Medical Image Generation

Each language version is independently generated for its own context, not a direct translation.

🏥 Le Problème : L'Artiste qui ne connaît que les majorités

Imaginez un artiste génial (une intelligence artificielle) chargé de peindre des portraits médicaux (des radios ou des images de l'œil) pour aider les médecins à apprendre.

Le problème, c'est que cet artiste a appris en regardant des milliers de photos, mais la plupart de ces photos montrent des hommes blancs d'âge moyen. Il y a très peu de photos de femmes asiatiques âgées, et presque aucune de femmes asiatiques âgées de plus de 80 ans avec une maladie spécifique.

Quand on demande à l'artiste de peindre un portrait d'une "femme asiatique de 80+ ans", il panique. Comme il n'a jamais vu ce groupe précis, il essaie de deviner. Le résultat ? Le portrait est flou, bizarre, ou ne ressemble pas vraiment à la personne. C'est ce que les auteurs appellent le "problème du générateur déséquilibré".

Les méthodes actuelles pour corriger cela consistent à dire à l'artiste : "Peins plus de femmes asiatiques !" (en donnant plus de poids aux erreurs sur ce groupe). Mais si l'artiste n'a aucune photo de référence pour ce groupe, lui crier dessus ne l'aide pas à mieux comprendre ce qu'il doit peindre.

💡 La Solution : CompDiff, le "Lego" Démographique

Les auteurs proposent une nouvelle méthode appelée CompDiff. Au lieu de simplement crier plus fort, ils changent la façon dont l'artiste pense et combine les informations.

Imaginez que l'identité d'une personne n'est pas un bloc unique, mais un ensemble de pièces de Lego :

L'âge (une pièce "Grand-mère").
Le sexe (une pièce "Femme").
L'origine (une pièce "Asiatique").

Les méthodes actuelles essaient d'apprendre chaque combinaison complexe (ex: "Grand-mère Femme Asiatique") comme un seul bloc de Lego géant et unique. Si ce bloc n'existe pas dans la boîte, l'artiste est perdu.

CompDiff utilise une approche différente : la composition hiérarchique.

D'abord, l'artiste apprend parfaitement à reconnaître chaque pièce séparément (il sait très bien dessiner une "Femme", une "Personne âgée", et une "Personne asiatique").
Ensuite, il apprend à assembler ces pièces par paires (ex: "Femme + Âgée", "Femme + Asiatique").
Enfin, il apprend à assembler le tout.

Même si l'artiste n'a jamais vu de "Femme asiatique de 80+ ans" dans ses photos d'entraînement, il peut assembler ce portrait en combinant ce qu'il sait déjà faire : une femme âgée + une femme asiatique. C'est comme si un écrivain pouvait inventer une phrase qu'il n'a jamais lue, simplement en assemblant des mots qu'il connaît déjà.

🛠️ Comment ça marche ? (L'Analogie du Chef Cuisinier)

Pour faire simple, le modèle CompDiff a un chef cuisinier spécial (le Hierarchical Conditioner Network) qui prépare les ingrédients avant de les donner au peintre.

Décomposition : Le chef prend la commande "Femme asiatique de 80 ans" et la décompose en ingrédients de base : "Femme", "Asiatique", "80 ans".
Assemblage intelligent : Il mélange ces ingrédients de manière structurée pour créer un "goût" unique (un token démographique) qui capture la complexité de l'intersection.
Transmission : Il donne ce mélange au peintre (le modèle de diffusion) en disant : "Voici exactement ce que tu dois peindre, en te basant sur ce que tu sais déjà faire avec chaque ingrédient."

🏆 Les Résultats : Pourquoi c'est génial ?

Les chercheurs ont testé cette méthode sur des radios de poumons et des images de l'œil. Voici ce qu'ils ont découvert :

Qualité supérieure : Les images générées sont plus réalistes (meilleur score FID) que celles des autres méthodes.
Équité réelle : Les images des groupes rares (les "Lego" complexes) sont beaucoup plus belles et précises. L'artiste ne fait plus de "bêtises" pour les minorités.
Généralisation "Zéro Shot" : C'est le point fort. Même quand on retire totalement un groupe des données d'entraînement (par exemple, on ne montre jamais de "Femmes asiatiques de 80+ ans" au modèle), CompDiff réussit à les dessiner correctement en les composant à partir de ce qu'il connaît. Les autres méthodes échouent lamentablement dans ce cas.
Utilité médicale : Les médecins qui s'entraînent avec ces images générées deviennent de meilleurs diagnosticiens, peu importe le groupe de patients qu'ils rencontrent.

🎯 En Résumé

CompDiff est comme passer d'un artiste qui mémorise des photos par cœur à un artiste qui comprend la grammaire de l'identité humaine.

Au lieu de dire : "J'ai besoin de plus de photos de ce groupe précis", on dit : "Apprends à bien comprendre les pièces de base, et tu pourras construire n'importe quel groupe, même ceux que tu n'as jamais vus."

C'est une avancée majeure pour rendre l'intelligence artificielle médicale plus juste, plus fiable et capable de soigner tout le monde, pas seulement la majorité.

Each language version is independently generated for its own context, not a direct translation.

Titre

CompDiff : Génération d'images médicales équitables et généralisation zéro-shot par diffusion compositionnelle hiérarchique

1. Le Problème : Le "Problème du Générateur Déséquilibré"

Les modèles génératifs, en particulier les modèles de diffusion, sont de plus en plus utilisés pour augmenter les ensembles de données d'imagerie médicale et améliorer l'équité des systèmes d'IA. Cependant, l'article identifie un problème fondamental souvent négligé : le générateur lui-même peut être déséquilibré.

Dégradation des sous-groupes rares : Les modèles entraînés sur des données déséquilibrées produisent des images de haute qualité en moyenne, mais la qualité se dégrade considérablement pour les sous-groupes démographiques rares (ex: patients âgés, asiatiques et femmes).
Absence d'intersections : Pour certaines combinaisons démographiques (ex: "femme asiatique de 80+ ans" avec une pathologie spécifique), il n'existe aucun exemple dans les données d'entraînement.
Limites des solutions actuelles : Les méthodes existantes, comme le rééquilibrage des pertes (ex: FairDiffusion), opèrent au niveau de l'optimisation. Elles ne peuvent pas générer de signal d'apprentissage pour des combinaisons qui n'ont jamais été observées, car elles reposent sur l'encodage implicite des attributs démographiques dans les invites textuelles (prompts), où les tokens démographiques entrent en concurrence avec les tokens cliniques dans un espace d'embedding limité (CLIP).

2. Méthodologie : CompDiff

L'approche proposée, CompDiff, résout ce problème au niveau de la représentation plutôt qu'au niveau de l'optimisation. L'idée centrale est que l'identité démographique est compositionnelle : une intersection rare peut être construite à partir d'attributs simples et d'interactions apprenables.

Architecture Principale : Le Réseau Conditionneur Hiérarchique (HCN)

Au lieu d'insérer les attributs démographiques directement dans le texte, CompDiff utilise un module dédié, le Hierarchical Conditioner Network (HCN), qui décompose le conditionnement démographique en trois niveaux :

Embeddings d'attributs simples ("Grands-parents") : Chaque attribut (âge, sexe, race) est encodé séparément dans un espace latent partagé ( $e_{age}, e_{sex}, e_{race}$ ).
Interactions par paires ("Parents") : Des réseaux de neurones (MLP) modélisent les interactions non additives entre chaque paire d'attributs ( $e_{age,sex}, e_{age,race}, e_{sex,race}$ ).
Composition complète ("Enfant") : Une dernière couche MLP combine ces interactions pour produire une représentation démographique finale ( $h_{demo}$ ).

Intégration au Modèle de Diffusion

La représentation $h_{demo}$ est projetée dans un espace latent gaussien (via un mécanisme de rééchantillonnage variationnel) puis mappée à un token démographique dédié ( $c$ ).
Ce token $c$ est concaténé aux embeddings textuels cliniques (issus de CLIP) pour former le contexte d'attention croisée ( $E_{combined}$ ) du réseau UNet du modèle de diffusion.
Objectif de formation : Le modèle est entraîné avec une perte totale combinant :
- La perte de diffusion standard ( $L_{diff}$ ).
- Une perte de cohérence compositionnelle ( $L_{comp}$ ) pour ancrer la représentation vers une base additive tout en permettant des interactions non linéaires.
- Une perte auxiliaire de classification ( $L_{aux}$ ) appliquée directement sur le token projeté $c$ (et non sur le latent $\mu$ ) pour garantir que l'UNet reçoit bien l'information démographique.

3. Contributions Clés

Changement de paradigme : Passage d'une correction au niveau de l'optimisation (rééquilibrage des pertes) à une correction au niveau de la représentation (factorisation hiérarchique).
Généralisation Zéro-Shot : Capacité à générer des images de haute qualité pour des intersections démographiques jamais vues durant l'entraînement, en composant les attributs appris séparément.
Efficacité des paramètres : L'ajout du HCN n'augmente le nombre de paramètres entraînables que de 0,19 % par rapport à la base (Stable Diffusion 2.1).
Équité sans compromis : Amélioration de l'équité pour les minorités sans dégrader la qualité pour les groupes majoritaires.

4. Résultats Expérimentaux

Les expériences ont été menées sur deux modalités médicales : les radiographies thoraciques (MIMIC-CXR) et les images du fond d'œil (FairGenMed).

Qualité de Génération et Équité

Qualité globale : CompDiff obtient le meilleur score FID (Fréchet Inception Distance) sur les deux modalités (64,3 pour les rayons X contre 75,1 pour FairDiffusion et 82,8 pour la base).
Équité (ES-FID) : CompDiff réduit significativement les disparités de qualité entre les sous-groupes démographiques (sexe, race, âge) par rapport aux méthodes de base et à FairDiffusion.
Intersections rares : Sur des sous-groupes rares (ex: Femmes Asiatiques de 40-60 ans), CompDiff améliore le FID de manière drastique (ex: réduction de 204,0 à 167,9) là où les autres méthodes échouent.

Généralisation Zéro-Shot

Dans un scénario où 5 intersections démographiques sont totalement retirées des données d'entraînement, CompDiff surpasse toutes les méthodes de base.
Il réalise une amélioration du FID allant jusqu'à 21 % sur ces groupes tenus à l'écart, prouvant sa capacité à composer des représentations à partir d'éléments appris séparément. À l'inverse, FairDiffusion performe parfois pire que la base sur ces groupes, confirmant l'impuissance du rééquilibrage de perte sans signal d'apprentissage.

Impact sur les Classificateurs en Aval (Downstream)

Des classificateurs de maladies entraînés sur les données synthétiques générées par CompDiff montrent de meilleures performances (AUC plus élevé) et une réduction des biais démographiques (taux de sous-diagnostic et différence d'odd égalisée réduits) lors de l'évaluation sur des données réelles.

5. Signification et Conclusion

Ce travail démontre que la conception architecturale du conditionnement démographique est un facteur critique, souvent sous-estimé, pour la génération d'images médicales équitables.

Apport théorique : Il valide l'hypothèse que la structure compositionnelle hiérarchique permet une généralisation robuste au-delà de la distribution d'entraînement, là où les méthodes purement statistiques échouent.
Impact pratique : CompDiff offre une solution viable pour créer des ensembles de données synthétiques équilibrés, essentiels pour entraîner des diagnostics médicaux justes et inclusifs, en particulier pour les populations sous-représentées.
Limites : L'évaluation repose sur des métriques quantitatives plutôt que sur l'expertise clinique, et la méthode suppose des attributs démographiques discrets et structurés, ce qui limite son application directe à des attributs continus ou non structurés.

En résumé, CompDiff représente une avancée majeure en traitant le déséquilibre des générateurs à la source (représentation) plutôt qu'en surface (optimisation), ouvrant la voie à une IA médicale plus équitable et capable de généraliser à des cas rares.