CompDiff: Hierarchical Compositional Diffusion for Fair and Zero-Shot Intersectional Medical Image Generation

Each language version is independently generated for its own context, not a direct translation.

Immagina di voler insegnare a un artista digitale (un'intelligenza artificiale) a disegnare persone di ogni tipo: giovani, anziani, uomini, donne, di diverse etnie e con diverse condizioni di salute. L'obiettivo è creare un database di immagini mediche "giusto" ed equilibrato, così che i computer che diagnosticano le malattie non facciano errori solo perché hanno visto poche foto di certi gruppi di persone.

Il problema? L'artista AI, se addestrato su dati sbilanciati, diventa bravissimo a disegnare la "gente comune" (es. uomini bianchi di mezza età), ma fa disastri quando deve disegnare combinazioni rare (es. "una donna asiatica di 80 anni con una specifica malattia").

Ecco come CompDiff risolve il problema, usando tre metafore semplici:

1. Il Problema: La "Lista della Spesa" Confusa

Fino a oggi, per dire all'AI cosa disegnare, gli umani scrivevano una lunga lista di istruzioni (un "prompt") tutto in una volta, tipo: "Disegna una donna asiatica di 80 anni con glaucoma".
Il problema è che l'AI legge questa lista come un blocco unico. Se nella sua "memoria" (i dati di addestramento) ci sono poche foto di donne asiatiche anziane, l'AI va in confusione. Cerca di indovinare, ma il risultato è una foto sfocata o sbagliata. È come chiedere a un cuoco di preparare un piatto con ingredienti che non ha mai visto insieme: il risultato sarà strano.

2. La Soluzione: Il "Cocktail di Ingredienti" (CompDiff)

Gli autori propongono CompDiff, che cambia il modo in cui l'AI "pensa" alle persone. Invece di dare una lista lunga e confusa, CompDiff costruisce un cassetto degli ingredienti separato.

Immagina che l'AI abbia un Cassettone Demografico speciale (chiamato Hierarchical Conditioner Network):

Livello 1 (I Nonni): Ci sono cassetti separati per "Età", "Sesso" e "Razza". L'AI impara bene cosa significa "80 anni", cosa significa "donna" e cosa significa "asiatica" singolarmente.
Livello 2 (I Genitori): Poi, l'AI impara a mescolare due ingredienti alla volta (es. "donna + anziana" o "asiatica + anziana").
Livello 3 (Il Bambino): Infine, l'AI combina tutto per creare la persona specifica.

La magia: Anche se l'AI non ha mai visto una foto di una "donna asiatica di 80 anni" in assoluto, sa già cosa significa "donna", cosa significa "asiatica" e cosa significa "80 anni". Quindi, compone la nuova immagine unendo questi pezzi che già conosce, proprio come un bambino che impara a formare nuove parole unendo sillabe che già sa.

3. Perché è meglio dei metodi precedenti?

I metodi precedenti cercavano di "punire" l'AI quando sbagliava a disegnare i gruppi rari, dandole più peso durante l'allenamento (come se un insegnante urlasse di più su chi sbaglia). Ma se l'AI non ha mai visto quel gruppo, urlare non serve a nulla: non può imparare da zero.

CompDiff, invece, non urla. Insegna la struttura.

Non dice: "Disegna meglio!".
Dice: "Ecco come si costruisce una persona: prendi il pezzo 'donna', uniscilo al pezzo 'anziana' e al pezzo 'asiatica'".

I Risultati nella Vita Reale

Gli scienziati hanno provato questo metodo su due tipi di immagini mediche:

Radiografie del torace (per vedere polmoni e cuore).
Immagini del fondo dell'occhio (per vedere il glaucoma).

Hanno scoperto che:

Le immagini create da CompDiff sono più nitide e realistiche (migliore qualità).
L'AI è equa: disegna bene anche i gruppi rari, non solo quelli comuni.
Se si usa queste immagini per addestrare un medico AI, quel medico farà meno errori e sarà più giusto con tutti i pazienti, indipendentemente dalla loro età o origine.

In Sintesi

CompDiff è come passare da un insegnante che cerca di far memorizzare a memoria ogni singola faccia possibile, a un insegnante che insegna le regole di costruzione delle facce.
Grazie a questo approccio, l'AI impara a "comporre" persone mai viste prima, rendendo la medicina digitale più precisa e, soprattutto, più giusta per tutti.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema: Il "Problema del Generatore Squilibrato"

Il lavoro affronta una sfida fondamentale nell'uso dei modelli generativi (in particolare i modelli di diffusione) per l'equità nell'intelligenza artificiale medica. Sebbene questi modelli siano utilizzati per aumentare i dataset medici e ridurre gli squilibri demografici, gli autori identificano un presupposto non verificato: i generatori stessi producono immagini di qualità uguale tra tutti i gruppi demografici?

Squilibrio di qualità: I modelli addestrati su dati sbilanciati tendono a produrre immagini di alta qualità per i gruppi maggioritari, ma degradano significativamente per i sottogruppi rari.
Intersezioni mancanti: Il problema si aggrava per le intersezioni demografiche (es. "donne asiatiche over 80") che potrebbero non essere presenti affatto nel set di dati di addestramento.
Limiti delle soluzioni attuali: Metodi esistenti come FairDiffusion operano a livello di ottimizzazione (es. riponderazione della loss). Tuttavia, questi approcci non possono generare segnali di apprendimento per combinazioni che il modello non ha mai osservato, poiché dipendono da token demografici impliciti nei prompt di testo che competono per uno spazio di embedding limitato (es. il budget di 77 token di CLIP).

2. Metodologia: CompDiff e la Rete Condizionatrice Gerarchica (HCN)

Gli autori propongono CompDiff, un framework che risolve il problema a livello di rappresentazione piuttosto che a livello di ottimizzazione. L'idea centrale è che l'identità demografica è composizionale: un'intersezione rara può essere composta da attributi singoli e interazioni a coppie apprese.

Architettura Chiave: Hierarchical Conditioner Network (HCN)

Invece di inserire tutti gli attributi demografici nel prompt di testo, CompDiff elabora gli attributi (età, sesso, razza) separatamente attraverso una rete dedicata (HCN) che genera un token demografico concatenato agli embedding CLIP.

L'HCN scompone la condizionatura in tre livelli gerarchici:

Embedding ad Attributo Singolo ("Nonni"): Ogni attributo ( $x_v$ ) viene mappato in un embedding latente condiviso ( $e_v$ ).
Interazioni a Coppie ("Genitori"): Per catturare relazioni non additive, vengono modellate tutte le interazioni a coppie (es. sesso-età, sesso-razza) utilizzando MLP dedicati ( $h_{a,s}, h_{a,r}, h_{s,r}$ ).
Composizione Completa ("Figlio"): Le interazioni a coppie sono combinate tramite un MLP finale per produrre la rappresentazione demografica completa ( $h_{demo}$ ).

Questa struttura favorisce la condivisione dei parametri tra i sottogruppi e permette la generalizzazione a intersezioni mai viste (Zero-Shot), analogamente a come i modelli linguistici compongono nuove frasi da parole note.

Funzione di Obiettivo

Il modello è addestrato con una loss totale che include:

Loss di Diffusione ( $L_{diff}$ ): Standard per la generazione di immagini.
Loss di Coerenza Compositiva ( $L_{comp}$ ): Un ancoraggio morbido che assicura che la composizione finale sia coerente con la somma degli attributi singoli, stabilizzando l'addestramento.
Loss KL ( $L_{KL}$ ): Per regolarizzare lo spazio latente verso una distribuzione normale.
Loss Ausiliaria ( $L_{aux}$ ): Una classificazione demografica applicata direttamente sul token proiettato ( $c$ ) che entra nell'UNet, garantendo che l'informazione demografica sia preservata e utilizzabile dal generatore.

3. Risultati Sperimentali

Gli esperimenti sono stati condotti su due modalità mediche: Radiografie del torace (MIMIC-CXR) e Immagini del fondo oculare (FairGenMed).

Qualità dell'Immagine ed Equità

Qualità Generale: CompDiff ottiene il miglior punteggio FID (Fréchet Inception Distance) su entrambe le modalità (64.3 per le CXR contro 75.1 di FairDiffusion).
Equità (ES-FID): CompDiff riduce significativamente le disparità di qualità tra i sottogruppi demografici (sesso, razza, età), ottenendo i valori ES-FID più bassi.
Generalizzazione Zero-Shot: Su intersezioni demografiche rimosse completamente dal set di addestramento, CompDiff mostra un miglioramento fino al 21% del FID rispetto ai baselines. Al contrario, FairDiffusion spesso peggiora rispetto al baseline su queste intersezioni rare, confermando l'incapacità dei metodi di riponderazione di gestire dati assenti.

Utilità a Valle (Downstream Utility)

I classificatori di malattie addestrati sui dati sintetici generati da CompDiff mostrano:

Migliore AUC: Aumento dell'accuratezza nella rilevazione delle patologie (es. 0.72 vs 0.69 per le CXR).
Riduzione del Bias: Diminuzione dei tassi di sottodiagnosi e delle differenze di Equalized Odds tra i gruppi demografici.

Studi di Ablazione

Gli esperimenti di ablazione confermano che:

L'architettura gerarchica (HCN) è superiore a encoder piatti o a branch CLIP separati.
La supervisione ausiliaria deve essere applicata sul token proiettato ( $c$ ) e non sullo stato latente ( $\mu$ ) per essere efficace.
La regolarizzazione compositiva ( $L_{comp}$ ) è essenziale per bilanciare qualità e controllo.

4. Contributi Chiave

Identificazione del problema: Formalizzazione del "problema del generatore squilibrato" e dei limiti delle strategie di ottimizzazione (loss reweighting) per le intersezioni demografiche assenti.
Nuovo Framework (CompDiff): Introduzione di un meccanismo di condizionatura gerarchica e compositiva che separa gli attributi demografici dal testo clinico, permettendo la composizione di rappresentazioni per gruppi mai visti.
Evidenza Empirica: Dimostrazione che la progettazione architetturale del condizionamento demografico è un fattore critico, spesso trascurato, per generare dati medici equi e di alta qualità.
Generalizzazione Zero-Shot: Capacità di generare immagini di alta qualità per intersezioni demografiche (es. età avanzata + minoranza etnica + sesso) che non esistono nei dati di addestramento.

5. Significato e Impatto

Il lavoro di CompDiff suggerisce che per ottenere un'IA medica equa, non basta bilanciare i dati o riponderare le perdite; è necessario riprogettare come le informazioni demografiche sono rappresentate e integrate nel modello generativo.

Impatto Clinico: La capacità di generare dati sintetici di alta qualità per popolazioni sottorappresentate può migliorare l'addestramento di sistemi diagnostici, riducendo i bias nella pratica clinica reale.
Direzione Futura: Il paper apre la strada all'uso di induttivi bias strutturati (come la composizione gerarchica) per gestire la complessità delle identità intersezionali in ambito medico, superando i limiti dei modelli di testo-immagine standard.

In sintesi, CompDiff dimostra che un approccio strutturale alla rappresentazione dei dati demografici è superiore alle correzioni a livello di ottimizzazione, offrendo una soluzione robusta per la generazione di immagini mediche eque e generalizzabili.