Interpretable Debiasing of Vision-Language Models for Social Fairness

Each language version is independently generated for its own context, not a direct translation.

Immagina che i moderni modelli di intelligenza artificiale (come quelli che descrivono immagini o rispondono a domande su di esse) siano come giganti magici che hanno letto tutti i libri e visto tutte le foto del mondo. Questi giganti sono incredibilmente intelligenti, ma hanno un piccolo difetto: hanno assorbito i pregiudizi della società in cui sono stati addestrati.

Se chiedi a un gigante del genere: "Fammi vedere una foto di un CEO", lui potrebbe mostrarti solo uomini, perché nei suoi "libri" (i dati di addestramento) la maggior parte dei CEO è raffigurata come maschio. Se gli chiedi: "Questa persona è un contabile?", potrebbe rispondere di sì con certezza assoluta anche se l'immagine è ambigua, basandosi su stereotipi di genere.

Il problema è che questi giganti sono scatole nere: sappiamo cosa dicono, ma non sappiamo come pensano o dove nascono questi pregiudizi.

La Soluzione: DEBIASLENS (La Lente per il Bias)

Gli autori di questo studio hanno creato uno strumento chiamato DEBIASLENS. Immaginalo non come un martello che rompe il gigante, ma come una lente di ingrandimento magica e un chirurgo di precisione.

Ecco come funziona, passo dopo passo, con delle analogie:

1. La Mappa del Tesoro (L'Autoencoder Sparsa)

Prima di tutto, DEBIASLENS guarda dentro la "mente" del modello. Usa una tecnologia chiamata Sparse Autoencoder (SAE).

L'analogia: Immagina che il cervello del modello sia una stanza piena di milioni di interruttori (neuroni) accesi e spenti. Molti di questi interruttori fanno cose generiche (come riconoscere un "gatto" o un "rosso"). Ma alcuni interruttori sono "specializzati" in cose specifiche, come "essere maschio" o "essere anziano".
Cosa fa DEBIASLENS: Invece di guardare la stanza in modo confuso, usa la lente SAE per separare questi interruttori. Trasforma il caos in una lista ordinata: "Questo interruttore controlla il genere, quello controlla la razza, quello l'età". È come se avesse etichettato ogni interruttore della stanza.

2. Trovare i "Neuroni Sociali"

Una volta mappata la stanza, il sistema cerca i neuroni responsabili dei pregiudizi.

L'analogia: Se il modello è un chef che cucina piatti, DEBIASLENS cerca gli ingredienti che rendono il piatto "squilibrato". Se il modello tende a dire che solo gli uomini possono essere piloti, DEBIASLENS individua esattamente quale "ingrediente" (neurone) sta aggiungendo troppo sale (pregiudizio) alla ricetta.
Il trucco: Lo fa senza bisogno di etichette esterne. Analizza semplicemente quali interruttori si accendono quando vede immagini di donne, uomini, persone di diverse età o razze, e capisce quali sono "sensibili" a questi attributi.

3. La Chirurgia di Precisione (Disattivazione Mirata)

Una volta trovati i neuroni "cattivi" (quelli che causano il pregiudizio), DEBIASLENS non spegne tutto il modello (che sarebbe come spegnere la luce in tutta la casa per fermare una zanzara).

L'analogia: Immagina di avere un interruttore che controlla solo la zanzara. DEBIASLENS va lì e abbassa leggermente quel singolo interruttore (o lo spegne momentaneamente) mentre il modello sta lavorando.
Il risultato: Il modello continua a vedere, a capire le immagini e a rispondere alle domande, ma la sua "opinione" su chi può essere un CEO o un contabile diventa più equilibrata. Non perde la sua intelligenza generale, ma perde solo la sua "cecità" sociale.

Perché è una grande novità?

Fino ad ora, per correggere questi giganti, gli scienziati usavano metodi "a caso" o molto pesanti:

Metodo vecchio: "Riaddestriamo tutto il modello" (come riscrivere l'intero libro di storia per correggere un errore, costosissimo e lento).
Metodo vecchio: "Tagliamo pezzi del cervello" (come rimuovere intere sezioni del libro, rischiando di perdere anche informazioni utili).

DEBIASLENS è diverso:

È trasparente: Sai esattamente quale interruttore hai toccato e perché. Non è magia nera, è ingegneria chiara.
È leggero: Non tocca i pesi originali del modello. Aggiunge solo una piccola "lente" sopra di esso.
È efficace: Nei test, ha ridotto drasticamente i pregiudizi (ad esempio, rendendo le risposte su "chi è un CEO" più equilibrate tra uomini e donne) senza far diventare il modello stupido nelle altre cose.

In sintesi

Immagina che i modelli di intelligenza artificiale siano come studenti brillanti ma un po' prevenuti che hanno studiato su vecchi libri di testo.
DEBIASLENS non li costringe a buttare via i libri. Invece, si siede con loro, apre il libro, trova le pagine dove ci sono gli errori di giudizio (i pregiudizi), e dice: "Ehi, quando leggi questa riga, prova a non dare per scontato che sia sempre così. Guarda anche l'altra possibilità".

Il risultato è un'intelligenza artificiale che è più giusta, più equa e più umana, senza perdere la sua incredibile capacità di vedere e capire il mondo.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

I modelli Vision-Language (VLM) e Large Vision-Language (LVLM), come CLIP e InternVL, hanno mostrato grandi potenzialità in applicazioni ad alto impatto. Tuttavia, essendo addestrati su dataset multimodali su larga scala, ereditano e spesso amplificano i bias sociali presenti nei dati di addestramento (es. associazioni di genere, razza o età con determinate professioni o ruoli).

Le attuali strategie di debiasing (mitigazione del bias) soffrono di limitazioni critiche:

Approcci "Black-box": Metodi come il fine-tuning (es. LoRA), il pruning (potatura) dei pesi o l'ingegneria dei prompt agiscono a livello superficiale o modificano i pesi del modello senza comprendere la dinamica interna.
Mancanza di interpretabilità: È difficile identificare quali componenti specifici del modello codificano i bias sociali.
Compromesso Prestazioni-Bias: Le tecniche esistenti spesso riducono il bias a scapito delle capacità generali del modello (es. perdita di conoscenza semantica o capacità di ragionamento).

2. Metodologia: DEBIASLENS

Gli autori propongono DEBIASLENS, un framework di mitigazione del bias interpretabile e agnostico rispetto al modello. L'obiettivo è localizzare e disattivare selettivamente i "neuroni sociali" responsabili dei bias senza riaddestrare il modello o modificare i suoi pesi originali.

Il processo si articola in tre fasi principali (illustrate nella Figura 2 del paper):

A. Addestramento degli Sparse Autoencoder (SAE)

Viene attaccato uno Sparse Autoencoder (SAE) all'ultimo strato dell'encoder (visivo, testuale o entrambi) del VLM pre-addestrato.
L'SAE viene addestrato su dataset di immagini facciali o didascalie (es. FairFace, Cocogender) senza utilizzare etichette di attributi sociali (come genere o razza) durante l'addestramento.
L'obiettivo è decomporre le feature entangled (intrecciate) del modello in uno spazio latente sparso e interpretabile, dove ogni neurone attivo rappresenta un concetto monosemantico (significato singolo).
Viene utilizzata una variante Matryoshka SAE per garantire ricostruzioni accurate a diversi livelli di sparsità.

B. Sondaggio dei Neuroni Sociali (Social Neuron Probing)

Anche senza etichette esplicite, gli autori ipotizzano che i neuroni responsabili dei bias mostrino pattern di attivazione differenziali tra gruppi sociali.
Vengono identificati i neuroni sociali specifici per un gruppo (es. "neuroni femminili") calcolando quali neuroni dell'SAE si attivano in modo consistente per un gruppo specifico ma non per gli altri.
Si seleziona un insieme di neuroni candidati ( $Z_B$ ) che massimizzano l'attivazione media all'interno di un gruppo sociale specifico.

C. Inferenza Modulata dai Neuroni Sociali

Durante l'inferenza, le attivazioni corrispondenti ai neuroni sociali identificati vengono neutralizzate (impostate a zero o modulate) nel vettore latente.
Il vettore modificato viene decodificato per generare una feature priva di bias ( $\hat{v}$ ).
Per preservare le capacità generali del modello, la feature finale ( $v'$ ) è una somma pesata tra la feature originale ( $v$ ) e quella ricostruita dal SAE ( $\hat{v}$ ):
$v' = \alpha \hat{v} + (1 - \alpha)v$
dove $\alpha$ è un parametro di bilanciamento (tipicamente 0.6 negli esperimenti).

3. Contributi Chiave

Primo framework interpretabile: È il primo metodo che applica la disentanglement tramite SAE per il debiasing in VLM e LVLM, rendendo trasparente il processo di mitigazione a livello di neurone.
Mitigazione efficace senza perdita di prestazioni: Dimostra che è possibile ridurre significativamente i bias mantenendo le capacità generali del modello, superando il compromesso tipico dei metodi di fine-tuning o pruning.
Guida pratica sull'uso degli SAE: Fornisce linee guida su come addestrare SAE e selezionare i neuroni per sistemi multimodali consapevoli dei bias, utilizzando dataset privi di etichette sociali durante la fase di apprendimento dell'SAE.

4. Risultati Sperimentali

Gli esperimenti sono stati condotti su CLIP (ViT-B/16 e ViT-L/14) e LVLM come InternVL2-8B e LLaVA-1.5-7B.

Riduzione del Bias:
- CLIP (T2I Retrieval): Riduzione del 9-16% nel Max Skew (misura della distribuzione non uniforme delle immagini recuperate) per attributi di genere, età e razza.
- InternVL2 (VQA): Riduzione del 40-50% nel tasso di sproporzione di genere (differenza nelle risposte "sì" tra immagini maschili e femminili) mantenendo la capacità di rispondere correttamente a domande ambigue.
Interpretabilità e Specificità:
- L'analisi dei neuroni mostra che disattivare i neuroni "genere" riduce principalmente il bias di genere, mentre i neuroni "età" possono avere effetti incrociati (a causa della correlazione nei dati), confermando la capacità dell'SAE di isolare concetti specifici.
- Le immagini che attivano fortemente i neuroni sociali selezionati corrispondono chiaramente a concetti umani interpretabili (es. "donna", "anziano", "etnia specifica").
Trade-off Prestazioni:
- DEBIASLENS ottiene il miglior compromesso tra riduzione del bias e mantenimento delle prestazioni generali (valutate su benchmark come ImageNette, MME, MMMU) rispetto a metodi come Prompt Tuning, Pruning o Full Fine-Tuning.
- L'uso di dataset di addestramento per l'SAE come FairFace (che include attributi facciali bilanciati) si è rivelato superiore rispetto a dataset sintetici o meno diversificati.

5. Significato e Implicazioni

Il lavoro di DEBIASLENS rappresenta un passo fondamentale verso l'IA responsabile e affidabile:

Trasparenza: Trasforma la mitigazione del bias da un intervento "black-box" a un processo controllabile e ispezionabile a livello neurale.
Efficienza: Non richiede il riaddestramento costoso di modelli fondazionali, rendendo la soluzione applicabile a modelli esistenti.
Fondamento per il futuro: Apre la strada a strumenti di audit automatizzati che possono identificare e correggere i bias sociali in tempo reale, garantendo che i sistemi VLM non rafforzino stereotipi discriminatori nelle applicazioni reali.

In sintesi, il paper dimostra che è possibile "sintonizzare" i modelli multimodali per essere più equi agendo chirurgicamente sui neuroni interni che codificano i pregiudizi, preservando al contempo la loro intelligenza generale.