Unsupervised Representation Learning - an Invariant Risk Minimization Perspective

Each language version is independently generated for its own context, not a direct translation.

Immagina di essere un detective che deve imparare a riconoscere i volti delle persone. Finora, hai fatto questo lavoro solo quando avevi un'etichetta accanto a ogni foto che diceva "Questo è Mario" o "Questo è Luigi". Ma cosa succede se non hai queste etichette? E cosa succede se le foto che ti danno provengono da ambienti molto diversi: alcune sono scattate in una stanza buia, altre sotto il sole cocente, altre ancora con filtri colorati strani?

Questo è il problema che affrontano gli autori di questo nuovo studio presentato alla conferenza ICLR 2026. Propongono un modo per insegnare alle intelligenze artificiali a capire cosa è vero e costante in un'immagine (o in un dato), anche senza sapere il nome della persona o senza avere etichette, e anche quando le condizioni cambiano.

Ecco la spiegazione semplice, divisa in concetti chiave con delle metafore.

1. Il Problema: Il Detective Ingannato

Nell'Intelligenza Artificiale classica, se addestri un modello a riconoscere i gatti, ma tutti i gatti nelle tue foto di addestramento sono su un prato verde, il modello potrebbe imparare che "gatto = prato verde". Se poi gli mostri un gatto sulla sabbia (un ambiente diverso), potrebbe non riconoscerlo più. Questo si chiama spurious correlation (correlazione spuria): il modello ha imparato un trucco dell'ambiente invece della verità.

I metodi precedenti (chiamati IRM) richiedevano che qualcuno ti dicesse: "Ehi, questa è la verità, questa è solo l'ambiente". Ma spesso non abbiamo queste risposte (dati non etichettati).

2. La Soluzione: Separare il "Sostanza" dal "Contesto"

Gli autori dicono: "Non abbiamo bisogno di etichette! Possiamo insegnare al modello a separare automaticamente due cose:

L'Essenza (Invariant): Ciò che rimane uguale (es. il volto di una persona, la forma di un numero).
Il Contesto (Environment): Ciò che cambia (es. la luce, il colore di sfondo, la posizione di un oggetto).

Immagina di avere una fotocamera magica che scatta una foto. Questa fotocamera ha due lenti:

Una lente che vede solo l'oggetto (il "sostanza").
Una lente che vede solo lo sfondo e la luce (il "contesto").

L'obiettivo è addestrare la fotocamera a usare la prima lente per capire cosa c'è nella foto, ignorando la seconda.

3. I Due Strumenti Magici (Gli Algoritmi)

Per fare questo, gli autori hanno creato due strumenti, uno semplice e uno complesso:

A. PICA (L'Analista Matematico Semplice)

Immagina di avere due gruppi di dati: uno scattato di giorno e uno di notte.

Cosa fa PICA: Guarda tutte le foto e cerca la direzione in cui i dati sono più "rumorosi" o cambiano molto tra giorno e notte. Poi, dice: "Ehi, quella direzione è solo rumore ambientale! Tagliamola via".
L'analogia: È come se avessi un'orchestra dove il violino suona sempre la stessa nota (l'essenza), ma il tamburo cambia ritmo a seconda del meteo (l'ambiente). PICA è il direttore d'orchestra che smette di ascoltare il tamburo e si concentra solo sul violino, anche senza sapere chi sta suonando.

B. VIAE (Il Costruttore di Mondi Virtuali)

Questo è un modello più avanzato, un po' come un architetto di realtà virtuale.

Come funziona: Immagina che VIAE sia un artista che deve dipingere un ritratto. Ha due scatole di colori:
- Scatola A (Invariant): Contiene i colori che definiscono il soggetto (es. il naso, gli occhi, la forma del viso).
- Scatola B (Environment): Contiene i colori che definiscono l'atmosfera (es. luce rossa, luce blu, sfondo verde).
Il trucco: L'artista impara a prendere un soggetto dalla Scatola A e a mescolarlo con qualsiasi atmosfera dalla Scatola B.
Il risultato: Se prendi un ritratto fatto di giorno (luce gialla) e lo "trasferisci" in un ambiente notturno (luce blu), l'artista cambia solo la luce, ma il viso rimane esattamente lo stesso.

4. Cosa possono fare con questo?

Gli autori hanno dimostrato che questo sistema funziona su diversi giochi di dati:

Numeri scritti a mano (MNIST): Se i numeri sono scritti su sfondi bianchi o neri, il sistema impara a riconoscere il numero ignorando lo sfondo.
Faccine (CelebA): Hanno usato foto di celebrità. Il sistema è riuscito a separare il "volto" (essenza) dal "genere" (contesto).
- L'esperimento: Hanno preso una foto di un uomo, hanno "rimosso" la parte di contesto che diceva "maschio" e l'hanno sostituita con quella di "femmina". Risultato? Hanno ottenuto un'immagine che sembra una donna, ma che ha conservato le stesse espressioni, la stessa struttura del viso e la stessa posa dell'uomo originale. È come un trucco digitale che cambia il genere senza cambiare l'identità della persona.

5. Perché è importante?

Questo lavoro è rivoluzionario perché:

Non serve l'etichetta: Non devi spendere anni a far etichettare le foto da umani. Il sistema impara da solo guardando le differenze tra i gruppi.
È più robusto: Se un'auto a guida autonoma è addestrata con questo metodo, riconoscerà un pedone anche se piove, se c'è nebbia o se è notte, perché ha imparato a ignorare il "meteo" e concentrarsi sul "pedone".
Equità (Fairness): Nel mondo reale, questo può aiutare a evitare discriminazioni. Se un sistema di assunzione impara a vedere solo le "competenze" (essenza) e ignora il "genere" o la "razza" (contesto ambientale), le decisioni saranno più giuste.

In sintesi

Gli autori hanno inventato un modo per insegnare alle macchine a non farsi ingannare dalle apparenze. Come un saggio che guarda oltre l'abbigliamento o il contesto per vedere la vera natura di una persona, il loro sistema impara a vedere l'essenza dei dati, indipendentemente da dove o come sono stati raccolti. È un passo avanti enorme per rendere l'Intelligenza Artificiale più intelligente, affidabile e giusta, anche quando non abbiamo tutte le risposte in mano.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

L'articolo affronta una limitazione fondamentale dell'Invariant Risk Minimization (IRM): la dipendenza dai dati etichettati.

Contesto: L'IRM tradizionale mira a imparare rappresentazioni robuste agli spostamenti di distribuzione (distribution shifts) tra diversi ambienti (domini), assumendo che esistano caratteristiche latenti "invarianti" (che rimangono stabili) e caratteristiche "spurie" o dipendenti dall'ambiente.
Sfida: I metodi IRM esistenti richiedono la conoscenza delle etichette ( $Y$ ) per definire l'obiettivo di ottimizzazione. Tuttavia, in molti scenari reali, i dati etichettati sono scarsi, costosi o inesistenti.
Obiettivo: Estendere il concetto di invarianza a un contesto non supervisionato, permettendo l'apprendimento di rappresentazioni robuste senza accesso alle etichette, basandosi esclusivamente sulla struttura dei dati ( $X$ ) provenienti da più ambienti.

2. Metodologia e Formulazione Teorica

Gli autori propongono un nuovo quadro teorico basato su un Modello Causale Strutturale (SCM) "non supervisionato".

2.1 Ridefinizione dell'Invarianza

Invece di minimizzare il rischio di classificazione, l'obiettivo diventa allineare le distribuzioni delle caratteristiche apprese attraverso gli ambienti.

Obiettivo di Ottimizzazione: Massimizzare la verosimiglianza (log-likelihood) dei dati ricostruiti, soggetta al vincolo che la distribuzione delle caratteristiche invarianti $\phi(X)$ sia identica in tutti gli ambienti di training:
$P^{i}_{\theta}(\phi(X)) = P^{j}_{\theta}(\phi(X)) \quad \forall i, j \in \mathcal{E}_{train}$
Modello Generativo: I dati sono generati da una combinazione di fattori invarianti ( $Z_{inv}$ ) e fattori dipendenti dall'ambiente ( $Z_e$ ). L'obiettivo è separare questi due spazi latenti.

2.2 Due Metodi Proposti

Gli autori introducono due algoritmi principali per risolvere questo problema:

A. PICA (Principal Invariant Component Analysis)

Assunzioni: Caso lineare e Gaussiano.
Funzionamento: È una variante della PCA. L'obiettivo è trovare una proiezione lineare $u$ che massimizzi la varianza totale (informazione) ma che sia nulla nella differenza tra le matrici di covarianza degli ambienti.
Meccanismo:
1. Si calcola lo spazio nullo della differenza tra le matrici di covarianza degli ambienti ( $\Sigma^1_x - \Sigma^2_x$ ). Questo spazio contiene solo le direzioni invarianti.
2. All'interno di questo spazio, si massimizza la varianza combinata ( $\Sigma^1_x + \Sigma^2_x$ ) per estrarre le componenti principali invarianti.
Risultato: Un metodo analitico a due passi che filtra le dimensioni soggette a spostamento di distribuzione.

B. VIAE (Variational Invariant Autoencoder)

Architettura: Un'estensione del Variational Autoencoder (VAE) progettata per rispettare la struttura causale proposta.
Componenti Chiave:
- Spazio Latente Fattorizzato: Lo spazio latente è esplicitamente diviso in $Z_{inv}$ (invariante) e $Z_e$ (dipendente dall'ambiente).
- Encoder:
  - Un Invariant Encoder condiviso tra tutti gli ambienti che produce $Z_{inv}$ .
  - $|E_{train}|$ Environmental Encoders specifici per ogni ambiente che producono $Z_e$ .
- Decoder: Ricostruisce l'input $X$ utilizzando sia $Z_{inv}$ che $Z_e$ . Il decoder non riceve l'etichetta dell'ambiente come input esplicito; la sua capacità di generalizzare deriva dal fatto che il meccanismo di decodifica è stabile (invariante).
Vincoli Causali: L'architettura impone che $Z_{inv}$ sia indipendente dall'ambiente ( $Z_{inv} \perp \perp e$ ) e che, condizionando su $X$ , $Z_{inv}$ e $Z_e$ diventino dipendenti (struttura collider).

3. Contributi Chiave

Estensione Non Supervisionata dell'IRM: La prima formulazione esplicita dell'IRM senza etichette, ridefinendo l'invarianza come allineamento delle distribuzioni delle feature.
Nuovo SCM Unsupervised: Un modello generativo unificato che generalizza le assunzioni precedenti (FIIF e PIIF) e supporta sia meccanismi causali che anti-causali.
Algoritmi Pratici:
- PICA: Una soluzione lineare ed efficiente per dati Gaussiani.
- VIAE: Un modello profondo generativo che permette l'intervento sullo spazio latente.
Trasferimento di Ambiente (Environment Transfer): La capacità di prendere un campione da un ambiente (anche non visto durante l'addestramento, in alcuni casi) e rigenerarlo in un altro ambiente target, preservando il contenuto invariante (es. l'identità di un oggetto) ma cambiando lo stile ambientale (es. lo sfondo o il colore).

4. Risultati Sperimentali

Gli autori hanno valutato i metodi su dataset sintetici e reali:

Dataset:
- SMNIST: MNIST con quadrati bianchi aggiunti in posizioni diverse (spurious features).
- SCMNIST: MNIST con canali RGB diversi per ambiente (Rosso, Verde, Blu).
- CelebA: Immagini di volti, utilizzato per testare l'equità (fairness) separando il genere (ambiente) dall'identità (invariante).
Performance di PICA: Su dati sintetici, PICA ha dimostrato di estrarre con successo la componente invariante, producendo distribuzioni costanti tra gli ambienti dopo la proiezione.
Performance di VIAE:
- Generazione: Il modello può generare campioni con lo stesso contenuto invariante (es. lo stesso numero o volto) ma con caratteristiche ambientali diverse controllate dal prior di $Z_e$ .
- Separazione degli Spazi: Esperimenti di classificazione lineare mostrano che:
  - $Z_{inv}$ mantiene alta accuratezza nella previsione dell'etichetta (es. il numero scritto).
  - $Z_e$ mantiene alta accuratezza nella previsione dell'ambiente, ma fallisce nel prevedere l'etichetta.
  - $Z_{inv}$ non contiene informazioni sull'ambiente (accuratezza casuale nella previsione dell'ambiente).
- Trasferimento: VIAE riesce a trasferire immagini da un ambiente di training a un altro (es. da quadrato in alto a sinistra a quadrato in basso a destra) preservando l'oggetto.
- Ambienti Non Visti: Il trasferimento da ambienti non visti ( $E_{test}$ ) funziona bene se gli ambienti di training coprono sufficientemente lo spazio delle distribuzioni (es. SMNIST), ma fallisce se mancano dimensioni critiche (es. SCMNIST dove il canale blu è assente nel training).

5. Significato e Implicazioni

Questo lavoro è significativo per diversi motivi:

Accessibilità: Rimuove la barriera dell'etichettatura per l'IRM, rendendo le tecniche di robustezza applicabili a scenari con dati non etichettati.
Interpretabilità Causale: Fornisce un framework per separare causalmente le cause invarianti dalle correlazioni spurie senza supervisione.
Applicazioni all'Equità (Fairness): La sezione su CelebA dimostra come il framework possa essere usato per "debiasare" i dati, rimuovendo o controllando attributi sensibili (come il genere) mantenendo le caratteristiche rilevanti per il compito, un passo cruciale per sistemi di IA etici.
Futuro: Apre la strada a nuove ricerche su come gestire il trasferimento da ambienti completamente non visti (zero-shot) e sull'integrazione con architetture generative più avanzate (come Diffusion Models o GAN).

In sintesi, il paper propone un cambio di paradigma fondamentale: l'invarianza non è solo uno strumento per la classificazione robusta, ma una proprietà strutturale delle distribuzioni di dati che può essere appresa e sfruttata anche in assenza di etichette.