Domain Expansion: A Latent Space Construction Framework for Multi-Task Learning

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover insegnare a un unico studente (la nostra intelligenza artificiale) a fare tre cose contemporaneamente: riconoscere un'auto, dire da che direzione sta guardando e descrivere il colore del cielo.

Nell'approccio tradizionale, questo studente cerca di trovare una "soluzione media". Immagina che lo studente debba scrivere su un unico foglio di carta. Se prova a disegnare un'auto, il colore del cielo potrebbe sbavare; se prova a scrivere il colore, la forma dell'auto potrebbe diventare confusa. Alla fine, il foglio è pieno di scarabocchi: l'auto non è chiara, il cielo non è definito. In termini tecnici, questo si chiama collasso della rappresentazione: lo studente finisce per essere mediocre in tutto perché le istruzioni si scontrano.

Gli scienziati di questo articolo (pubblicato alla conferenza ICLR 2026) hanno detto: "Basta! Non dobbiamo cercare di far convivere tutto su un unico foglio confuso".

Ecco la loro soluzione, chiamata Domain Expansion (Espansione del Dominio), spiegata con un'analogia semplice:

1. Il Problema: La Stanza Affollata

Pensa allo spazio mentale dell'intelligenza artificiale come a una stanza vuota.

Metodo vecchio: Metti tutti i compiti (auto, colore, direzione) nella stessa stanza. Quando lo studente cerca di pensare all'auto, il concetto di "colore" lo disturba. È come se avessi un tavolo dove devi scrivere un'equazione matematica, disegnare un quadro e cucinare una pasta, tutto nello stesso spazio. Il risultato è il caos.

2. La Soluzione: La Casa con Stanze Separate

Il nuovo metodo, Domain Expansion, costruisce una casa con stanze separate e perfettamente isolate.

Immagina di avere una casa con un corridoio centrale (lo spazio mentale) e diverse stanze laterali.
La stanza di sinistra è solo per le Auto.
La stanza di destra è solo per i Colori.
La stanza in fondo è solo per la Direzione.

Queste stanze sono ortogonali. In termini matematici, significa che sono perpendicolari tra loro, come gli assi X, Y e Z di un grafico. Se spingi qualcosa nella stanza delle "Auto", non può fisicamente entrare nella stanza dei "Colori". Non c'è interferenza.

3. Come funziona la "Magia" (Pooling Ortogonale)

Il metodo usa una tecnica intelligente chiamata Pooling Ortogonale.
Immagina che lo studente guardi un oggetto attraverso un prisma speciale.

Il prisma prende l'immagine complessa e la divide automaticamente in raggi di luce separati.
Un raggio va nella stanza "Auto", uno nella stanza "Colore", uno nella stanza "Direzione".
Ogni stanza lavora in silenzio, senza disturbare le altre.

Questo significa che lo studente impara a riconoscere un'auto perfettamente, senza che il concetto di "colore" lo confonda, e viceversa.

4. Il Vantaggio Extra: La Matematica dei Concetti

C'è un vantaggio incredibile che rende questo metodo speciale. Poiché ogni concetto ha la sua "stanza" o asse separato, possiamo fare matematica con le idee.

Immagina di avere un'immagine di un Sedia e un'immagine di una Barca.

Nel vecchio metodo, se provavi a sommare i due concetti, ottenevi una confusione.
Con questo nuovo metodo, puoi prendere il "raggio" della Sedia e sommarlo al "raggio" della Barca.
Il risultato? L'intelligenza artificiale capisce esattamente cosa significa "Sedia + Barca" (forse una sedia a forma di barca o una barca che è anche una sedia) perché le due idee non si sono mescolate in un caos, ma sono state semplicemente aggiunte come numeri su un foglio di calcolo.

In sintesi

Questo articolo ci dice che invece di forzare un'intelligenza artificiale a trovare un compromesso confuso tra compiti diversi, dobbiamo darle spazi separati e ordinati per ogni compito.

Prima: Un unico foglio di carta pieno di scarabocchi (Collasso).
Ora: Una casa con stanze separate e silenziose (Espansione del Dominio).

Il risultato è un'intelligenza artificiale che non solo è più brava a fare più cose contemporaneamente, ma che capisce anche come queste cose sono collegate, permettendoci di manipolare le sue idee in modo chiaro e preciso, proprio come un architetto che può spostare muri senza crollare l'edificio.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema: Collasso della Rappresentazione Latente

Il paper affronta una sfida fondamentale nell'apprendimento multi-task (MTL): quando un'unica rete neurale viene addestrata su obiettivi multipli e potenzialmente conflittuali (es. classificazione e regressione simultanee), si verifica un fenomeno definito dagli autori come collasso della rappresentazione latente (latent representation collapse).

Meccanismo: Gli obiettivi concorrenti generano gradienti che si tirano in direzioni opposte, costringendo le rappresentazioni latenti condivise in una regione compromessa e subottimale dello spazio.
Conseguenze: Questo porta a:
1. Degrado delle prestazioni predittive su singoli task.
2. Rappresentazioni intrecciate (entangled) e non interpretabili, dove i fattori di variazione sottostanti non sono chiaramente separati.
Limiti delle soluzioni attuali: I metodi esistenti (come GradNorm, PCGrad, Nash-MTL) agiscono a livello di ottimizzazione, cercando di mitigare i conflitti dei gradienti durante l'aggiornamento dei pesi. Tuttavia, non risolvono il problema strutturale dello spazio latente stesso, che rimane intrinsecamente soggetto a interferenze.

2. Metodologia: Domain Expansion

Gli autori propongono Domain Expansion, un framework che previene i conflitti non mediando i gradienti, ma ristrutturando strutturalmente lo spazio latente. L'idea centrale è assegnare ogni obiettivo a un sottospazio mutuamente ortogonale.

Componenti Chiave:

Pooling Ortogonale (Orthogonal Pooling):
- Il framework utilizza un meccanismo dinamico applicato ad ogni epoca di addestramento.
- Ricerca degli Assi Principali: Si calcola la media ( $\mu$ ) e la matrice di covarianza ( $\Sigma$ ) delle feature latenti del batch corrente. Viene eseguita una decomposizione agli autovalori (eigendecomposition) per ottenere una base ortonormale di autovettori ( $V$ ).
- Definizione del Dominio: Gli $M$ autovettori con i maggiori autovalori vengono selezionati per formare la "base concettuale". Ogni autovettore $v_m$ viene assegnato a un singolo concetto target $C_m$ .
- Proiezione: Le feature latenti grezze vengono decomposte proiettandole sugli assi ortogonali definiti. Questo crea sottospazi dedicati ( $F^{proj}_m$ ) per ogni task.
Pipeline di Addestramento:
- L'encoder mappa l'input in uno spazio latente condiviso.
- Il Pooling Ortogonale proietta questo vettore sui sottospazi specifici per ogni task.
- Ogni sottospazio proiettato viene decodificato separatamente per il proprio obiettivo.
- La perdita totale è la somma delle perdite calcolate indipendentemente su ciascun sottospazio proiettato, garantendo che i gradienti di un task non interferiscano con gli altri.
Stabilizzazione (Algoritmo Ungherese):
- Poiché l'ordine e il segno degli autovettori possono cambiare tra le epoche, viene utilizzato l'algoritmo ungherese (Hungarian algorithm) per allineare la base degli autovettori tra le epoche successive, assicurando che un concetto specifico rimanga associato allo stesso asse durante tutto l'addestramento.

3. Proprietà dello Spazio Latente

Il framework trasforma lo spazio latente in un'algebra concettuale composizionale e interpretabile:

Ortogonalità dei Concetti: I concetti sono disaccoppiati per design ( $C_0 \perp C_1 \dots$ ).
Codifica Multi-concetto: Un singolo vettore latente codifica simultaneamente tutti i concetti.
Operatori Algebrici: È possibile manipolare i concetti tramite operazioni vettoriali semplici:
- Regolazione specifica: Modificare un concetto (es. cambiare l'orientamento) senza alterare gli altri, sommando o sottraendo vettori lungo l'asse specifico.
- Composizione: Combinare due istanze complete di concetti ( $c_p \oplus c_q$ ) tramite somma vettoriale dei loro componenti latenti.

4. Risultati Sperimentali

Il metodo è stato validato su diversi benchmark: ShapeNet (classificazione 3D e stima della posa), MPIIGaze (stima dello sguardo) e Rotated MNIST.

Prestazioni Predittive e Qualità della Rappresentazione:
- Domain Expansion supera significativamente i baseline (inclusi Nash-MTL, FAMO, IMTL) sia nelle metriche di qualità della rappresentazione (Correlazione di Spearman, V-score) che nelle metriche predittive (MAE, Accuratezza).
- Mentre i baseline mostrano spesso un "collasso" (alta accuratezza predittiva ma bassa qualità della struttura latente o viceversa), il metodo proposto mantiene alte prestazioni su entrambi i fronti.
Interpretabilità e Composizionalità:
- Le visualizzazioni (PCA) mostrano che lo spazio latente appreso è chiaramente strutturato e allineato agli assi, a differenza delle rappresentazioni intrecciate dei baseline.
- L'esperimento di composizione concettuale (ricostruire un target sintetico combinando concetti) ha ottenuto una similarità coseno molto superiore (0.95 vs ~0.28 dei baseline), dimostrando che lo spazio è effettivamente inferibile e manipolabile.
Robustezza:
- Il framework è stato testato anche in scenari di Continual Learning (aggiunta di nuovi task senza riaddestramento da zero) e con task ridondanti, mantenendo buone prestazioni e prevenendo il catastrophic forgetting.

5. Contributi Chiave

Formalizzazione del Collasso: Identificazione e definizione formale del "collasso della rappresentazione latente" come modalità di fallimento critica nel MTL.
Framework Domain Expansion: Introduzione di un approccio proattivo che costruisce spazi latenti con sottospazi ortogonali dedicati, prevenendo l'interferenza per design piuttosto che reagendo ai conflitti.
Spazio Latente Interpretabile: Dimostrazione che il metodo genera uno spazio esplicito dove gli assi ortogonali corrispondono a concetti distinti, abilitando l'inferenza composizionale e la manipolazione diretta delle feature.

6. Significato e Implicazioni

Questo lavoro rappresenta un cambio di paradigma rispetto alle tecniche di gestione dei gradienti tradizionali. Invece di "aggiustare" l'ottimizzazione, Domain Expansion ridefinisce l'architettura dello spazio di rappresentazione.

Impatto: Offre una via per creare modelli più controllabili e interpretabili, fondamentali per applicazioni che richiedono trasparenza (es. equità algoritmica) o generazione di contenuti multimodali controllabile.
Futuro: Apre la strada all'integrazione di encoder strutturati con modelli generativi (LLM, diffusion models) per tradurre queste composizioni latenti astratte in output comprensibili all'uomo.

In sintesi, il paper dimostra che imporre una struttura geometrica ortogonale allo spazio latente risolve il problema fondamentale dell'interferenza multi-task, portando a modelli più robusti, precisi e semanticamente chiari.

Domain Expansion: A Latent Space Construction Framework for Multi-Task Learning

1. Il Problema: La Stanza Affollata

2. La Soluzione: La Casa con Stanze Separate

3. Come funziona la "Magia" (Pooling Ortogonale)

4. Il Vantaggio Extra: La Matematica dei Concetti

In sintesi

1. Il Problema: Collasso della Rappresentazione Latente

2. Metodologia: Domain Expansion

Componenti Chiave:

3. Proprietà dello Spazio Latente

4. Risultati Sperimentali

5. Contributi Chiave

6. Significato e Implicazioni

Articoli simili

A Benchmark of Classical and Deep Learning Models for Agricultural Commodity Price Forecasting on A Novel Bangladeshi Market Price Dataset

Probabilistic Language Tries: A Unified Framework for Compression, Decision Policies, and Execution Reuse

FLeX: Fourier-based Low-rank EXpansion for multilingual transfer

Spectral Edge Dynamics Reveal Functional Modes of Learning

S3S^3S3: Stratified Scaling Search for Test-Time in Diffusion Language Models

$S^3$ : Stratified Scaling Search for Test-Time in Diffusion Language Models