Domain Expansion: A Latent Space Construction Framework for Multi-Task Learning

Each language version is independently generated for its own context, not a direct translation.

Het Probleem: De "Verkeerde Kamer"

Stel je voor dat je een kamer hebt (de neuronale netwerken van een computer) waarin je verschillende dingen tegelijkertijd wilt doen. Je wilt bijvoorbeeld tegelijkertijd:

Een foto herkennen (is het een hond of een kat?).
De richting van de blik van de persoon op de foto bepalen.
De houding van de persoon schatten.

In de traditionele manier van werken (Multi-task Learning) probeert de computer al deze taken in één en dezelfde ruimte te doen. Het probleem is dat deze taken vaak met elkaar in conflict raken.

De taak "herken de hond" zegt: "Zet de features zo!"
De taak "bepaal de blik" zegt: "Nee, zet ze anders!"

Dit is alsof je probeert in één klein hoekje van de kamer te staan, terwijl iemand aan je linkerhand je naar links trekt en iemand aan je rechterhand je naar rechts. Het resultaat? Je belandt in het midden, in een compromis. Je staat niet goed genoeg voor de ene taak, en ook niet goed genoeg voor de andere. De auteurs noemen dit "Latent Representation Collapse" (een instorting van de representatie). De informatie wordt een rommelige, onleesbare soep.

De Oplossing: "Domain Expansion" (Het Uitbreiden van het Domein)

De auteurs van dit paper, Chi-Yao Huang en zijn team, hebben een slimme oplossing bedacht: Domain Expansion.

In plaats van te proberen de ruzie in de kamer te stoppen, bouwen ze gewoon nieuwe, aparte kamers voor elke taak. Maar ze doen dit op een heel specifieke manier: ze zorgen dat deze kamers perfect loodrecht op elkaar staan.

De Metafoor: De Anamorfe Kunst

Stel je een vreemd ogend schilderij voor (anamorfe kunst). Als je er recht op kijkt, zie je een vage, onherkenbare vlek. Maar als je er vanaf de zijkant naar kijkt, zie je een perfect rond cirkel. Als je er vanaf de andere kant naar kijkt, zie je een perfect vierkant.

Het schilderij is de ene, grote data-ruimte die de computer heeft.
De cirkel en het vierkant zijn de verschillende taken (bijv. "hond herkennen" en "blik bepalen").

Bij de oude methode probeerde de computer de cirkel en het vierkant in dezelfde hoek te drukken, waardoor ze vervormden.
Bij Domain Expansion zorgt de computer ervoor dat:

De "cirkel-taak" alleen op de X-as (horizontaal) wordt gemeten.
De "vierkant-taak" alleen op de Y-as (verticaal) wordt gemeten.
De "driehoek-taak" alleen op de Z-as (diepte) wordt gemeten.

Omdat deze assen loodrecht (orthogonaal) op elkaar staan, kan het veranderen van de X-as (de cirkel) de Y-as (het vierkant) nooit beïnvloeden. Ze storen elkaar niet.

Hoe werkt het in de praktijk?

De methode heet Orthogonaal Pooling. Hier is wat er gebeurt, stap voor stap:

De Scan: De computer kijkt naar alle gegevens die het net heeft gezien en vraagt zich af: "Waar zit de meeste variatie?" (Waar bewegen de dingen het meest?).
De Assen: Het trekt een paar onzichtbare lijnen (assen) door die ruimte. Deze lijnen staan allemaal haaks op elkaar.
De Toewijzing: Elke taak krijgt zijn eigen lijn.
- Taak A (Hond/Kat) krijgt lijn 1.
- Taak B (Blikrichting) krijgt lijn 2.
- Taak C (Houding) krijgt lijn 3.
De Projectie: Wanneer de computer een nieuwe foto ziet, projecteert hij de informatie van die foto op die specifieke lijnen. De informatie voor de hond gaat alleen naar lijn 1. De informatie voor de blik gaat alleen naar lijn 2.

Waarom is dit geweldig?

Naast dat het werkt beter (de computer wordt slimmer in alle taken tegelijk), heeft dit een heel cool extraatje: De ruimte wordt begrijpelijk.

Omdat elke taak zijn eigen as heeft, kun je de "knoppen" van de computer letterlijk draaien.

Wil je de hond in de foto laten kijken naar links? Dan draai je de "blik-as" een beetje. De "hond-as" blijft precies hetzelfde.
Wil je een hond toevoegen aan een boot? Dan tel je de "hond-vector" gewoon op bij de "boot-vector".

Dit noemen ze compositionaliteit. Het is alsof je met LEGO-blokken werkt in plaats van met modder. Je kunt concepten optellen en aftrekken zonder dat de rest van het plaatje verandert.

Samenvatting in één zin

In plaats van te proberen verschillende taken in één rommelige kamer te laten overleven, bouwt deze nieuwe methode een gebouw met perfecte, gescheiden kamers die loodrecht op elkaar staan, zodat elke taak zijn eigen ruimte heeft om te excelleren zonder elkaar te storen.

Dit maakt de computer niet alleen slimmer, maar ook transparanter, zodat we precies kunnen zien en manipuleren wat er in zijn "hoofd" gebeurt.

Each language version is independently generated for its own context, not a direct translation.

1. Het Probleem: Latente Representatie Collapse

Het paper identificeert een fundamenteel probleem in het trainen van één enkel netwerk voor meerdere doelen (Multi-Task Learning of MTL). Wanneer een model probeert tegelijkertijd verschillende taken te leren (bijvoorbeeld classificatie en regressie), ontstaan er vaak conflicterende gradiënten. Deze gradiënten trekken de gedeelde latente kenmerken in tegenstrijdige richtingen.

De auteurs noemen dit fenomeen Latent Representation Collapse (Latente Representatie-instorting). Hierbij wordt de latente ruimte gedwongen naar een "compromisgebied" dat slechts een klein deel van de ruimte inneemt. Het resultaat is:

Suboptimale prestaties voor individuele taken.
Verstrengelde (entangled) en oninterpreteerbare representaties.
Een gebrek aan structuur in de latente ruimte, waardoor concepten niet duidelijk van elkaar gescheiden zijn.

Bestaande oplossingen, zoals het herschalen van verliesfuncties of het projecteren van gradiënten (bijv. PCGrad, GradNorm), werken reactief op het optimalisatieproces, maar veranderen niet de onderliggende structuur van de latente ruimte zelf.

2. Methodologie: Domain Expansion

Om dit probleem op te lossen, stellen de auteurs Domain Expansion voor. Dit is een proactief raamwerk dat de structuur van de latente ruimte zelf herschikt om conflicten te voorkomen in plaats van ze op te lossen tijdens het trainen.

De kern van de methode is Orthogonaal Pooling (Orthogonal Pooling), gebaseerd op de volgende stappen:

Bepalen van Hoofdasen: Tijdens het trainen wordt de empirische covariantiematrix ( $\Sigma$ ) van de latente kenmerken berekend. Via eigendecompositie worden de orthonormale eigenvectoren ( $V$ ) gevonden die de hoofdrichtingen van variantie in de data vertegenwoordigen.
Definiëren van Orthogonale Domeinen: De top- $M$ eigenvectoren (waarbij $M$ het aantal taken is) worden geselecteerd als een orthogonale basis. Elke eigenvector $v_m$ wordt toegewezen aan één specifiek doel (concept) $C_m$ . Hierdoor wordt elke taak toegewezen aan een uniek, orthogonaal 1D-subruimte.
Orthogonaal Pooling: De latente feature $f$ wordt ontbonden in projecties op deze orthogonale assen:
$f^{proj,m} = Proj_m(f - \mu)$
Hierbij is $Proj_m = v_m v_m^T$ .
Onafhankelijke Decoders: Elke geprojecteerde subruimte $f^{proj,m}$ wordt door een specifieke decoder verwerkt om het bijbehorende doel $C_m$ te voorspellen. Omdat de subruimten orthogonaal zijn, kunnen de gradiënten van de verschillende taken elkaar niet beïnvloeden.

Wiskundige Eigenschappen:
Dit raamwerk creëert een composionele algebra in de latente ruimte:

Orthogonaliteit: Concepten zijn volledig ontvlecht ( $C_0 \perp C_1 \perp \dots$ ).
Concept Manipulatie: Het is mogelijk om concepten algebraïsch te combineren. Bijvoorbeeld, het toevoegen van een "rotatie" aan een object kan worden gedaan door de vector van de rotatie op te tellen bij de latente vector van het object, zonder de andere attributen (zoals kleur of categorie) te verstoren.
$f_{nieuw} = f_{bestaand} + f^{proj, rotatie}$

3. Belangrijkste Bijdragen

Formalisatie van Collapse: Het paper definieert en formaliseert "Latent Representation Collapse" als een kritieke faalmodus in multi-objectief leren.
Domain Expansion Framework: Introductie van een nieuw raamwerk dat gebruikmaakt van orthogonaal pooling om een latente ruimte te construeren met per definitie niet-interfererende subruimten.
Interpreteerbaarheid en Compositionaliteit: Het aantonen dat de resulterende latente ruimte expliciet en interpreteerbaar is, waarbij orthogonale assen corresponderen met distincte concepten, wat directe manipulatie en analyse mogelijk maakt.

4. Experimentele Resultaten

De methode is getest op diverse benchmarks, waaronder ShapeNet (3D object classificatie en pose schatting), MPIIGaze (blikrichtingsschatting) en Rotated MNIST.

Prestaties: Domain Expansion overtreft aanzienlijk bestaande MTL-baselines (zoals Nash-MTL, FAMO, IMTL) en een standaard gewogen som-baseline.
- Op ShapeNet bereikte het model een Spearman-correlatie van 0.95 voor regressie-taken en een V-score van 0.99 voor classificatie, terwijl baselines vaak instortten (bijv. V-score < 0.01 bij sommige baselines).
- Het model voorkomt effectief de instorting van de representatie, zelfs bij complexe takencombinaties.
Compositionaliteit: Experimenten met het combineren van concepten (bijv. het synthetisch genereren van een nieuwe latente vector door concepten op te tellen) tonen een zeer hoge cosine-相似iteit (0.95) met de grondwaarheid. Dit bewijst dat de latente ruimte een betekenisvolle, lineaire structuur heeft.
Aanvullende Tests:
- Continual Learning: Het framework kan nieuwe taken toevoegen aan een getraind model zonder catastrofale vergetelheid, door nieuwe orthogonale assen te vinden in de resterende ruimte.
- Robuustheid: Het werkt zelfs goed bij redundante of sterk gecorreleerde taken, waarbij het toewijzen van aparte assen geen prestatieverlies veroorzaakt.

5. Betekenis en Conclusie

De betekenis van dit werk ligt in de verschuiving van een reactieve aanpak (gradiëntmanipulatie) naar een proactieve, structurele aanpak. Door de latente ruimte per ontwerp te organiseren in orthogonale domeinen, elimineert Domain Expansion de noodzaak voor complexe gradiënt-benaderingen tijdens het trainen.

Dit leidt tot modellen die niet alleen beter presteren op multi-task taken, maar ook interpreteerbaar en controleerbaar zijn. De mogelijkheid om concepten in de latente ruimte lineair te manipuleren opent de deur voor geavanceerde toepassingen zoals controllable generatie, algoritmische eerlijkheid en het begrijpen van de relatie tussen abstracte concepten in neurale netwerken. Het paper suggereert dat dit een fundamentele stap is richting meer gestructureerde en menselijke begrijpelijke AI-systemen.

Domain Expansion: A Latent Space Construction Framework for Multi-Task Learning

Het Probleem: De "Verkeerde Kamer"

De Oplossing: "Domain Expansion" (Het Uitbreiden van het Domein)

De Metafoor: De Anamorfe Kunst

Hoe werkt het in de praktijk?

Waarom is dit geweldig?

Samenvatting in één zin

1. Het Probleem: Latente Representatie Collapse

2. Methodologie: Domain Expansion

3. Belangrijkste Bijdragen

4. Experimentele Resultaten

5. Betekenis en Conclusie

Meer zoals dit

A Benchmark of Classical and Deep Learning Models for Agricultural Commodity Price Forecasting on A Novel Bangladeshi Market Price Dataset

Probabilistic Language Tries: A Unified Framework for Compression, Decision Policies, and Execution Reuse

FLeX: Fourier-based Low-rank EXpansion for multilingual transfer

Spectral Edge Dynamics Reveal Functional Modes of Learning

S3S^3S3: Stratified Scaling Search for Test-Time in Diffusion Language Models

$S^3$ : Stratified Scaling Search for Test-Time in Diffusion Language Models