Disentangled Mode-Specific Representations for Tensor Time Series via Contrastive Learning

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme, complexe bibliotheek hebt. Maar in plaats van boeken, zitten er in deze bibliotheek duizenden sensoren die continu meten: hoeveel mensen zoeken naar "Amazon" in Californië, hoeveel mensen zoeken naar "Apple" in Texas, hoe de luchtkwaliteit is in Parijs, en zo verder.

Dit soort data noemen wetenschappers een Tensor Tijdreeks. Het is een 3D-puzzel van informatie:

Waar? (Locatie)
Wat? (Zoekterm of sensor)
Wanneer? (Tijd)

Het probleem is dat deze puzzel erg moeilijk te begrijpen is voor computers. Traditionele methoden proberen de hele puzzel in één keer te kraken, wat vaak leidt tot een rommelig beeld waar de computer niet goed uit kan halen wat belangrijk is.

In dit paper presenteren de auteurs MoST (een slimme nieuwe manier om deze data te leren begrijpen). Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De "Scheerpartij" (Tensor Slicing)

Stel je voor dat je een grote, dichte boomgaard hebt met appels, peren en sinaasappels die allemaal tegelijk rijpen. Als je alles door elkaar roert, weet je niet welke vrucht welke smaak heeft.

MoST doet iets anders: het snijdt de boomgaard in plakken.

Het maakt een stapel met alleen de appels (alle locaties voor één zoekterm).
Het maakt een stapel met alleen de peren (alle zoektermen voor één locatie).

Door deze plakken apart te bekijken, kan de computer veel beter zien wat er specifiek gebeurt binnen die groep. Bijvoorbeeld: "Ah, alle zoekopdrachten in Californië hebben een piek op kerst." Dat is een lokale regel (binnen die 'plak').

2. Twee soorten "geheugen" (Disentangled Representations)

MoST leert twee soorten dingen tegelijk, alsof het twee verschillende soorten geheugen heeft:

Het Specifieke Geheugen (Mode-Specific): Dit onthoudt de unieke regels van elke plak. Bijvoorbeeld: "In Californië zoeken mensen vaak naar 'zonnebril', maar in Texas naar 'zand'." Dit is de lokale smaak van de data.
Het Algemene Geheugen (Mode-Invariant): Dit onthoudt wat voor iedereen hetzelfde is. Bijvoorbeeld: "Of het nu Californië of Texas is, of het nu appels of peren zijn... iedereen zoekt meer naar cadeaus in december." Dit is de globale trend (zoals seizoenen).

MoST is slim omdat het deze twee geheugens gescheiden houdt, maar ze wel samen gebruikt. Het zegt: "Ik weet dat het specifiek is voor Californië, maar ik weet ook dat het deel uitmaakt van de wereldwijde kersttrend."

3. De "Spiegel-Test" (Contrastive Learning)

Hoe leert de computer dit? Het gebruikt een truc die we Contrastive Learning noemen.

Stel je voor dat je een spiegel hebt. Je neemt een foto van de boomgaard, en dan maak je een kopie van die foto, maar je knipt er een stukje uit en verplaatst het (dit noemen ze 'augmentatie').

De computer kijkt naar de originele foto en de geknipte kopie.
Hij vraagt zich af: "Zijn dit dezelfde boomgaard?" (Ja, dat is een positief voorbeeld).
Vervolgens kijkt hij naar een foto van een andere boomgaard (bijvoorbeeld een andere stad) en vraagt: "Is dit hetzelfde?" (Nee, dat is een negatief voorbeeld).

Door duizenden keren te oefenen met deze "spiegel-test", leert de computer welke patronen echt belangrijk zijn en welke toeval zijn. MoST doet dit extra slim door de verschillende plakken (appels vs. peren) ook met elkaar te vergelijken, zodat het leert wat de gemeenschappelijke taal is tussen alle verschillende soorten data.

Waarom is dit belangrijk?

Tot nu toe waren computers vaak slecht in het voorspellen van de toekomst of het herkennen van patronen in deze complexe 3D-data. Ze zagen de boom niet door de bomen, of ze zagen de bomen niet door de boomgaard.

MoST wint het spel omdat het:

De data in overzichtelijke stukjes snijdt.
Loopt om te zien wat uniek is per stukje.
Loopt om te zien wat voor iedereen hetzelfde is.

Het resultaat?
In de proeven die de auteurs deden (met echte data zoals Google Trends, luchtkwaliteit en fietsverhuur in New York), was MoST veel beter dan de beste bestaande methoden. Het kon:

Beter voorspellen: "Over twee weken zal de luchtkwaliteit in deze stad slecht zijn."
Beter classificeren: "Dit patroon van beweging komt van een mens die rent, niet van een auto."

Kortom: MoST is als een super-slimme bibliothecaris die niet alleen de boeken in de juiste kast zet, maar ook precies weet welke verhalen in welke kasten terugkomen, zodat hij de toekomstige lezers perfect kan voorspellen wat ze gaan zoeken.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Tijdreeksen die uit meerdere attributen of "modi" bestaan, vormen een Tensor Time Series (TTS). Deze complexe datastructuren komen veel voor in domeinen zoals zoekmachines, milieumonitoring en financiële analyse. Een TTS heeft een multifacette structuur met ingewikkelde interacties:

Intra-mode afhankelijkheden: Relaties tussen variabelen binnen dezelfde modus (bijv. de relatie tussen verschillende zoekopdrachten of tussen verschillende locaties).
Temporele afhankelijkheden: Patronen over de tijd (bijv. seizoensinvloeden) die vaak gemeenschappelijk zijn voor verschillende modi, hoewel de specifieke variabelen per modus verschillen.

Bestaande methoden voor representatieleren hebben moeite met deze structuur:

Traditionele tensor-decompositie (zoals Tucker of CP) richt zich op reconstructie en verwaarloost vaak temporele afhankelijkheden.
Diepe leermethoden voor tijdreeksen (zoals TS2Vec) behandelen modi vaak als onafhankelijke vectoren en negeren de tensorstructuur.
Bestaande tensor-methoden (zoals ATD) behandelen alle modi gelijk, waardoor ze specifieke intra-mode afhankelijkheden en unieke temporele patronen niet optimaal kunnen leren.

Het doel is een methode te ontwikkelen die ontkoppelde (disentangled) modus-specifieke representaties leert, waarbij zowel de unieke kenmerken van elke modus als de gemeenschappelijke temporele patronen worden vastgelegd.

Methodologie: MoST

De auteurs stellen MoST (Mode-Specific Representations for Tensor Time Series) voor, een nieuw zelftoezichtend (self-supervised) leerframework dat contrastief leren (Contrastive Learning) combineert met tensor-slicing.

1. Modelarchitectuur

Het model bestaat uit drie hoofdbestandsdelen (zie Figuur 2 in het artikel):

Tensor Slicing: In plaats van de hele tensor als één blok te behandelen, wordt de TTS opgesplitst in sets van "slices" per niet-temporale modus. Voor een 3e-orde tensor met modi $d_1$ $d_{1}$ (bijv. locatie), $d_2$ $d_{2}$ (bijv. query) en $T$ $T$ (tijd), worden er sets van slices gemaakt:
- Een set van $d_2$ slices voor modus 1 (elk een tijdsreeks van lengte $w$ ).
- Een set van $d_1$ slices voor modus 2.
Slice Feature Encoder: Elke slice wordt onafhankelijk verwerkt door een encoder (de "Mode-Independence" aanpak). Dit omvat:
- Een lineaire projectie en temporele embedding.
- Een causale convolutie-encoder (Causal Convolution) die informatie over verschillende tijdschalen vastlegt.
- Een pooling-laag om de slice-representaties samen te vatten.
Aggregator: De individuele slice-representaties worden geaggregeerd (via gemiddelde of max-pooling) om de uiteindelijke modus-specifieke representaties $V^{(d1)}$ en $V^{(d2)}$ te vormen. Deze worden vervolgens samengevoegd tot de finale representatie $V$ .

2. Contrastief Leringsframework

Om de parameters te leren, wordt een nieuwe verliesfunctie gebruikt die bestaat uit twee delen:

Instance Loss (Modus-specifiek): Deze loss zorgt ervoor dat het model de unieke kenmerken van een specifieke tijdsreeks leert. Het gebruikt random cropping om twee augmentaties van dezelfde tensor te maken. Representaties van dezelfde tijdstippen in deze augmentaties worden als positieve paren behandeld, terwijl andere tijdreeksen als negatieve paren dienen.
Mode Loss (Modus-invariant): Deze loss leert de gemeenschappelijke temporele patronen die over alle modi heen gelden. Het behandelt de representaties van verschillende modi (bijv. $V^{(d1)}$ en $V^{(d2)}$ ) op hetzelfde tijdstip als positieve paren. Het doel is om de gelijkenis tussen deze verschillende modus-representaties te maximaliseren voor hetzelfde tijdstip, terwijl representaties van andere tijdreeksen als negatief worden behandeld.

De totale verliesfunctie is een gewogen som: $L = L_I + \alpha(L_M^{(d1)} + L_M^{(d2)})$ .

Belangrijkste Bijdragen

MoST: De eerste methode die specifiek representaties voor TTS leert via contrastief leren, met expliciete aandacht voor de tensorstructuur.
Tensor Slicing & Disentanglement: Introductie van een slicing-aanpak die het mogelijk maakt om representaties te ontkoppelen in modus-specifieke en modus-invariante componenten.
Nieuwe Verliesfuncties: Ontwikkeling van een combinatie van instance loss en mode loss om zowel unieke intra-mode afhankelijkheden als gedeelde temporele dynamieken te leren.
Uitgebreide Validatie: Experimenten op 11 real-world datasets die aantonen dat de methode superieur is aan state-of-the-art methoden voor zowel classificatie als forecasting.

Resultaten

De auteurs hebben MoST getest op diverse datasets, waaronder Google Trends, KnowAir (PM2.5), NYC CitiBike en bewegingssensordata.

Classificatie: Op bewegingssensordatasets (Daily en Realdisp) behaalde MoST de hoogste nauwkeurigheid (bijv. 0.766 vs. 0.663 voor de tweede beste methode TS2Vec). De methode leert rijkere representaties door de TTS-structuur te benutten.
Forecasting: Op 9 datasets voor tijdreeksvoorspelling (verschillende forecast-horizonten van 2 tot 32 weken) overtrof MoST consistent methoden zoals CoST, TS2Vec, Informer en tensor-decompositiemethoden (NET3, SSMF). De verbetering in MSE (Mean Squared Error) en MAE (Mean Absolute Error) was significant, vooral bij langere forecast-horizonten.
Ablatie-studies:
- Het verwijderen van de tensor-slicing (bijv. alleen één modus gebruiken of de data randomiseren) leidde tot een aanzienlijke daling in prestaties, wat het belang van het modelleren van intra-mode afhankelijkheden bevestigt.
- Zowel de instance loss als de mode loss bleken essentieel; het verwijderen van de mode loss had een negatief effect op de classificatie, terwijl de instance loss cruciaal was voor forecasting.
Case Study (t-SNE Visualisatie): Visualisaties tonen aan dat MoST verschillende intra-mode afhankelijkheden succesvol kan onderscheiden in de latent space, terwijl concurrenten (CoST, TS2Vec) deze patronen niet kunnen scheiden.

Significantie

Dit werk is significant omdat het een brug slaat tussen tensor-analyse en moderne zelftoezichtende tijdreekslering. Door de complexiteit van TTS te ontrafelen in modus-specifieke en gemeenschappelijke componenten, biedt MoST een robuustere basis voor downstream taken. De methode is niet beperkt tot specifieke domeinen en kan worden toegepast op elke TTS met drie of meer modi. Dit verbetert niet alleen de voorspellende nauwkeurigheid, maar biedt ook een beter inzicht in de onderliggende dynamiek van complexe multivariate systemen.

Disentangled Mode-Specific Representations for Tensor Time Series via Contrastive Learning

1. De "Scheerpartij" (Tensor Slicing)

2. Twee soorten "geheugen" (Disentangled Representations)

3. De "Spiegel-Test" (Contrastive Learning)

Waarom is dit belangrijk?

Probleemstelling

Methodologie: MoST

1. Modelarchitectuur

2. Contrastief Leringsframework

Belangrijkste Bijdragen

Resultaten

Significantie

Meer zoals dit

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank