Adapting Time Series Foundation Models through Data Mixtures

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een super-voorspeller hebt. Dit is een slimme computer (een "Time Series Foundation Model") die is getraind op miljarden verschillende soorten data: de temperatuur in Amsterdam, het verkeer in Tokio, de verkoop van ijsjes in Florida en de stroomverbruik in een fabriek. Deze computer kan heel goed voorspellen wat er gaat gebeuren, zelfs als hij nog nooit een specifieke situatie heeft gezien. Dit noemen ze "zero-shot forecasting".

Maar er is een probleem. Stel je voor dat je deze super-voorspeller wilt gebruiken om de stroomkosten van een heel specifiek, nieuw type datacenter te voorspellen. Omdat dit type datacenter niet in de oorspronkelijke training zat, maakt de computer soms rare fouten. Hij probeert het te vergelijken met iets dat hij kent, maar het klopt niet helemaal.

De vraag is: Hoe leer je deze super-voorspeller snel en slim om dit nieuwe werk te doen, zonder hem helemaal opnieuw te hoeven trainen?

Het oude idee: De "Alles-in-één" of "Per-Dataset" aanpak

In het verleden waren er twee manieren om dit op te lossen:

De Alles-in-één aanpak (Shared): Je leert de computer één nieuwe trucje aan, gebaseerd op alle beschikbare data die je hebt.
- Het probleem: Het is alsof je een kok vraagt om één recept te maken dat zowel sushi, pizza als een Nederlandse stamppot perfect combineert. Het resultaat is vaak een rommelig gerecht dat bij geen van de drie perfect past. De computer raakt in de war door te veel verschillende patronen.
De Per-Dataset aanpak: Je maakt voor elke dataset (bijvoorbeeld één voor de stroom, één voor het verkeer) een apart, klein "bijwerkje" (een LoRA-module). Als je een voorspelling moet doen, probeer je te raden welk bijwerkje je moet gebruiken.
- Het probleem: Dit werkt beter, maar het is nog steeds niet perfect. Stel je voor dat je dataset "Stroomverbruik" niet alleen uit één soort patroon bestaat. Soms is het rustig, soms piekt het enorm, en soms is het heel onregelmatig. Als je één bijwerkje maakt voor de hele dataset, moet dat bijwerkje alles kunnen. Het is als een mes dat zowel boter moet smeren als botten moet hakken; het doet beide, maar niet perfect.

De nieuwe oplossing: MixFT (De "Scheiding van Soorten")

De auteurs van dit paper, Thomas Lee en zijn team, zeggen: "Wacht even. Waarom kijken we naar de bestandsnamen van de data, in plaats van naar wat de data echt doet?"

Ze introduceren een nieuwe methode genaamd MixFT. Hier is hoe het werkt, vertaald naar een alledaags verhaal:

1. De "Smaaktest" (Bayesian Mixtures)

Stel je hebt een grote emmer met een mengelmoes van vruchtensappen. Er zit appelsap, sinaasappelsap, maar ook een beetje perensap en soms een stukje appel in het sinaasappelsap.

De oude methoden keken alleen naar het etiket op de fles ("Dit is een fles sinaasappelsap") en maakten daar één smaakje van.
MixFT doet iets slims: het proeft elke druppel en zegt: "Ah, deze druppel ruikt naar appels, deze naar sinaasappels, en deze is een mix."

Met een slim wiskundig trucje (een Bayesiaans mengselmodel) kijkt MixFT naar de data en verdeelt het de grote emmer in homogene groepjes.

Groepje A: Alleen de "rustige" stroomverbruiksdata.
Groepje B: Alleen de "piekende" stroomverbruiksdata.
Groepje C: De "onregelmatige" data.

2. De "Specialisten" (LoRA Modules)

Nu, in plaats van één kok te hebben die alles moet doen, of één kok per fles, krijgen we speciale koks per smaakgroep.

Kook A leert alleen hoe je "rustige" data voorspelt.
Kook B leert alleen hoe je "piekende" data voorspelt.

Omdat elke kok zich maar op één ding hoeft te focussen, worden ze er heel goed in. Ze worden specialisten.

3. De "Voorspelling" (Zero-Shot)

Als er nu een nieuwe situatie komt (bijvoorbeeld: "Hoe ziet het stroomverbruik er morgen uit?"), kijkt MixFT eerst even naar de situatie.

Ziet het eruit als een rustige dag? Dan roepen ze Kok A.
Ziet het eruit als een dag met pieken? Dan roepen ze Kok B.

Omdat de kok die ze roepen precies is getraind op dat soort situatie, is de voorspelling veel nauwkeuriger.

Waarom is dit zo belangrijk?

De paper laat zien dat deze methode (MixFT) veel beter werkt dan de oude methoden.

Geen verwarring: De computer raakt niet in de war door te veel verschillende patronen door elkaar te halen.
Slimmer kiezen: Omdat MixFT weet welke "smaak" (sub-domein) de data heeft, kiest hij automatisch de juiste specialist.
Beter resultaat: In hun tests voorspelde MixFT de toekomst veel nauwkeuriger dan de oude methoden, zelfs op data die ze nooit eerder hadden gezien.

Samenvattend in één zin:

In plaats van één algemene expert te trainen die alles een beetje kan, of één expert per dataset die te veel moet doen, deelt MixFT de data op in kleine, logische groepjes en traint voor elk groepje een perfecte specialist. Zo krijg je de meest accurate voorspellingen mogelijk.

Each language version is independently generated for its own context, not a direct translation.

Titel: Aanpassing van Time Series Foundation Models via Data-mengsels

Auteurs: Thomas L. Lee, Edoardo M. Ponti, Amos Storkey (Universiteit van Edinburgh)

1. Het Probleem

Time Series Foundation Models (TSFMs) hebben de staat van dienst verbeterd voor zero-shot forecasting (voorspelling zonder specifieke training op de doelreeks). Echter, wanneer een practitioner een nieuw domein moet voorspellen dat niet volledig wordt gedekt door de pre-training dataset, presteren deze modellen vaak slecht.

De gebruikelijke aanpak om dit op te lossen is het finetunen van het model op een set van gerelateerde datasets. Er zijn twee gangbare methoden hiervoor:

Gedeeld finetunen (Shared): Eén LoRA-module (Low-Rank Adaptation) wordt getraind op alle datasets samen.
Per-dataset finetunen: Er wordt een aparte LoRA-module getraind voor elke dataset, en bij voorspelling worden deze gemixt of geselecteerd.

De kernuitdaging: De auteurs stellen dat "per-dataset" methoden suboptimaal zijn omdat een enkele dataset vaak data bevat uit meerdere onderliggende distributies of sub-domeinen (bijvoorbeeld verschillende seizoenspatronen, niveaus van piekgedrag, of distributieveranderingen over de tijd). Door een module per dataset te trainen, wordt deze gedwongen om te generaliseren over deze heterogene sub-domeinen, wat leidt tot minder gespecialiseerde modellen en slechtere zero-shot prestaties.

2. Methodologie: MixFT

De auteurs stellen MixFT (Mix Fine-Tuning) voor, een methode die de data niet op basis van dataset-grenzen verdeelt, maar op basis van de onderliggende sub-domeinen.

Het proces verloopt in twee fasen:

Fase 1: Finetunen

Embedding: De beschikbare finetuning-datasets worden eerst verwerkt door de TSFM om embeddings te genereren.
Bayesiaanse Mixturing: In plaats van de data op basis van datasetlabels te houden, past MixFT een Bayesiaanse Gaussian Mixture Model (GMM) toe op de embedding-ruimte. Dit model identificeert $K$ latent sub-domeinen (mengselcomponenten).
Data-hervorming: De data wordt opnieuw ingedeeld (re-partitioned) op basis van de meest waarschijnlijke sub-domein-toewijzing van elk datapunt. Hierdoor kunnen datapunten uit dezelfde dataset in verschillende sub-domein-groepen terechtkomen.
Module-training: Er wordt een aparte LoRA-module getraind voor elk van deze $K$ sub-domeinen. Omdat de data per sub-domein homogener is, kan elke module zich specialiseren in specifieke kenmerken van dat sub-domein.

Fase 2: Zero-Shot Forecasting

Context-analyse: Bij het voorspellen van een nieuwe tijdsreeks (context $x$ ), wordt deze eerst ingebed door de TSFM.
Sub-domein-selectie: De Bayesiaanse GMM wordt gebruikt om te bepalen tot welk sub-domein deze context het meest waarschijnlijk behoort (via de posterior predictive distribution).
Voorspelling: De LoRA-module die is getraind op dat specifieke sub-domein wordt geselecteerd en gecombineerd met de TSFM om de voorspelling te genereren.

Belangrijk voordeel: Door een "harde toewijzing" (argmax) te gebruiken in plaats van een zachte mix, vermijdt MixFT het gebruik van LoRA-modules die ongeschikt zijn (out-of-distribution) voor de specifieke context, wat de voorspelling nauwkeuriger maakt.

3. Belangrijkste Bijdragen

Identificatie van een beperking: De auteurs tonen aan dat het trainen van gespecialiseerde LoRA-modules per dataset niet optimaal is voor zero-shot forecasting, omdat datasets vaak heterogeen zijn qua onderliggende distributies.
Introductie van MixFT: Een nieuwe methode die Bayesiaanse mixturing gebruikt om data te verdelen op basis van sub-domeinen in plaats van dataset-grenzen. Dit zorgt voor homogene trainingssets per module.
Empirisch bewijs: Uitgebreide experimenten tonen aan dat MixFT superieur presteert ten opzichte van bestaande methoden (Shared, Per-Dataset, Arrow, Poly, MBC) en zelfs beter presteert dan het niet finetunen (Base) in situaties waar andere finetuning-methoden falen.

4. Resultaten

De auteurs hebben MixFT getest op twee state-of-the-art TSFMs (Chronos Bolt en Moirai-1.1-R) en twee benchmarks (Cloud en Gift-Eval).

Prestatie: MixFT behaalde de beste gemiddelde rangschikking (Average Rank) en de meeste beste resultaten (MASE - Mean Absolute Scaled Error) op de evaluatiedatasets.
Vergelijking met Per-Dataset: Terwijl methoden die per dataset trainen vaak slechter presteerden dan het basismodel (zonder finetunen), overtrof MixFT consistent het basismodel.
Analyse van Sub-domeinen: De Bayesiaanse GMM slaagde erin om zinvolle patronen te vinden, zoals seizoensgebonden fluctuaties of specifieke piekpatronen, zelfs binnen één enkele dataset. Dit bevestigt dat de data-hervorming effectief is.
Robuustheid: De analyse toonde aan dat MixFT zeer zeker is in het classificeren van de sub-domein van een context (lage entropie), wat de keuze voor een harde toewijzing van LoRA-modules rechtvaardigt.

5. Betekenis en Impact

Dit werk biedt een fundamenteel nieuw perspectief op het finetunen van foundation modellen voor tijdreeksen. Het toont aan dat de kwaliteit van de trainingsdata-indeling cruciaal is voor zero-shot generalisatie.

Paradigmaverschuiving: In plaats van datasets als vaste eenheden te zien, moet men kijken naar de onderliggende distributies (sub-domeinen) binnen die data.
Efficiëntie: Hoewel MixFT iets meer rekenkracht vereist tijdens het trainen (voor het GMM) en voorspellen (voor classificatie), is de overhead verwaarloosbaar in vergelijking met de winst in voorspellingsnauwkeurigheid.
Toekomstige richting: Het paper suggereert dat toekomstige TSFM-finetuning-methoden zich moeten richten op het compartmentaliseren van data op basis van distributiekenmerken in plaats van op vooraf gedefinieerde datasetgrenzen.

Kortom, MixFT lost het probleem van heterogene datasets op door de data dynamisch te herschikken naar homogene sub-domeinen, wat leidt tot gespecialiseerdere en nauwkeurigere voorspellingen voor tijdsreeksen in nieuwe domeinen.