Adapting Time Series Foundation Models through Data Mixtures

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der „Allrounder", der nicht überall fit ist

Stell dir vor, du hast einen Super-Koch (das ist das sogenannte Time Series Foundation Model oder TSFM). Dieser Koch hat in der Küche eines riesigen Restaurants gelernt, tausende verschiedene Gerichte zuzubereiten. Er ist so gut, dass er auch Gerichte kochen kann, die er noch nie gesehen hat, indem er einfach sein Wissen über Zutaten und Techniken anwendet (das nennt man Zero-Shot Forecasting oder „Vorhersage ohne vorheriges Training").

Aber es gibt ein Problem: Wenn du ihn bittest, ein sehr spezifisches Gericht zu kochen, das in einem ganz anderen Land üblich ist (ein neues Daten-Domain), stolpert er manchmal. Er kennt die lokalen Gewürze nicht genau genug.

Ein Praktiker (ein Data Scientist) sagt: „Ich habe viele Daten aus ähnlichen Bereichen. Können wir den Koch nicht ein wenig schulen, damit er dieses spezielle Gericht besser kocht?"

Die alten Lösungen: Der „Ein-Modell-für-alles"-Ansatz

Bisher gab es zwei einfache Wege, den Koch zu schulen:

Der „Alles-in-einem"-Ansatz (Shared Fine-Tuning): Man nimmt alle verfügbaren Daten (z. B. Wetterdaten, Aktienkurse und Stromverbrauch) und schult den Koch auf allen davon gleichzeitig mit einem einzigen Rezeptbuch.
- Das Problem: Der Koch wird verwirrt. Ein Rezept für einen Kuchen passt nicht gut zu einem Rezept für Suppe. Die verschiedenen Datenmengen „kämpfen" miteinander, und der Koch lernt nichts richtig gut.
Der „Pro-Datenbank"-Ansatz (Per-Dataset Methods): Man schult den Koch für jede Datenquelle separat. Für Wetterdaten gibt es Koch A, für Aktien Koch B, für Strom Koch C. Wenn ein neues Gericht bestellt wird, versucht man, die Köche zu mischen oder einen auszuwählen.
- Das Problem: Auch das ist nicht perfekt. Stell dir vor, die „Wetterdaten"-Datenbank enthält sowohl Sommertage (heiß) als auch Wintertage (kalt). Wenn Koch A nur auf der ganzen Datenbank trainiert wird, lernt er weder richtig Sommer noch richtig Winter, sondern einen lauen Durchschnitt. Er ist nicht spezialisiert genug.

Die neue Lösung: MixFT – Der „Sub-Domain"-Ansatz

Die Autoren des Papiers, Thomas Lee und seine Kollegen, sagen: „Warum schulen wir nach Datenbanken? Wir sollten nach den Arten von Daten schulen!"

Sie nennen ihre Methode MixFT. Hier ist die Idee mit einer Analogie:

Stell dir vor, du hast einen großen Haufen Obst (die Daten).

Der alte Weg: Du sortierst das Obst nach dem Korb, in dem es gekauft wurde (Datenbank 1, Datenbank 2).
Der MixFT-Weg: Du sortierst das Obst nach seiner Art (Äpfel, Birnen, Orangen), egal aus welchem Korb sie kommen.

Wie funktioniert MixFT?

Die Detektivarbeit (Bayesian Mixtures):
MixFT nutzt einen cleveren mathematischen Trick (einen Bayesian Mixture Model), um in den Daten nach Mustern zu suchen. Es fragt: „Was haben diese Datenpunkte gemeinsam?"
- Vielleicht haben einige Zeitreihen ein Muster, das wie ein „starker Anstieg" aussieht (wie ein Aktienkrach).
- Andere haben ein Muster, das wie eine „sanfte Welle" aussieht (wie der Stromverbrauch am Wochenende).
  Diese Muster nennt man Sub-Domains (Unterbereiche).
Das Umpacken (Re-dividing):
MixFT nimmt die Daten und wirft sie neu zusammen. Es ignoriert die ursprünglichen Ordner-Namen. Stattdessen erstellt es neue Gruppen:
- Gruppe 1: Alle Daten mit „steilen Anstiegen".
- Gruppe 2: Alle Daten mit „flachen Wellen".
  Wichtig: Eine Gruppe kann Daten aus verschiedenen ursprünglichen Datenbanken enthalten!
Die Spezialisten (LoRA Modules):
Jetzt schult man für jede dieser neuen Gruppen einen Spezialisten (ein kleines Zusatzmodul namens LoRA).
- Der Spezialist für „steile Anstiege" lernt nur das. Er wird extrem gut darin, plötzliche Veränderungen vorherzusagen.
- Der Spezialist für „flache Wellen" lernt nur das. Er wird extrem gut darin, ruhige Phasen vorherzusagen.
Der Einsatz (Zero-Shot Forecasting):
Wenn nun eine neue Vorhersage ansteht (ein neues Gericht), schaut MixFT kurz auf die Daten: „Aha, diese Daten sehen aus wie ein steiler Anstieg!"
Dann ruft MixFT nur den Spezialisten für steile Anstiege auf. Der Koch ist jetzt perfekt auf die Situation vorbereitet.

Warum ist das besser?

Weniger Verwirrung: Die Spezialisten müssen nicht zwischen „Kuchen" und „Suppe" wechseln. Sie machen nur das eine Ding, wofür sie trainiert wurden.
Bessere Vorhersagen: Weil die Trainingsdaten für jeden Spezialisten homogener (ähnlicher) sind, lernen sie schneller und genauer.
Intelligente Auswahl: MixFT weiß genau, welcher Spezialist für die aktuelle Situation der richtige ist, und vermeidet es, einen falschen Experten zu holen.

Zusammenfassung in einem Satz

Statt einen Koch auf allen möglichen Datenbanken gleichzeitig zu schulen oder für jede Datenbank einen eigenen Koch zu haben, zerlegt MixFT die Daten in ihre natürlichen Muster (Sub-Domains) und schult für jedes Muster einen perfekten Spezialisten, der dann genau dann gerufen wird, wenn er gebraucht wird.

Das Ergebnis: Die Vorhersagen werden genauer, weil der „Koch" genau das tut, wofür er am besten ausgebildet wurde, anstatt zu versuchen, alles gleichzeitig zu können.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Time-Series-Foundation-Modelle (TSFMs) haben sich zunehmend als leistungsfähige Werkzeuge für Zero-Shot-Prognosen etabliert, da sie auf großen, vortrainierten Datensätzen generalisieren können. Ein zentrales Problem tritt jedoch auf, wenn ein TSFM auf einen neuen Zeitreihenbereich (Domain) angewendet werden soll, der nicht vollständig durch den Vortrainingsdatensatz abgedeckt ist. In solchen Fällen leiden die Zero-Shot-Leistungen oft erheblich.

Praktiker verfügen häufig über eine Sammlung verwandter Datensätze, um das Modell anzupassen. Die gängigen Ansätze zur Feinabstimmung (Fine-Tuning) sind:

Shared Fine-Tuning: Ein einzelnes LoRA-Modul (Low-Rank Adaptation) wird auf allen verfügbaren Feinabstimmungsdaten trainiert.
Per-Dataset-Methoden: Es wird ein separates LoRA-Modul für jeden einzelnen Datensatz trainiert.

Die Autoren identifizieren eine fundamentale Schwäche dieser Ansätze: Ein einzelner Zeitreihendatensatz kann Daten aus mehreren unterschiedlichen Verteilungen enthalten (sogenannte Sub-Domains), z. B. durch Verteilungsverschiebungen oder unterschiedliche Muster in verschiedenen Dimensionen der multivariaten Zeitreihe. Das bloße Trennen nach Datensatzgrenzen ignoriert diese inneren Heterogenitäten. Ein einzelnes LoRA-Modul pro Datensatz muss daher versuchen, zu viele unterschiedliche Verteilungen gleichzeitig zu modellieren, was zu suboptimaler Spezialisierung und schlechterer Zero-Shot-Performance führt.

2. Methodik: MixFT

Um dieses Problem zu lösen, schlagen die Autoren MixFT (Mixtures Fine-Tuning) vor. Die Kernidee besteht darin, die Feinabstimmungsdaten nicht nach ihren ursprünglichen Datensatz-Labels, sondern basierend auf ihren latenten Sub-Domains neu zu partitionieren.

Der Prozess von MixFT gliedert sich in zwei Hauptphasen:

A. Feinabstimmung (Fine-Tuning):

Embedding: Die Zeitreihendaten werden zunächst durch das vortrainierte TSFM in einen Embedding-Raum transformiert.
Bayesian Mixture Modeling: Anstelle von festen Datensatzgrenzen wird ein Bayesianisches Gaußsches Mischmodell (GMM) auf den Embeddings der Feinabstimmungsdaten angepasst. Dies dient dazu, die latenten Sub-Domains (z. B. verschiedene saisonale Muster oder Spikiness-Level) automatisch zu identifizieren.
Neupartitionierung: Basierend auf dem gelernten Mischmodell werden die Datenpunkte den $K$ Mischkomponenten (Sub-Domains) zugeordnet. Dies führt zu neuen Datensätzen $S_k$ , die jeweils homogenere Datenverteilungen enthalten als die ursprünglichen Rohdatensätze.
Spezialisierte LoRA-Training: Für jede dieser neu definierten Sub-Domain-Datensätze wird ein separates LoRA-Modul trainiert. Jedes Modul spezialisiert sich somit auf eine spezifische Art von Zeitreihenverhalten.

B. Zero-Shot-Prognose:

Sub-Domain-Erkennung: Bei einer neuen Prognoseaufgabe wird der Kontext (die Eingabezeitreihe) ebenfalls durch das TSFM eingebettet.
Zuordnung: Das Bayesianische Mischmodell wird verwendet, um die wahrscheinlichste Sub-Domain (Mischkomponente) für diesen Kontext zu bestimmen.
Vorhersage: Das spezifische LoRA-Modul, das für diese identifizierte Sub-Domain trainiert wurde, wird aktiviert, um die Prognose zu generieren.

Ein entscheidender Vorteil von MixFT ist die Konsistenz zwischen Trainings- und Inferenzphase: Da die Auswahl des LoRA-Moduls direkt auf demselben probabilistischen Modell basiert, das die Datenpartitionierung steuerte, wird sichergestellt, dass das gewählte Modul auf Daten trainiert wurde, die derselben Verteilung wie der Prognosekontext entsprechen.

3. Hauptbeiträge

Identifikation des Optimierungsproblems: Die Autoren zeigen auf, dass die Trennung von Daten nach Datensatzgrenzen für das Feinabstimmung von spezialisierten LoRA-Modulen oft suboptimal ist, da Datensätze selbst heterogene Sub-Domains enthalten können.
Entwicklung von MixFT: Einführung einer Methode, die Bayesianische Mischmodelle nutzt, um Daten basierend auf ihren latenten Sub-Domains neu zu gruppieren. Dies ermöglicht eine präzisere Spezialisierung der LoRA-Module und eine probabilistische Identifikation des Kontexts während der Zero-Shot-Prognose.
Empirische Validierung: Eine umfassende Studie zeigt, dass MixFT sowohl Per-Dataset-Methoden als auch das gemeinsame Training auf allen Daten (Shared) übertrifft. Interessanterweise schneiden einige Per-Dataset-Methoden sogar schlechter ab als gar kein Fine-Tuning (Base), was die Schwierigkeit der TSFM-Anpassung unterstreicht.

4. Ergebnisse

Die Experimente wurden auf den Benchmarks Cloud und Gift-Eval durchgeführt, die als herausfordernd für Zero-Shot-Prognosen bekannt sind. Als Basismodelle dienten Chronos Bolt und Moirai-1.1-R.

Leistung: MixFT erzielte in den meisten Fällen die beste Leistung (gemessen am MASE – Mean Absolute Scaled Error) und den besten Durchschnittsrang über alle Datensätze hinweg.
Vergleich: Im Vergleich zu Shared Fine-Tuning und Per-Dataset-Methoden (wie $\mu$ -Datasets, Arrow, Poly, MBC) zeigte MixFT eine überlegene Generalisierungsfähigkeit.
Robustheit: Die Analyse zeigte, dass MixFT sehr sicher in der Zuordnung von Kontexten zu Sub-Domains ist (niedrige Entropie bei der Klassifizierung).
Ablationsstudien:
- Die Verwendung eines Bayesianischen GMM war überlegen gegenüber einfacheren Methoden wie K-Means oder Topic-Modellen.
- Die harte Zuordnung (Auswahl des LoRA-Moduls mit der höchsten Wahrscheinlichkeit) funktionierte besser als weiche Kombinationen (Ensemble-Methoden), da Prognosen aus falschen Sub-Domains oft stark von der Verteilung abweichen (OOD) und die Gesamtperformance verschlechtern.
- Die Wahl von $K=2$ (zwei Sub-Domains) erwies sich als optimal für die getesteten Szenarien.

5. Bedeutung und Ausblick

Die Arbeit von MixFT stellt einen Paradigmenwechsel in der Anpassung von Zeitreihen-Foundation-Modellen dar. Sie demonstriert, dass die Qualität des Fine-Tunings nicht nur von der Menge der Daten, sondern maßgeblich von deren struktureller Homogenität abhängt.

Theoretische Implikation: Die Studie zeigt, dass die Annahme, ein Datensatz repräsentiere eine einzige Verteilung, oft falsch ist. Durch das Aufbrechen dieser Grenzen und die Fokussierung auf Sub-Domains kann die Generalisierungslücke zwischen Trainings- und Testdaten verringert werden.
Praktische Relevanz: Für Praktiker bietet MixFT einen Weg, TSFMs effizient an spezifische, verwandte Domänen anzupassen, ohne die gesamte Architektur neu trainieren zu müssen. Die Methode ist TSFM-agnostisch und kann mit verschiedenen Architekturen (wie Transformer-basierten Modellen) kombiniert werden.
Zukunft: Die Arbeit legt nahe, dass zukünftige Fine-Tuning-Methoden weniger auf feste Datensatzpartitionen setzen und stattdessen dynamische, datengetriebene Partitionierungen nutzen sollten, um die Spezialisierung von Modulen zu maximieren.

Zusammenfassend beweist MixFT, dass eine intelligente, probabilistische Neugruppierung von Trainingsdaten zu deutlich präziseren Zero-Shot-Prognosen führt, indem sie die inhärente Struktur der Zeitreihendaten besser ausnutzt als traditionelle, datensatzbasierte Ansätze.

Adapting Time Series Foundation Models through Data Mixtures

Das Problem: Der „Allrounder", der nicht überall fit ist

Die alten Lösungen: Der „Ein-Modell-für-alles"-Ansatz

Die neue Lösung: MixFT – Der „Sub-Domain"-Ansatz

Wie funktioniert MixFT?

Warum ist das besser?

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: MixFT

3. Hauptbeiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

Varying risk exposure in auto insurance: a weighted tweedie framework for experience rating an cancellation penalties

Remote, bivariate expert elicitation to determine the prior probability distribution for sample size calculation in a Bayesian non-inferiority multicenter randomized controlled trial (Croup Dosing Trial)

Sequentially-Rerandomized Switchback Experiments

Reinforcement Learning from Human Feedback: A Statistical Perspective

Applied Statistics Requires Scientific Context