Adapting Time Series Foundation Models through Data Mixtures

Die Studie stellt MixFT vor, eine Methode, die Zeitreihen-Foundation-Modelle durch bayessche Mischung zur Identifizierung homogener Subdomänen neu partitioniert und separat feinabstimmt, um die Zero-Shot-Prognoseleistung in neuen Domänen im Vergleich zu herkömmlichen Ansätzen zu verbessern.

Thomas L. Lee, Edoardo M. Ponti, Amos Storkey

Veröffentlicht 2026-03-04
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der „Allrounder", der nicht überall fit ist

Stell dir vor, du hast einen Super-Koch (das ist das sogenannte Time Series Foundation Model oder TSFM). Dieser Koch hat in der Küche eines riesigen Restaurants gelernt, tausende verschiedene Gerichte zuzubereiten. Er ist so gut, dass er auch Gerichte kochen kann, die er noch nie gesehen hat, indem er einfach sein Wissen über Zutaten und Techniken anwendet (das nennt man Zero-Shot Forecasting oder „Vorhersage ohne vorheriges Training").

Aber es gibt ein Problem: Wenn du ihn bittest, ein sehr spezifisches Gericht zu kochen, das in einem ganz anderen Land üblich ist (ein neues Daten-Domain), stolpert er manchmal. Er kennt die lokalen Gewürze nicht genau genug.

Ein Praktiker (ein Data Scientist) sagt: „Ich habe viele Daten aus ähnlichen Bereichen. Können wir den Koch nicht ein wenig schulen, damit er dieses spezielle Gericht besser kocht?"

Die alten Lösungen: Der „Ein-Modell-für-alles"-Ansatz

Bisher gab es zwei einfache Wege, den Koch zu schulen:

  1. Der „Alles-in-einem"-Ansatz (Shared Fine-Tuning): Man nimmt alle verfügbaren Daten (z. B. Wetterdaten, Aktienkurse und Stromverbrauch) und schult den Koch auf allen davon gleichzeitig mit einem einzigen Rezeptbuch.
    • Das Problem: Der Koch wird verwirrt. Ein Rezept für einen Kuchen passt nicht gut zu einem Rezept für Suppe. Die verschiedenen Datenmengen „kämpfen" miteinander, und der Koch lernt nichts richtig gut.
  2. Der „Pro-Datenbank"-Ansatz (Per-Dataset Methods): Man schult den Koch für jede Datenquelle separat. Für Wetterdaten gibt es Koch A, für Aktien Koch B, für Strom Koch C. Wenn ein neues Gericht bestellt wird, versucht man, die Köche zu mischen oder einen auszuwählen.
    • Das Problem: Auch das ist nicht perfekt. Stell dir vor, die „Wetterdaten"-Datenbank enthält sowohl Sommertage (heiß) als auch Wintertage (kalt). Wenn Koch A nur auf der ganzen Datenbank trainiert wird, lernt er weder richtig Sommer noch richtig Winter, sondern einen lauen Durchschnitt. Er ist nicht spezialisiert genug.

Die neue Lösung: MixFT – Der „Sub-Domain"-Ansatz

Die Autoren des Papiers, Thomas Lee und seine Kollegen, sagen: „Warum schulen wir nach Datenbanken? Wir sollten nach den Arten von Daten schulen!"

Sie nennen ihre Methode MixFT. Hier ist die Idee mit einer Analogie:

Stell dir vor, du hast einen großen Haufen Obst (die Daten).

  • Der alte Weg: Du sortierst das Obst nach dem Korb, in dem es gekauft wurde (Datenbank 1, Datenbank 2).
  • Der MixFT-Weg: Du sortierst das Obst nach seiner Art (Äpfel, Birnen, Orangen), egal aus welchem Korb sie kommen.

Wie funktioniert MixFT?

  1. Die Detektivarbeit (Bayesian Mixtures):
    MixFT nutzt einen cleveren mathematischen Trick (einen Bayesian Mixture Model), um in den Daten nach Mustern zu suchen. Es fragt: „Was haben diese Datenpunkte gemeinsam?"

    • Vielleicht haben einige Zeitreihen ein Muster, das wie ein „starker Anstieg" aussieht (wie ein Aktienkrach).
    • Andere haben ein Muster, das wie eine „sanfte Welle" aussieht (wie der Stromverbrauch am Wochenende).
      Diese Muster nennt man Sub-Domains (Unterbereiche).
  2. Das Umpacken (Re-dividing):
    MixFT nimmt die Daten und wirft sie neu zusammen. Es ignoriert die ursprünglichen Ordner-Namen. Stattdessen erstellt es neue Gruppen:

    • Gruppe 1: Alle Daten mit „steilen Anstiegen".
    • Gruppe 2: Alle Daten mit „flachen Wellen".
      Wichtig: Eine Gruppe kann Daten aus verschiedenen ursprünglichen Datenbanken enthalten!
  3. Die Spezialisten (LoRA Modules):
    Jetzt schult man für jede dieser neuen Gruppen einen Spezialisten (ein kleines Zusatzmodul namens LoRA).

    • Der Spezialist für „steile Anstiege" lernt nur das. Er wird extrem gut darin, plötzliche Veränderungen vorherzusagen.
    • Der Spezialist für „flache Wellen" lernt nur das. Er wird extrem gut darin, ruhige Phasen vorherzusagen.
  4. Der Einsatz (Zero-Shot Forecasting):
    Wenn nun eine neue Vorhersage ansteht (ein neues Gericht), schaut MixFT kurz auf die Daten: „Aha, diese Daten sehen aus wie ein steiler Anstieg!"
    Dann ruft MixFT nur den Spezialisten für steile Anstiege auf. Der Koch ist jetzt perfekt auf die Situation vorbereitet.

Warum ist das besser?

  • Weniger Verwirrung: Die Spezialisten müssen nicht zwischen „Kuchen" und „Suppe" wechseln. Sie machen nur das eine Ding, wofür sie trainiert wurden.
  • Bessere Vorhersagen: Weil die Trainingsdaten für jeden Spezialisten homogener (ähnlicher) sind, lernen sie schneller und genauer.
  • Intelligente Auswahl: MixFT weiß genau, welcher Spezialist für die aktuelle Situation der richtige ist, und vermeidet es, einen falschen Experten zu holen.

Zusammenfassung in einem Satz

Statt einen Koch auf allen möglichen Datenbanken gleichzeitig zu schulen oder für jede Datenbank einen eigenen Koch zu haben, zerlegt MixFT die Daten in ihre natürlichen Muster (Sub-Domains) und schult für jedes Muster einen perfekten Spezialisten, der dann genau dann gerufen wird, wenn er gebraucht wird.

Das Ergebnis: Die Vorhersagen werden genauer, weil der „Koch" genau das tut, wofür er am besten ausgebildet wurde, anstatt zu versuchen, alles gleichzeitig zu können.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →