Timer-S1: A Billion-Scale Time Series Foundation Model with Serial Scaling

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du versuchst, das Wetter für die nächsten zwei Wochen vorherzusagen. Ein einfacher Blick auf den heutigen Himmel reicht nicht. Du musst wissen, wie sich Wolken bilden, wie der Wind weht und wie sich das System über Tage hinweg entwickelt. Genau das ist Timer-S1: Ein riesiger, intelligenter "Wettervorhersage-Computer" (allerdings für alle Arten von Daten, nicht nur Wetter), der die Zukunft vorhersagt.

Hier ist die Geschichte von Timer-S1, einfach erklärt:

1. Das Problem: Warum ist Vorhersagen so schwer?

Bisher waren Computer bei Zeitreihen (Daten, die sich über die Zeit ändern, wie Aktienkurse oder Stromverbrauch) oft wie ein Schüler, der nur die nächste Antwort auswendig lernt.

Das alte Problem: Um die Zukunft für 100 Schritte vorherzusagen, musste der Computer 100-mal hintereinander rechnen. Er sagte Schritt 1 voraus, benutzte dieses Ergebnis für Schritt 2, dann Schritt 3 usw.
Der Fehler-Effekt: Stell dir vor, du spielst "Stille Post". Wenn der erste Schüler einen kleinen Fehler macht, wird dieser Fehler bei jedem weiteren Schüler größer, bis am Ende niemand mehr weiß, was eigentlich gesagt wurde. Bei langen Vorhersagen häufen sich diese kleinen Fehler so stark an, dass das Ergebnis nutzlos wird.

2. Die Lösung: "Serial Scaling" (Die serielle Skalierung)

Die Forscher von Timer-S1 haben eine geniale Idee gehabt: Die Vorhersage ist eine Kette, kein Sprung.

Stell dir Timer-S1 wie einen hochmodernen Zug vor, der auf einer Schiene fährt.

Die Schiene (Serial-Token Prediction): Anstatt den Zug anzuhalten, um den nächsten Bahnhof zu berechnen und dann weiterzufahren (was Zeit kostet und Fehler macht), baut Timer-S1 eine spezielle Schiene, auf der der Zug gleichzeitig die nächsten Bahnhöfe plant, aber in einer strengen Reihenfolge.
Der Trick: Der Computer berechnet nicht nur den nächsten Punkt, sondern nutzt eine spezielle Technik, bei der er den Anfangszustand (die Vergangenheit) immer wieder mit einbezieht, während er die Zukunft Schritt für Schritt "durchdenkt". Das verhindert, dass kleine Fehler sich aufschaukeln.

3. Der Motor: Ein riesiges Team von Spezialisten (MoE)

Timer-S1 ist ein Mixture-of-Experts (MoE)-Modell. Stell dir das wie ein riesiges Büro mit 8,3 Milliarden Mitarbeitern vor.

Aber: Bei jeder einzelnen Aufgabe (z. B. "Wie wird der Stromverbrauch morgen aussehen?") werden nur 750 Millionen Mitarbeiter aktiviert.
Warum? Weil nicht jeder Spezialist für jede Aufgabe zuständig ist. Ein Experte für Finanzdaten ist besser als einer für Wetterdaten. Timer-S1 schaltet also nur die richtigen "Experten" ein, die für das spezifische Muster zuständig sind. Das macht ihn extrem schnell und effizient, obwohl er riesig ist.

4. Das Training: Lernen aus einer Billion Datenpunkte

Ein Genie braucht gute Lehrer und viele Beispiele.

TimeBench: Die Forscher haben eine Bibliothek namens "TimeBench" erstellt. Sie enthält eine Billion Datenpunkte aus der ganzen Welt – von Aktienmärkten über Herzschläge bis hin zu IoT-Sensoren.
Der Trick beim Lernen: Um sicherzustellen, dass der Computer nicht nur Muster auswendig lernt, sondern wirklich versteht, wie Daten funktionieren, haben sie die Daten "verdreht" und verändert (z. B. haben sie die Werte umgedreht oder das Tempo geändert). So lernt Timer-S1, dass ein Trend nicht immer gleich aussieht, sondern sich anpassen muss.

5. Der große Sieg: Besser als alle anderen

Als Timer-S1 auf dem großen "Wettbewerb" (dem GIFT-Eval-Leaderboard) getestet wurde, hat er alle anderen Modelle geschlagen.

Er ist besonders gut darin, lange Vorhersagen zu machen (z. B. "Wie sieht es in einem Monat aus?"), wo andere Modelle oft versagen.
Er ist wie ein Allrounder: Er braucht keine spezielle Schulung für jede neue Aufgabe. Er kommt einfach, schaut sich die Daten an und sagt: "Ich weiß, wie das weitergeht."

Zusammenfassung in einem Bild

Stell dir Timer-S1 als einen unermüdlichen Detektiv vor:

Er hat ein riesiges Gedächtnis (eine Billion Datenpunkte).
Er hat ein Team von Spezialisten, die nur dann arbeiten, wenn sie gebraucht werden (MoE).
Er löst Fälle nicht, indem er ratet, sondern indem er die Beweise (die Vergangenheit) Schritt für Schritt logisch verknüpft, ohne dabei den Faden zu verlieren (Serial-Token Prediction).
Das Ergebnis? Er kann die Zukunft viel genauer und schneller vorhersagen als jeder andere Detektiv zuvor.

Timer-S1 ist also nicht nur ein neuer Computer-Algorithmus, sondern ein großer Schritt hin zu einer künstlichen Intelligenz, die die Welt der Daten wirklich versteht und uns hilft, die Zukunft besser zu planen.

Each language version is independently generated for its own context, not a direct translation.

Problemstellung

Zeitreihenvorhersage ist eine fundamentale Aufgabe in zahlreichen Anwendungsbereichen (von Finanzen bis zur Klimaforschung), stellt jedoch aufgrund der inhärenten Komplexität von Zeitreihendaten eine große Herausforderung dar. Im Gegensatz zu Sprache oder Bildern weisen Zeitreihen eine hohe Verteilungsheterogenität, nicht-stationäre Dynamiken und komplexe Multi-Skalen-Abhängigkeiten auf.

Bestehende vortrainierte Zeitreihen-Foundation-Modelle stoßen an Skalierungsgrenzen:

Autoregressive Modelle: Diese generieren Vorhersagen schrittweise (Rolling-Window). Bei langen Horizonten führt dies zu einer kumulativen Fehlerakkumulation und einem hohen Rechenaufwand.
Parallele Modelle: Diese versuchen, mehrere Schritte gleichzeitig vorherzusagen, vernachlässigen aber oft die serielle Natur der Vorhersage, was zu unzureichenden Ergebnissen bei langfristigen Vorhersagen führt.
Skalierungsengpass: Bisherige Versuche, Mixture-of-Experts (MoE) Architekturen auf Zeitreihen anzuwenden, haben oft nicht zu signifikanten Durchbrüchen in der Modellgröße oder Leistung geführt, da sie die spezifische „serielle" Natur des Vorhersageproblems nicht ausreichend berücksichtigen.

Methodik: Serial Scaling

Die Autoren stellen Timer-S1 vor, ein 8,3 Milliarden Parameter großes Sparse-MoE-Modell (mit nur 0,75 Mrd. aktivierten Parametern pro Token), das durch einen neuen Ansatz namens Serial Scaling in drei Dimensionen skaliert wird: Architektur, Datensatz und Trainingspipeline.

1. Architektur: Serial-Token Prediction (STP)

Das Kernstück von Timer-S1 ist die Serial-Token Prediction (STP), die die serielle Natur der Zeitreihenvorhersage explizit in die Inferenz integriert, ohne die ineffizienten Rolling-Schritte autoregressiver Modelle zu benötigen.

TimeMoE-Blöcke: Das Rückgrat besteht aus einem Decoder-only Transformer mit TimeMoE-Blöcken (Mixture-of-Experts), die Heterogenität in den Daten durch adaptive Experten-Zuweisung bewältigen.
TimeSTP-Blöcke: Anstelle eines einzelnen Vorhersage-Heads werden $H$ sequenzielle TimeSTP-Blöcke angehängt. Jeder Block $j$ nutzt die Embeddings des vorherigen Blocks und konditioniert zusätzlich auf die ursprünglichen Eingabe-Embeddings.
Funktionsweise: Der $j$ -te Block generiert die Vorhersage für den nächsten Patch (Offset $j+1$ ). Dies ermöglicht eine progressive, serielle Berechnung innerhalb eines einzigen Forward-Passes. Das Modell kann somit lange Horizonte vorhersagen, wobei längere Horizonte mehr serielle Berechnungstiefe durchlaufen, was die Genauigkeit erhöht, ohne Fehlerakkumulation durch wiederholtes Inferieren zu verursachen.

2. Daten: TimeBench und Augmentation

TimeBench: Ein neu kuratiertes Korpus mit über 1 Billion Zeitpunkten aus realen Domänen (Finanzen, IoT, Wetter, Gesundheit) und synthetischen Daten.
Augmentation: Um Vorhersageverzerrungen (Bias) zu mitigieren, werden Techniken wie Resampling (Änderung der Abtastrate) und Value-Flipping (Invertierung der Trends durch Multiplikation mit -1) angewendet. Dies zwingt das Modell, robuste zeitliche Abhängigkeiten zu lernen, anstatt sich auf spezifische Richtungen oder Frequenzen zu versteifen.

3. Trainingspipeline

Das Training erfolgt in mehreren Stufen, um unterschiedliche Fähigkeiten zu optimieren:

Pre-Training: Auf TimeBench mit einem dichten STP-Objektiv (alle Horizonte gleich gewichtet), um allgemeine Muster zu lernen.
Continued Pre-Training (CPT): Fokussiert auf kurzfristige Vorhersagen mittels eines gewichteten STP-Objektivs (wSTP). Hier werden flachere Blöcke (kurze Horizonte) stärker gewichtet ( $1/\sqrt{j}$ ), da die Genauigkeit der langfristigen Vorhersage fundamental von der kurzfristigen Genauigkeit abhängt.
Long-Context Extension: Erweiterung des Kontextfensters von 2.880 auf 11.520 Zeitpunkten mittels RoPE (Rotary Position Embedding).

Wichtige Beiträge

Serial-Token Prediction (STP): Ein neues Trainings- und Inferenzparadigma, das serielle Berechnungen in den Transformer-Block integriert, um langfristige Vorhersagen ohne Rolling-Inferenz und mit reduzierter Fehlerakkumulation zu ermöglichen.
Billion-Scale MoE für Zeitreihen: Timer-S1 ist eines der größten Zeitreihenmodelle (8,3 Mrd. Parameter) und demonstriert, dass MoE-Architekturen bei Beachtung der seriellen Natur der Daten effektiv skalieren können.
TimeBench: Die Bereitstellung eines hochwertigen, augmentierten Datensatzes mit einer Billion Datenpunkten, der als neue Benchmark für das Training von Foundation-Modellen dient.
Multi-Stage Training: Ein Trainingsansatz, der Pre-Training, CPT und Kontext-Erweiterung entkoppelt, um spezifische Stärken (kurz- vs. langfristig) zu maximieren.

Ergebnisse

Timer-S1 wurde auf dem GIFT-Eval Leaderboard (ein umfassender Benchmark mit 24 Datensätzen) evaluiert und erreichte State-of-the-Art (SOTA) Ergebnisse:

MASE (Mean Absolute Scaled Error): 0,693 (bester Wert).
CRPS (Continuous Ranked Probability Score): 0,485 (bester Wert).
Vergleich: Timer-S1 übertrifft bestehende Modelle wie Chronos-2, TimesFM-2.5 und den Vorgänger Timer-3 (Sundial) signifikant (z. B. 7,6 % besserer MASE als Timer-3).
Skalierungseffekt: Die Analyse zeigt, dass STP besonders bei mittleren und langen Vorhersagehorizonten Vorteile bringt, wo parallele Modelle oder reine Next-Token-Prediction an Grenzen stoßen.
Inferenzzeit: Timer-S1 ist effizienter als autoregressive Modelle, da es mehrere Schritte in einem Durchlauf berechnet, und vermeidet die Ineffizienz von Multi-Token-Prediction-Ansätzen, die oft redundante Berechnungen benötigen.

Bedeutung

Timer-S1 markiert einen Paradigmenwechsel in der Entwicklung von Zeitreihen-Foundation-Modellen. Indem es die serielle Natur der Vorhersage nicht ignoriert, sondern als zentrales Designprinzip (Serial Scaling) nutzt, löst es das Problem der Fehlerakkumulation bei langen Horizonten und der hohen Rechenkosten.
Das Paper zeigt, dass Zeitreihenmodelle nicht einfach von Sprachmodellen (LLMs) übernommen werden können, sondern spezifische Architekturen (wie STP) und Trainingsstrategien benötigen, um die inhärenten Unsicherheiten und Dynamiken von Zeitreihen zu bewältigen. Timer-S1 legt damit den Grundstein für leistungsfähigere, allgemein einsetzbare Vorhersagesysteme in autonomen Agenten-Systemen.