Impermanent: A Live Benchmark for Temporal Generalization in Time Series Forecasting

Each language version is independently generated for its own context, not a direct translation.

Titel: Impermanent – Der lebendige Prüfstand für Zeitreihen-Vorhersagen

Stell dir vor, du möchtest vorhersagen, wie viel Regen morgen fällt. Die meisten Wissenschaftler testen ihre Vorhersage-Modelle heute so: Sie nehmen historische Daten, teilen sie in zwei Hälften (eine zum Lernen, eine zum Testen) und sagen dann: „Schau mal, mein Modell hat die Testdaten zu 90 % richtig vorhergesagt!"

Das Problem dabei ist wie bei einem Schüler, der für eine Prüfung lernt, aber die Lösungen der Testfragen schon vorher gesehen hat. Er besteht die Prüfung nicht, weil er wirklich verstanden hat, wie das Wetter funktioniert, sondern weil er die Antworten auswendig gelernt hat. In der Welt der Daten nennt man das „Data Leakage" (Datenleck) oder „Kontamination".

Die Autoren dieses Papers, Impermanent, wollen genau das ändern. Sie haben einen neuen, lebendigen Prüfstand gebaut. Hier ist die Erklärung, wie das funktioniert, ganz einfach und mit ein paar Bildern im Kopf:

1. Das alte Problem: Die statische Fotografie

Bisher waren die Tests wie eine Fotografie. Man macht ein Bild von der Vergangenheit, teilt es auf und prüft, ob das Modell das Bild „erraten" kann. Aber die echte Welt ist keine Fotografie. Sie ist ein Film. Die Dinge ändern sich ständig. Neue Trends entstehen, alte verschwinden, und manchmal passiert etwas völlig Unerwartetes (wie ein Virus oder ein technischer Ausfall). Ein Modell, das nur auf einem alten Foto trainiert wurde, ist oft hilflos, wenn der Film weiterläuft.

2. Die Lösung: Impermanent – Der lebendige Film

Impermanent ist wie ein Live-Krimi, der jeden Tag weitergedreht wird.

Keine Rückspule: Die Modelle dürfen nicht in die Zukunft schauen. Sie müssen eine Vorhersage machen, bevor die Wahrheit bekannt ist.
Tägliche Updates: Jeden Tag kommen neue Daten dazu. Das Modell muss sich anpassen, genau wie ein Wettervorhersager, der jeden Morgen neue Satellitenbilder sieht.
Kein Auswendiglernen: Da die Testdaten erst nach der Vorhersage eintreffen, kann das Modell sie nicht „gelesen" haben. Es muss wirklich verstehen, wie die Welt funktioniert.

3. Der Testlauf: GitHub als Labor

Um diesen Test durchzuführen, haben die Forscher eine riesige, chaotische und lebendige Datenquelle gewählt: GitHub (eine Plattform, auf der Programmierer ihre Software-Projekte verwalten).

Stell dir GitHub wie eine riesige, pulsierende Stadt vor:

Manchmal ist es ruhig (wenige Aktivitäten).
Manchmal gibt es einen riesigen Boom, weil ein neues Update herauskommt (viele „Push"-Events).
Manchmal streiten sich Leute, und es gibt viele neue „Issues" (Fehlerberichte).
Manchmal kommen neue Fans („Stargazer") hinzu.

Die Forscher haben sich die 400 beliebtesten Projekte ausgesucht und beobachtet, wie sich deren Aktivität verändert. Sie haben vier Arten von Aktivitäten gemessen:

Neue Fehlerberichte (Issues).
Neue Code-Änderungen (Pull Requests).
Neue Uploads (Pushes).
Neue Fans (Stargazer).

Das ist perfekt für einen Test, weil diese Daten nie statisch sind. Sie sind voller Überraschungen, genau wie das echte Leben.

4. Die Bewertung: Nicht nur „Richtig oder Falsch"

Früher hat man nur geschaut: „War die Zahl richtig?" (z. B. „Ich habe 100 Fehler vorhergesagt, es waren 102").
Bei Impermanent schauen sie auf zwei Dinge:

Wie genau war die Zahl? (War die Vorhersage nah dran?)
Wie gut war die Unsicherheit? (Hat das Modell gewagt zu sagen: „Ich bin mir nicht sicher, es könnte zwischen 50 und 150 liegen"?)

Sie bewerten die Modelle nicht nur einmal, sondern über einen langen Zeitraum hinweg. Es geht nicht darum, wer bei einer einzigen Prüfung am besten war, sondern wer über Monate hinweg stabil bleibt, auch wenn sich die „Wetterlage" (die Datenverteilung) ändert.

5. Das Ergebnis: Wer gewinnt?

In diesem ersten Test (der Stand ist Februar 2026) haben moderne KI-Modelle (Foundation Models) wie TimesFM und Chronos die Nase vorn. Sie sind wie erfahrene Kapitäne, die auch bei stürmischer See den Kurs halten.

Aber es gibt eine wichtige Lektion:
Ein einfaches Modell, das nur sagt „Morgen wird es genauso sein wie heute" (SeasonalNaive), war bei der reinen Zahlen-Vorhersage gar nicht schlecht. Aber bei der Einschätzung von Risiken (Wahrscheinlichkeiten) war es schlecht. Das zeigt: Man darf sich nicht auf eine einzige Zahl verlassen. Ein gutes Modell muss sowohl die Zahl als auch die Unsicherheit richtig einschätzen.

Warum ist das wichtig?

Bisher haben viele KI-Modelle behauptet, sie seien „Allrounder", die alles verstehen können. Aber oft waren diese Behauptungen nur gut, weil sie auf statischen, veralteten Tests basierten.

Impermanent ist wie ein Echtzeit-Überlebens-Test. Er zeigt uns, welche Modelle wirklich robust sind und welche nur gut darin sind, alte Prüfungen zu bestehen. Es ist ein Schritt hin zu einer KI, die nicht nur in der Theorie funktioniert, sondern auch in der chaotischen, sich ständig verändernden echten Welt.

Zusammengefasst:
Statt ein Modell zu testen, indem man ihm die Lösungen einer alten Prüfung zeigt, geben wir ihm eine Live-Aufgabe, bei der sich die Aufgabenstellung jeden Tag ändert. Nur wer dabei bestehen bleibt, ist wirklich gut. Und das alles passiert live auf GitHub, wo sich die Welt der Softwareentwicklung jeden Tag neu erfindet.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Papier adressiert ein kritisches Defizit in der aktuellen Evaluierung von Zeitreihenvorhersagemodellen, insbesondere von neuartigen Foundation-Modellen (TSFMs).

Statische Benchmarks: Die meisten bestehenden Evaluierungsprotokolle (z. B. GIFT-Eval, Monash Repository) verwenden statische Trainings-Test-Splits. Dies führt zu Problemen wie Datenkontamination, da Foundation-Modelle unbeabsichtigt auf Testdaten trainiert werden können oder durch Modellauswahl basierend auf Testergebnissen die Leistung künstlich aufgebläht wird.
Fehlende Temporalität: Statische Splits testen die Generalisierung über verschiedene Datensätze hinweg (cross-sectional), ignorieren aber die temporale Generalisierung. In der realen Welt sind Datenverteilungen nicht stationär; sie unterliegen Konzeptdrifts, strukturellen Brüchen und externen Ereignissen.
Mangelnde Robustheitsmessung: Ein einmaliger Test auf einem eingefrorenen Datensatz gibt keine Auskunft darüber, ob ein Modell über die Zeit hinweg stabil bleibt oder wie es auf plötzliche Verteilungsverschiebungen reagiert.

2. Methodik: Das Impermanent-Benchmark

Die Autoren stellen Impermanent vor, den ersten „Live-Benchmark" (lebendiger Benchmark), der speziell für die Evaluierung der temporalen Generalisierung in der Zeitreihenvorhersage entwickelt wurde.

Datenbasis: Das Benchmark nutzt GitHub-Aktivitätsdaten (über den GH-Archive-Stream). Es werden die 400 meistgestargten Repositories analysiert.
Zeitreihen-Typen: Es werden vier Ereignistypen verfolgt:
1. Eröffnete Issues
2. Eröffnete Pull Requests (PRs)
3. Push-Ereignisse
4. Neue Stargazer
Frequenzen: Die Vorhersagen werden auf vier verschiedenen Frequenzen getestet: stündlich ( $h=24$ ), täglich ( $h=7$ ), wöchentlich ( $h=4$ ) und monatlich ( $h=1$ ).
Evaluierungsprotokoll (Prequential):
- Das System verwendet ein Rolling-Window-Prinzip mit täglichen Updates.
- Zu jedem „Cut-off"-Zeitpunkt müssen Modelle Vorhersagen für den nächsten Horizont ( $h$ ) treffen, bevor die Ground Truth (die tatsächlichen Daten) verfügbar ist.
- Sobald die Beobachtungen eintreffen, werden die Vorhersagen bewertet und gespeichert.
- Dies simuliert eine echte Deployment-Umgebung und verhindert Datenlecks.
Metriken:
- MASE (Mean Absolute Scaled Error): Für die Punktvorhersage-Genauigkeit.
- Scaled CRPS (Continuous Ranked Probability Score): Für die Qualität der probabilistischen Vorhersage (basierend auf 9 Quantilen).
- Die Scores werden durch ein „Zero-Modell" (das immer 0 vorhersagt) skaliert, um Vergleichbarkeit zwischen verschiedenen Subdatensätzen zu gewährleisten.
Infrastruktur: Die Pipeline läuft serverlos auf Modal mit Artefakten auf Amazon S3. Sie ist vollständig automatisiert, idempotent und ermöglicht das Hinzufügen neuer Modelle ohne Neuprocessing historischer Daten.

3. Wichtige Beiträge

Erster Live-Benchmark: Impermanent ist, nach Kenntnis der Autoren, das erste Benchmark-System, das Zeitreihenvorhersagemodelle sequenziell über eine sich ständig weiterentwickelnde Datenströmung hinweg bewertet.
Fokus auf temporale Robustheit: Statt nur die Genauigkeit auf einem statischen Testset zu messen, ermöglicht Impermanent die Analyse von:
- Anhaltender Genauigkeit über die Zeit.
- Robustheit gegenüber Verteilungsverschiebungen (Distributional Shift) und Schocks.
- Stabilität der Modell-Rankings unter sich ändernden Bedingungen.
Reproduzierbarkeit und Offenheit: Der gesamte Code, die Datenpipelines und die Leaderboards sind Open Source verfügbar. Dies fördert eine transparente und fortlaufende Vergleichbarkeit.
Charakterisierung der Daten: Die Autoren zeigen, dass GitHub-Daten eine hohe Nicht-Stationarität aufweisen (zwischen glatten Trends und plötzlichen, volatilen Ausbrüchen), was eine ideale Testumgebung für die Generalisierungsfähigkeit von Modellen darstellt.

4. Ergebnisse

Basierend auf einem frühen Snapshot (Stand Februar 2026) zeigen die Ergebnisse folgende Trends:

Foundation-Modelle dominieren: Pre-trained Foundation-Modelle belegen die Top-4-Positionen im Leaderboard.
- TimesFM führt in drei von vier Kategorien an.
- TiRex, Moirai 2.0 und Chronos-2 folgen dicht dahinter.
Nuancen in der Leistung:
- Statistische Baselines wie SeasonalNaive zeigen eine wettbewerbsfähige Punktvorhersage (MASE-Rang 5,39), versagen jedoch bei der probabilistischen Kalibrierung (CRPS-Rang 9,50).
- Modelle wie AutoETS und AutoARIMA erreichen vergleichbare CRPS-Ränge wie komplexere Methoden, obwohl ihre Punktvorhersage schwächer ist.
Dynamik: Da die Rankings sich mit jedem neuen Cut-off verschieben können, zeigt Impermanent, dass eine einmalige Leaderboard-Aufnahme nicht ausreicht, um die Überlegenheit eines Modells endgültig zu bestätigen. Die Fähigkeit, sich an neue Datenströme anzupassen, ist entscheidend.

5. Bedeutung und Ausblick

Paradigmenwechsel: Impermanent markiert einen konkreten Schritt weg von der statischen Genauigkeitsmessung hin zur Bewertung der nachhaltigen Leistung in dynamischen Umgebungen.
Validierung von Foundation-Modellen: Es bietet ein rigoroses Testfeld, um zu prüfen, ob die behauptete „breite Generalisierung" von Foundation-Modellen in der Praxis tatsächlich hält, wenn sie mit sich ändernden Daten konfrontiert werden.
Zukünftige Entwicklungen: Das Framework ist darauf ausgelegt, auf weitere Live-Datenströme erweitert zu werden, kontextuelle Informationen zu integrieren und längere Vorhersagehorizonte zu testen.
Ressource für die Community: Es dient als gemeinsame Ressource, um zu untersuchen, ob Benchmarkergebnisse in statischen Settings zuverlässig auf reale Einsatzszenarien nach dem Deployment übertragbar sind.

Zusammenfassend bietet Impermanent eine notwendige Infrastruktur, um die Lücke zwischen theoretischer Modellleistung und praktischer, zeitlicher Robustheit in der Zeitreihenvorhersage zu schließen.

Impermanent: A Live Benchmark for Temporal Generalization in Time Series Forecasting

1. Das alte Problem: Die statische Fotografie

2. Die Lösung: Impermanent – Der lebendige Film

3. Der Testlauf: GitHub als Labor

4. Die Bewertung: Nicht nur „Richtig oder Falsch"

5. Das Ergebnis: Wer gewinnt?

Warum ist das wichtig?

1. Problemstellung

2. Methodik: Das Impermanent-Benchmark

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

DyMRL: Dynamic Multispace Representation Learning for Multimodal Event Forecasting in Knowledge Graph

How unconstrained machine-learning models learn physical symmetries

Experiential Reflective Learning for Self-Improving LLM Agents

Learning Mesh-Free Discrete Differential Operators with Self-Supervised Graph Neural Networks

Physics-Informed Neural Network Digital Twin for Dynamic Tray-Wise Modeling of Distillation Columns under Transient Operating Conditions