Impermanent: A Live Benchmark for Temporal Generalization in Time Series Forecasting

Das Paper stellt Impermanent vor, ein dynamisches Live-Benchmark-System für Zeitreihenvorhersagen, das die Bewertung von Modellen von statischen Test-Splits auf eine kontinuierliche, sequenzielle Leistungsmessung unter realen zeitlichen Veränderungen umstellt, um die wahre zeitliche Generalisierungsfähigkeit zu erfassen.

Azul Garza, Renée Rosillo, Rodrigo Mendoza-Smith, David Salinas, Andrew Robert Williams, Arjun Ashok, Mononito Goswami, José Martín Juárez

Veröffentlicht 2026-03-10
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Titel: Impermanent – Der lebendige Prüfstand für Zeitreihen-Vorhersagen

Stell dir vor, du möchtest vorhersagen, wie viel Regen morgen fällt. Die meisten Wissenschaftler testen ihre Vorhersage-Modelle heute so: Sie nehmen historische Daten, teilen sie in zwei Hälften (eine zum Lernen, eine zum Testen) und sagen dann: „Schau mal, mein Modell hat die Testdaten zu 90 % richtig vorhergesagt!"

Das Problem dabei ist wie bei einem Schüler, der für eine Prüfung lernt, aber die Lösungen der Testfragen schon vorher gesehen hat. Er besteht die Prüfung nicht, weil er wirklich verstanden hat, wie das Wetter funktioniert, sondern weil er die Antworten auswendig gelernt hat. In der Welt der Daten nennt man das „Data Leakage" (Datenleck) oder „Kontamination".

Die Autoren dieses Papers, Impermanent, wollen genau das ändern. Sie haben einen neuen, lebendigen Prüfstand gebaut. Hier ist die Erklärung, wie das funktioniert, ganz einfach und mit ein paar Bildern im Kopf:

1. Das alte Problem: Die statische Fotografie

Bisher waren die Tests wie eine Fotografie. Man macht ein Bild von der Vergangenheit, teilt es auf und prüft, ob das Modell das Bild „erraten" kann. Aber die echte Welt ist keine Fotografie. Sie ist ein Film. Die Dinge ändern sich ständig. Neue Trends entstehen, alte verschwinden, und manchmal passiert etwas völlig Unerwartetes (wie ein Virus oder ein technischer Ausfall). Ein Modell, das nur auf einem alten Foto trainiert wurde, ist oft hilflos, wenn der Film weiterläuft.

2. Die Lösung: Impermanent – Der lebendige Film

Impermanent ist wie ein Live-Krimi, der jeden Tag weitergedreht wird.

  • Keine Rückspule: Die Modelle dürfen nicht in die Zukunft schauen. Sie müssen eine Vorhersage machen, bevor die Wahrheit bekannt ist.
  • Tägliche Updates: Jeden Tag kommen neue Daten dazu. Das Modell muss sich anpassen, genau wie ein Wettervorhersager, der jeden Morgen neue Satellitenbilder sieht.
  • Kein Auswendiglernen: Da die Testdaten erst nach der Vorhersage eintreffen, kann das Modell sie nicht „gelesen" haben. Es muss wirklich verstehen, wie die Welt funktioniert.

3. Der Testlauf: GitHub als Labor

Um diesen Test durchzuführen, haben die Forscher eine riesige, chaotische und lebendige Datenquelle gewählt: GitHub (eine Plattform, auf der Programmierer ihre Software-Projekte verwalten).

Stell dir GitHub wie eine riesige, pulsierende Stadt vor:

  • Manchmal ist es ruhig (wenige Aktivitäten).
  • Manchmal gibt es einen riesigen Boom, weil ein neues Update herauskommt (viele „Push"-Events).
  • Manchmal streiten sich Leute, und es gibt viele neue „Issues" (Fehlerberichte).
  • Manchmal kommen neue Fans („Stargazer") hinzu.

Die Forscher haben sich die 400 beliebtesten Projekte ausgesucht und beobachtet, wie sich deren Aktivität verändert. Sie haben vier Arten von Aktivitäten gemessen:

  1. Neue Fehlerberichte (Issues).
  2. Neue Code-Änderungen (Pull Requests).
  3. Neue Uploads (Pushes).
  4. Neue Fans (Stargazer).

Das ist perfekt für einen Test, weil diese Daten nie statisch sind. Sie sind voller Überraschungen, genau wie das echte Leben.

4. Die Bewertung: Nicht nur „Richtig oder Falsch"

Früher hat man nur geschaut: „War die Zahl richtig?" (z. B. „Ich habe 100 Fehler vorhergesagt, es waren 102").
Bei Impermanent schauen sie auf zwei Dinge:

  1. Wie genau war die Zahl? (War die Vorhersage nah dran?)
  2. Wie gut war die Unsicherheit? (Hat das Modell gewagt zu sagen: „Ich bin mir nicht sicher, es könnte zwischen 50 und 150 liegen"?)

Sie bewerten die Modelle nicht nur einmal, sondern über einen langen Zeitraum hinweg. Es geht nicht darum, wer bei einer einzigen Prüfung am besten war, sondern wer über Monate hinweg stabil bleibt, auch wenn sich die „Wetterlage" (die Datenverteilung) ändert.

5. Das Ergebnis: Wer gewinnt?

In diesem ersten Test (der Stand ist Februar 2026) haben moderne KI-Modelle (Foundation Models) wie TimesFM und Chronos die Nase vorn. Sie sind wie erfahrene Kapitäne, die auch bei stürmischer See den Kurs halten.

Aber es gibt eine wichtige Lektion:
Ein einfaches Modell, das nur sagt „Morgen wird es genauso sein wie heute" (SeasonalNaive), war bei der reinen Zahlen-Vorhersage gar nicht schlecht. Aber bei der Einschätzung von Risiken (Wahrscheinlichkeiten) war es schlecht. Das zeigt: Man darf sich nicht auf eine einzige Zahl verlassen. Ein gutes Modell muss sowohl die Zahl als auch die Unsicherheit richtig einschätzen.

Warum ist das wichtig?

Bisher haben viele KI-Modelle behauptet, sie seien „Allrounder", die alles verstehen können. Aber oft waren diese Behauptungen nur gut, weil sie auf statischen, veralteten Tests basierten.

Impermanent ist wie ein Echtzeit-Überlebens-Test. Er zeigt uns, welche Modelle wirklich robust sind und welche nur gut darin sind, alte Prüfungen zu bestehen. Es ist ein Schritt hin zu einer KI, die nicht nur in der Theorie funktioniert, sondern auch in der chaotischen, sich ständig verändernden echten Welt.

Zusammengefasst:
Statt ein Modell zu testen, indem man ihm die Lösungen einer alten Prüfung zeigt, geben wir ihm eine Live-Aufgabe, bei der sich die Aufgabenstellung jeden Tag ändert. Nur wer dabei bestehen bleibt, ist wirklich gut. Und das alles passiert live auf GitHub, wo sich die Welt der Softwareentwicklung jeden Tag neu erfindet.