Impermanent: A Live Benchmark for Temporal Generalization in Time Series Forecasting

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een weerman bent. Tot nu toe hebben we de prestaties van weersvoorspellers getest door ze een oude, statische foto van het weer van de afgelopen tien jaar te geven. Ze moesten de toekomst voorspellen op basis van die foto, en we keken of ze het goed hadden.

Het probleem? De echte wereld is geen foto; het is een levende film. Het weer verandert, nieuwe stormen komen op, en de klimaatregels verschuiven. Als je een model alleen op een oude foto test, weet je niet of het ook goed werkt als er morgen een onverwachte orkaan komt.

Dit is precies het probleem dat het papier "Impermanent" oplost voor tijdreeksvoorspellingen (het voorspellen van getallen die in de tijd veranderen, zoals voorraadbehoefte, stroomverbruik of in dit geval: GitHub-activiteit).

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Vaste Foto" vs. De "Live Film"

Vroeger testten we slimme voorspellingsmodellen (zoals de nieuwe "Foundation Models" of AI's) op een vaste testset.

De analogie: Het is alsof je een student een examen laat doen met een oude toets. De student heeft die toets misschien al gezien, of de vragen zijn zo simpel dat ze ze uit het hoofd kunnen leren. De student haalt een 10, maar in het echte leven (op straat) faalt hij omdat de situatie anders is.
Het risico: Omdat de testdata statisch is, kunnen AI-modellen per ongeluk "leren" van de antwoorden (data-lekkage) of zich aanpassen aan de specifieke test, in plaats van echt te begrijpen hoe de wereld werkt.

2. De Oplossing: Impermanent (De "Live Sportwedstrijd")

De auteurs introduceren Impermanent. Dit is geen statische test, maar een live benchmark.

De analogie: In plaats van een oude toets, laten we de modellen meedoen aan een live sportwedstrijd die nooit stopt.
- Elke dag krijgen de modellen een nieuwe opdracht: "Voorspel wat er morgen gebeurt."
- Ze moeten hun voorspelling doen voordat ze weten wat er echt gebeurt.
- Pas als de dag voorbij is, kijken we of ze het goed hadden.
- De volgende dag krijgen ze een nieuwe opdracht, gebaseerd op de nieuwe situatie.

Dit noemen ze een "open-world" test. Het model moet bewijzen dat het niet alleen slim is op papier, maar dat het sterk blijft terwijl de wereld om hen heen verandert (bijvoorbeeld door nieuwe software-updates, veranderend gedrag van mensen, of externe gebeurtenissen).

3. Waar testen ze het? De "GitHub Sportzaal"

Ze hebben dit systeem gebouwd met data van GitHub (een platform waar programmeurs hun code opslaan).

De analogie: Stel je voor dat GitHub een enorme, levende sportzaal is.
- Soms is het er rustig (weinig activiteit).
- Soms breekt er een storm los (een nieuwe populaire softwareversie komt uit, en iedereen is druk).
- Soms verandert de zaal zelf (nieuwe regels of tools).
Ze kijken naar 400 populaire "sportteams" (software-projecten) en meten vier dingen:
1. Hoe vaak er nieuwe problemen worden gemeld (Issues).
2. Hoe vaak er code wordt aangepast (Pull Requests).
3. Hoe vaak er code wordt geüpload (Pushes).
4. Hoe vaak mensen een sterretje geven (Stars).

Deze data is niet statisch. Het is chaotisch, vol pieken en dalen, en verandert continu. Perfect om te testen of een AI echt slim is of dat hij alleen maar oude patronen heeft geleerd.

4. Hoe werkt de test? (De Regels)

De "Rollende Venster": De modellen kijken niet naar de hele geschiedenis tegelijk. Ze kijken door een raam dat elke dag een beetje opschuift. Ze zien wat er gisteren gebeurd is, maar moeten voorspellen wat er morgen gebeurt.
De "Zero-Model" Veiligheid: Om eerlijk te blijven, vergelijken ze de AI met een "dwaas" model dat altijd "0" voorspelt. Als de AI niet beter is dan die dwaas, scoort hij slecht.
De Score: Ze kijken niet alleen of het antwoord exact goed was, maar ook of de AI kon zeggen: "Ik ben 80% zeker dat het zo zal zijn" (probabilistische voorspelling).

5. Wat hebben ze ontdekt? (Tot nu toe)

In hun eerste test (een "snapshot" van februari 2026) zagen ze dat de nieuwe, grote AI-modellen (zoals TimesFM en Chronos) het over het algemeen goed deden. Ze waren de beste "all-rounders".

Maar! De resultaten zijn niet statisch. Vandaag kan model A winnen, en morgen model B, afhankelijk van wat er in de "sportzaal" gebeurt.
Dit is het grote voordeel: Je ziet niet alleen wie op dit moment de beste is, maar je ziet hoe stabiel ze zijn. Blijft model A winnen als de situatie verandert, of zakt hij weg?

Conclusie: Waarom is dit belangrijk?

Vroeger zeiden bedrijven: "Onze AI is super slim, hij scoort 99% op onze test!"
Met Impermanent zeggen ze nu: "Onze AI is super slim, want hij heeft een levende, veranderende wereld overleefd zonder in paniek te raken."

Het is de verschuiving van "Kun je deze ene vraag beantwoorden?" naar "Kun je de hele film blijven voorspellen terwijl het verhaal verandert?"

Dit maakt Impermanent de eerste "live sportwedstrijd" voor tijdreeksvoorspellingen, waar we eindelijk kunnen zien welke modellen echt bestand zijn tegen de onvoorspelbaarheid van de echte wereld.

Each language version is independently generated for its own context, not a direct translation.

Titel: IMPERMANENT: Een Live Benchmark voor Temporele Generalisatie in Tijdsreeksvoorspelling

1. Het Probleem

Recente vooruitgang in tijdsreeksvoorspelling (time-series forecasting) wordt gedomineerd door "foundation models" (basismodellen) die beloven om breed te generaliseren over verschillende domeinen en frequenties. Echter, de huidige evaluatieprotocollen vertonen ernstige tekortkomingen:

Statische Splits: De meeste benchmarks gebruiken statische train-test splits. Dit leidt vaak tot data-contaminatie, waarbij foundation modellen onbedoeld op de testdata getraind worden of modelselectie uitvoeren op basis van testscores, wat de prestaties kunstmatig inflatieert.
Gebrek aan Temporele Robuustheid: Statische benchmarks testen kruissectuele generalisatie (over verschillende datasets op één moment), maar testen niet of prestaties standhouden in een dynamische, niet-stationaire omgeving waar verdelingen verschuiven (concept drift).
Realiteit vs. Theorie: In de echte wereld veranderen data-distributies voortdurend door nieuwe gebeurtenissen, structuurveranderingen en externe factoren. Een model dat goed presteert op een "bevroren" testset, faalt mogelijk in een live omgeving.

2. Methodologie: Het Impermanent Benchmark

De auteurs introduceren Impermanent, het eerste live benchmark dat specifiek is ontworpen om temporele generalisatie te evalueren.

Data Bron: Het benchmark is geïmplementeerd op GitHub-activiteit (via GH Archive). Het omvat de top 400 repositories (gebaseerd op sterren) en trackt vier gebeurtenistypen:
1. Openen van issues
2. Openen van pull requests
3. Push-events
4. Nieuwe stargazers
Niet-stationariteit: De dataset is per definitie niet-stationair, beïnvloed door releases, veranderend contributor-gedrag, tooling-wijzigingen en externe evenementen. De data toont een mix van gladde trends en spitsige, volatiele uitbarstingen.
Evaluatie Protocol (Pre-sequential):
- Live Loop: Voorspellingen worden gegenereerd en gescoord sequentieel in de tijd.
- Cutoff-momenten: Op elk cutoff-moment moeten modellen voorspellingen doen voor de komende $h$ perioden (u, dag, week, maand) voordat de grondwaarheid (ground truth) beschikbaar is.
- Scoring: Zodra de observaties binnenkomen, worden de voorspellingen gescoord. Dit voorkomt data-lekkage en simuleert een echte deployment-omgeving.
- Frequenties: Er worden vier frequenties getest: uurlijks ( $h=24$ ), dagelijks ( $h=7$ ), wekelijks ( $h=4$ ) en maandelijks ( $h=1$ ).
Metingen:
- MASE (Mean Absolute Scaled Error): Voor punt-voorspelling (point accuracy).
- Scaled CRPS (Continuous Ranked Probability Score): Voor probabilistische voorspellingen (verdeling), geschat via 9 kwantielniveaus.
- Normalisatie: Scores worden geschaald ten opzichte van een "Zero Model" (dat altijd 0 voorspelt) om stabiliteit te garanderen bij zeer kleine waarden.

3. Belangrijkste Bijdragen

Eerste Live Benchmark: Impermanent is, voor zover bekend, het eerste benchmark dat temporal generalisatie evalueert via een live, lek-vrij protocol.
Verschuiving van Statiek naar Dynamisch: Het verlegt de focus van "eenmalige nauwkeurigheid" op een statische set naar "gehandhaafde prestaties" over een evoluerende datastroom.
Analyse van Robuustheid: Het stelt onderzoekers in staat om te analyseren hoe modellen reageren op verdelingsverschuivingen (distributional shift) en schokken, en hoe stabiel de ranglijsten zijn over de tijd.
Open Source Infrastructuur: De volledige pipeline (data-inname, forecasting, evaluatie) is geautomatiseerd, open source en draait op serverless infrastructuur (Modal/Amazon S3), wat reproduceerbaarheid en uitbreiding mogelijk maakt zonder historische data opnieuw te hoeven verwerken.

4. Resultaten

De paper presenteert een vroege snapshot van de resultaten (tot 12 februari 2026):

Top Performers: Pre-getrainde foundation modellen domineren de top 4 posities. TimesFM leidt op drie van de vier kolommen (MASE en CRPS).
Nuance in Prestaties:
- SeasonalNaive: Bereikt een competitieve rang voor MASE (5.39), maar scoort slecht op probabilische kalibratie (CRPS rang 9.50).
- Statistische Modellen: Modellen zoals AutoETS en AutoARIMA behalen CRPS-rangs die vergelijkbaar zijn met geavanceerdere methoden (zoals DynOptTheta), ondanks zwakkere punt-nauwkeurigheid.
Dynamiek: Omdat Impermanent modellen sequentieel scoort, zullen deze ranglijsten verschuiven naarmate nieuwe cutoffs worden toegevoegd. Dit maakt het mogelijk om te zien of vroege voordelen standhouden onder voortdurende verdelingsverschuiving.

5. Betekenis en Toekomstperspectief

Validatie van Foundation Models: Impermanent biedt een concrete manier om te beoordelen of de claim van "foundation-level generalisatie" in tijdsreeksvoorspelling daadwerkelijk betekenisvol is in de praktijk, en niet slechts een artefact van statische benchmarks.
Standaardisatie: Het introduceert een standaard voor continue, reproduceerbare vergelijking van modellen in een live omgeving.
Toekomst: De auteurs plannen uitbreiding naar andere live datastromen, het toevoegen van contextuele informatie en het gebruik van langere evaluatiehorizons om de stabiliteit van modellen op de lange termijn beter te begrijpen.

Conclusie: Impermanent is een cruciale stap in de evolutie van tijdsreeksvoorspelling, die de community dwingt om modellen te testen op hun vermogen om te overleven in een veranderende wereld, in plaats van alleen op hun vermogen om een statische dataset te memoriseren.

Impermanent: A Live Benchmark for Temporal Generalization in Time Series Forecasting

1. Het Probleem: De "Vaste Foto" vs. De "Live Film"

2. De Oplossing: Impermanent (De "Live Sportwedstrijd")

3. Waar testen ze het? De "GitHub Sportzaal"

4. Hoe werkt de test? (De Regels)

5. Wat hebben ze ontdekt? (Tot nu toe)

Conclusie: Waarom is dit belangrijk?

Titel: IMPERMANENT: Een Live Benchmark voor Temporele Generalisatie in Tijdsreeksvoorspelling

1. Het Probleem

2. Methodologie: Het Impermanent Benchmark

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Toekomstperspectief

Meer zoals dit

DyMRL: Dynamic Multispace Representation Learning for Multimodal Event Forecasting in Knowledge Graph

How unconstrained machine-learning models learn physical symmetries

Experiential Reflective Learning for Self-Improving LLM Agents

Learning Mesh-Free Discrete Differential Operators with Self-Supervised Graph Neural Networks

Physics-Informed Neural Network Digital Twin for Dynamic Tray-Wise Modeling of Distillation Columns under Transient Operating Conditions