Impermanent: A Live Benchmark for Temporal Generalization in Time Series Forecasting

Each language version is independently generated for its own context, not a direct translation.

🌧️ Le problème : La photo figée vs. La vidéo en direct

Imaginez que vous voulez apprendre à conduire.

L'ancienne méthode (les benchmarks actuels) : C'est comme si vous passiez un examen de conduite sur un circuit fermé, avec un temps calme, une route parfaitement lisse et des panneaux fixes. Vous réussissez brillamment. Mais le jour où vous sortez sur la vraie route, avec de la pluie, des travaux, des piétons imprévisibles et des embouteillages soudains, vous paniquez.
Le problème : Les modèles d'intelligence artificielle actuels pour prédire l'avenir (comme la météo ou les ventes) sont entraînés et testés sur des "photos figées" de données passées. Ils apprennent par cœur les réponses d'un examen qui ne change jamais. Mais dans la vraie vie, le monde bouge tout le temps.

🚀 La solution : Impermanent, le "Live Stream" de la prédiction

Les auteurs de cet article ont créé Impermanent. C'est un nouveau type de test pour les intelligences artificielles, mais au lieu d'un examen figé, c'est un match en direct, jour après jour.

Voici comment ça marche, avec une analogie :

1. Le Terrain de jeu : GitHub (Le grand chantier)

Au lieu de tester l'IA sur des chiffres de ventes de supermarchés (qui sont souvent lents à changer), ils ont choisi GitHub, le site où les développeurs de logiciels travaillent.

L'analogie : Imaginez un immense chantier de construction qui ne dort jamais. Parfois, c'est calme. Parfois, une équipe entière arrive en même temps pour poser des briques (un "push"). Parfois, quelqu'un ouvre une fenêtre pour demander de l'aide (un "issue"). Parfois, des gens viennent juste regarder le spectacle (des "stars").
Ce chantier est imprévisible. Il change chaque seconde. C'est l'endroit parfait pour voir si une IA est vraiment intelligente ou si elle a juste "recraché" ce qu'elle a appris par cœur.

2. Le Test : La course contre la montre

Dans le test Impermanent, l'IA ne peut pas tricher.

La règle d'or : L'IA doit faire une prédiction pour le futur avant que le futur n'arrive.
L'analogie : C'est comme un météorologue qui doit prédire la pluie de demain matin à 8h00. Il ne peut pas attendre de voir s'il pleut pour donner sa réponse. Il doit faire son pronostic, puis, le lendemain, on vérifie s'il avait raison.
Ensuite, on recommence le lendemain, et encore le lendemain. On ne regarde pas seulement si l'IA a réussi une fois, mais si elle reste bonne pendant des mois, même quand le temps change radicalement.

3. Pourquoi "Impermanent" ?

Le nom vient du fait que rien n'est fixe.

Dans les vieux tests, les données sont "froides" et statiques (comme une photo).
Ici, les données sont "chaudes" et vivantes. Si l'IA a appris par cœur les réponses d'hier, elle va échouer aujourd'hui parce que le contexte a changé. Impermanent force l'IA à être adaptable.

🏆 Les Résultats (Pour l'instant)

Les auteurs ont mis en compétition 12 "coureurs" (différentes intelligences artificielles), allant de méthodes statistiques classiques (les "vieux sages") aux nouveaux modèles géants (les "super-héros" de l'IA).

Ce qu'ils ont découvert : Les nouveaux modèles géants (les "Foundation Models") semblent très forts, comme des athlètes olympiques. Ils arrivent souvent en tête.
Mais attention : Parfois, un modèle simple (comme un "Naïf" qui dit "demain sera comme aujourd'hui") bat les géants sur certains aspects, mais perd sur d'autres.
Le vrai gain : Impermanent permet de voir qui tient le coup sur la durée. Certains modèles sont excellents au début mais s'effondrent quand le monde change. D'autres sont plus lents mais plus stables.

🎯 En résumé

Impermanent est comme un réalité TV pour les intelligences artificielles.

Avant, on les testait dans une salle de classe fermée (les vieux benchmarks).
Maintenant, on les lance dans la jungle (le flux de données GitHub en direct).
L'objectif n'est plus de savoir qui a la meilleure note sur un papier, mais qui survit le mieux aux changements du monde réel.

C'est une étape cruciale pour s'assurer que les IA que nous utilisons demain ne seront pas de simples "parceurs" de données, mais de véritables prévisionnistes capables de s'adapter à un monde qui ne s'arrête jamais de changer.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Le domaine de la prévision de séries temporelles (Time Series Forecasting - TSF) connaît une transformation majeure avec l'émergence de modèles fondationnels (Foundation Models). Ces modèles, entraînés sur de vastes ensembles de données hétérogènes, prétendent offrir une généralisation temporelle robuste, c'est-à-dire la capacité de transférer des représentations apprises à de nouvelles séries, fréquences et domaines avec une adaptation minimale.

Cependant, les protocoles d'évaluation actuels présentent des limites critiques :

Biais de contamination : La plupart des benchmarks utilisent des splits train-test statiques. Les modèles fondationnels, souvent entraînés sur des données publiques, peuvent avoir « vu » les données de test lors de leur pré-entraînement, faussant les résultats.
Manque de réalisme temporel : Les évaluations statiques ne testent pas la robustesse face aux changements de distribution (concept drift), aux ruptures structurelles ou à l'évolution dynamique des données dans le monde réel.
Sur-estimation des performances : La sélection de modèles basée sur des scores de test fixes peut conduire à une inflation artificielle des performances qui ne se maintient pas en déploiement continu.

Il existe un besoin urgent d'un protocole d'évaluation « en direct » (live) qui simule un déploiement réel, où les prévisions sont émises avant que les vérités terrain ne soient connues et évaluées séquentiellement.

2. Méthodologie : Le Benchmark Impermanent

Les auteurs introduisent Impermanent, le premier benchmark « en direct » conçu spécifiquement pour évaluer la généralisation temporelle.

A. Données et Instantiation

Le benchmark est construit sur l'activité logicielle GitHub, une source de données naturellement vivante, hautement non stationnaire et influencée par des événements externes (lancements de versions, changements d'outils, comportements des contributeurs).

Sélection : Les 400 dépôts les plus étoilés (top 400 by star count).
Séries temporelles : Quatre types d'événements sont suivis :
1. Issues ouvertes (Issues opened)
2. Pull Requests ouvertes (Pull requests opened)
3. Événements de poussée (Push events)
4. Nouveaux étoiles (New stargazers)
Fréquences de prévision : Horaire ( $h=24$ ), Journalière ( $h=7$ ), Hebdomadaire ( $h=4$ ), Mensuelle ( $h=1$ ).
Caractéristiques : Les données présentent une forte intermittence, des pics soudains (burstiness) et des changements de régime, couvrant un large spectre de dynamiques (mesurées par la centroid et l'entropie spectrales).

B. Protocole d'Évaluation « Prequential »

Le cœur d'Impermanent réside dans sa boucle d'évaluation fidèle au déploiement réel :

Fenêtres glissantes : À chaque date de coupure (cutoff), les modèles reçoivent une fenêtre contextuelle d'observations historiques.
Prévision avant vérité : Les modèles doivent produire des prévisions (ponctuelles et probabilistes) pour l'horizon futur $h$ avant que les données réelles ne soient disponibles.
Scoring séquentiel : Dès que les observations réelles arrivent, les prévisions sont stockées et notées.
Mise à jour continue : Le leaderboard est mis à jour au fur et à mesure que de nouvelles coupures s'accumulent, permettant de suivre la stabilité des classements dans le temps.

C. Métriques et Modèles

Métriques :
- MASE (Mean Absolute Scaled Error) : Pour la précision ponctuelle.
- Scaled CRPS (Continuous Ranked Probability Score) : Pour la qualité de la distribution prédictive (basé sur 9 niveaux de quantiles).
- Les scores sont normalisés par rapport à un modèle « Zero » (qui prédit toujours zéro) pour assurer la comparabilité.
Modèles évalués (12 au total) :
- Baselines : ZeroModel, Moyenne Historique, Naïve Saisonnier.
- Statistiques : AutoARIMA, AutoETS, AutoCES, DynOptTheta, Prophet.
- Modèles Fondationnels (TSFMs) : Chronos-2, Moirai 2.0-R-Small, TimesFM 2.5, TiRex.

3. Résultats Clés

Les résultats présentés (à la date du 12 février 2026) dans le tableau 2 révèlent plusieurs dynamiques intéressantes :

Supériorité des modèles fondationnels : Les modèles fondationnels (Chronos, Moirai, TiRex, TimesFM) occupent les quatre premières places du classement global. TimesFM se distingue particulièrement, menant sur trois des quatre colonnes (MASE, CRPS, et rangs moyens).
Nuances entre précision et calibration :
- Le modèle SeasonalNaive obtient un bon rang pour le MASE (5,39) mais un mauvais rang pour le CRPS (9,50), indiquant une bonne précision ponctuelle mais une mauvaise calibration probabiliste.
- À l'inverse, AutoETS et AutoARIMA montrent des rangs CRPS comparables à des méthodes plus complexes (DynOptTheta) malgré une précision ponctuelle plus faible.
Dynamique temporelle : L'essence du benchmark est que ces classements ne sont pas figés. Ils évoluent à chaque nouvelle coupure, permettant d'observer si les avantages initiaux des modèles fondationnels persistent face aux changements de distribution ou s'ils se dégradent.

4. Contributions Principales

Premier Benchmark « Live » : Impermanent est la première initiative dédiée à l'évaluation séquentielle et en temps réel de la généralisation temporelle, éliminant les risques de contamination des données de test.
Protocole de Robustesse : Il permet d'analyser la stabilité des performances, la résistance aux chocs distributionnels et la persistance des classements, des aspects invisibles pour les benchmarks statiques.
Infrastructure Automatisée et Reproductible : L'ensemble du pipeline (ingestion de données, prévision, évaluation, mise à jour du leaderboard) est open-source, automatisé et hébergé sur GitHub. Il utilise des pipelines serverless (Modal) et des conteneurs parallèles pour traiter les données.
Données Réalistes : L'utilisation de l'activité GitHub fournit un environnement de test riche, non stationnaire et complexe, bien plus représentatif des défis du monde réel que les séries synthétiques ou figées.

5. Signification et Perspectives

Signification :
Impermanent marque un tournant dans l'évaluation des modèles de prévision. Il déplace le focus de la « précision ponctuelle sur un jeu de données figé » vers la « performance durable dans un environnement changeant ». Cela remet en question la validité des affirmations de généralisation faites par les modèles fondationnels basées uniquement sur des benchmarks statiques. Il offre un cadre pour déterminer quand et si la généralisation de niveau fondationnel peut être revendiquée de manière significative.

Perspectives Futures :

Extension des données : Intégration d'autres flux de données en direct au-delà de GitHub.
Contexte enrichi : Ajout de covariables contextuelles pour améliorer les tâches de prévision.
Horizons longs : Utilisation d'horizons d'évaluation plus longs pour mieux comprendre la dynamique de stabilité des modèles sur le long terme.
Ressource partagée : Le projet vise à devenir une ressource communautaire pour étudier le fossé entre la performance en benchmark statique et la fiabilité en déploiement réel.

En résumé, Impermanent propose une approche rigoureuse et dynamique pour valider les modèles de prévision, en alignant l'évaluation académique sur les réalités opérationnelles du déploiement de l'IA.