Are We Winning the Wrong Game? Revisiting Evaluation Practices for Long-Term Time Series Forecasting

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes un entraîneur de course à pied. Votre objectif est de préparer vos athlètes pour le marathon de demain. Mais au lieu de les entraîner à courir sur de longues distances, à gérer leur souffle et à s'adapter aux changements de terrain, vous les faites courir uniquement sur un tapis roulant dans votre garage.

Vous mesurez leur performance avec une règle ultra-précise : « Qui a fait le moins de pas de travers sur les 100 premiers mètres ? ».

Si un athlète fait un pas de travers de moins que l'autre, vous le déclarez le « meilleur coureur du monde » et vous le mettez en vedette. Mais le jour du vrai marathon, sous la pluie et sur des collines, cet athlète s'effondre parce qu'il a été entraîné uniquement pour être parfait sur un tapis roulant, pas pour courir dans la réalité.

C'est exactement le problème que soulève ce papier sur la prévision des séries temporelles (prédire l'avenir de données qui changent dans le temps, comme la météo, le trafic ou les prix de l'électricité).

Voici l'explication simple de leur message :

1. Le Jeu du « Meilleur Score » (La course aux points)

Actuellement, les chercheurs en intelligence artificielle jouent à un jeu très spécifique. Ils créent des modèles pour prédire l'avenir et les testent sur un petit nombre de jeux de données standards (comme des tableaux de données sur l'électricité ou la météo).

Pour savoir qui gagne, ils utilisent une seule règle : l'erreur moyenne.

Si le modèle prédit 100 degrés et qu'il fait 101, l'erreur est de 1.
S'il prédit 99, l'erreur est aussi de 1.
Le modèle qui a l'erreur moyenne la plus faible gagne le « trophée » et devient le « meilleur du monde ».

Le problème ? Les chercheurs passent leur temps à optimiser leurs modèles pour gagner ce jeu de points, comme un joueur de vidéo qui apprend à tricher pour battre le score le plus élevé, plutôt que pour comprendre le jeu lui-même.

2. Le Piège : Gagner la mauvaise bataille

L'auteur dit : « Gagnons-nous la mauvaise partie ? »

Imaginez que vous voulez prédire le prix de l'essence pour l'année prochaine.

Le modèle « Gagnant du jeu » va essayer de coller parfaitement à chaque petite fluctuation du passé, même les erreurs de mesure ou les bruits bizarres. Il va dire : « Demain, ce sera exactement 1,52€, puis 1,53€, puis 1,51€ ». Son score d'erreur sera très bas.
Le modèle « Utile pour la réalité » va dire : « La tendance est à la hausse, il va probablement monter à 1,60€ ». Il ignore les petits bruits. Son score d'erreur sera peut-être un peu plus élevé car il ne colle pas à chaque détail, mais il est beaucoup plus utile pour prendre une décision (comme acheter du carburant maintenant).

En se focalisant uniquement sur le score d'erreur (MSE/MAE), nous créons des modèles qui sont d'excellents « copieurs » du passé, mais de mauvais « prévoyants » de l'avenir. Ils sont comme un élève qui a mémorisé les réponses d'un examen de l'année dernière, mais qui ne comprend pas la matière.

3. Ce qui manque vraiment (Les trois piliers oubliés)

Les auteurs proposent d'arrêter de regarder uniquement le score final et de regarder trois choses plus importantes, comme un médecin qui ne regarde pas seulement la température, mais aussi le rythme cardiaque et l'état général du patient :

La Fidélité Statistique (Le copier-coller) : Est-ce que le modèle est proche des chiffres réels ? (C'est ce qu'on mesure déjà).
La Cohérence Structurelle (Le sens de la marche) : Le modèle comprend-il la logique ? Si la tendance est à la hausse, le modèle doit-il continuer à monter ? Si la saisonnalité (les saisons) est forte, le modèle doit-il respecter les cycles ? Un bon modèle ne doit pas être juste « proche », il doit avoir du sens.
La Pertinence Décisionnelle (À quoi ça sert ?) : Si vous utilisez cette prédiction pour gérer une centrale électrique ou investir en bourse, est-ce que le modèle vous aide à prendre la bonne décision ? Parfois, une prédiction imparfaite mais stable vaut mieux qu'une prédiction parfaite mais chaotique.

4. La Solution : Arrêter de chercher le « Roi Universel »

Aujourd'hui, on cherche le modèle « ultime » qui gagne sur tous les tableaux de scores. Les auteurs disent : Oubliez ça.

Il n'y a pas de champion universel.

Pour la météo, on veut peut-être un modèle qui gère bien les changements brusques.
Pour la bourse, on veut peut-être un modèle qui ignore le bruit et voit la tendance de fond.
Pour le trafic, on veut un modèle robuste aux imprévus.

Au lieu de faire des tableaux de classement (Leaderboards) où l'on dit « Le Modèle A est meilleur que le Modèle B de 0,001 point », nous devrions faire des rapports de diagnostic.

« Ce modèle est excellent pour les tendances stables, mais il échoue quand il y a une crise soudaine. »
« Ce modèle est parfait pour la planification à long terme, mais il est trop lent pour l'urgence. »

En résumé

Ce papier est un appel à la raison. Il nous dit : « Arrêtez de courir après les petits points de différence sur des tableaux de scores. »

Au lieu de demander « Qui a le score le plus bas ? », nous devrions demander : « Qui comprend le mieux la dynamique du temps ? » et « Qui nous aide le mieux à prendre de bonnes décisions dans le monde réel ? ».

C'est passer d'une course de vitesse sur un tapis roulant à un vrai marathon en pleine nature, où l'objectif n'est pas d'être parfait sur le papier, mais d'arriver à destination sain et sauf.

Are We Winning the Wrong Game? Revisiting Evaluation Practices for Long-Term Time Series Forecasting

1. Le Jeu du « Meilleur Score » (La course aux points)

2. Le Piège : Gagner la mauvaise bataille

3. Ce qui manque vraiment (Les trois piliers oubliés)

4. La Solution : Arrêter de chercher le « Roi Universel »

En résumé

1. Problématique : Le piège de la monoculture métrique

2. Méthodologie et Analyse Critique

3. Contributions Clés : Une perspective d'évaluation multidimensionnelle

A. Fidélité Statistique (Statistical Fidelity)

B. Cohérence Structurelle (Structural Coherence)

C. Pertinence au Niveau Décisionnel (Decision-Level Relevance)

4. Résultats et Observations

5. Signification et Impact

Are We Winning the Wrong Game? Revisiting Evaluation Practices for Long-Term Time Series Forecasting

1. Le Jeu du « Meilleur Score » (La course aux points)

2. Le Piège : Gagner la mauvaise bataille

3. Ce qui manque vraiment (Les trois piliers oubliés)

4. La Solution : Arrêter de chercher le « Roi Universel »

En résumé

1. Problématique : Le piège de la monoculture métrique

2. Méthodologie et Analyse Critique

3. Contributions Clés : Une perspective d'évaluation multidimensionnelle

A. Fidélité Statistique (Statistical Fidelity)

B. Cohérence Structurelle (Structural Coherence)

C. Pertinence au Niveau Décisionnel (Decision-Level Relevance)

4. Résultats et Observations

5. Signification et Impact

Articles similaires

Equitable Multi-Task Learning for AI-RANs

SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning

The Temporal Markov Transition Field

SoftJAX & SoftTorch: Empowering Automatic Differentiation Libraries with Informative Gradients

Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models