Adapting Time Series Foundation Models through Data Mixtures

Each language version is independently generated for its own context, not a direct translation.

🌍 Le Problème : Le Préjugé du "Tout-En-Un"

Imaginez que vous avez un chef cuisinier génial (le "Modèle Fondamental" ou TSFM) qui a appris à cuisiner en goûtant des millions de plats différents : des pizzas, des sushis, des rôtis, des salades, etc. Ce chef est un expert universel.

Maintenant, vous voulez qu'il prépare un plat spécifique pour votre famille, mais vous n'avez pas beaucoup de temps pour lui apprendre de zéro. Vous avez accès à quelques recettes de votre grand-mère (vos nouvelles données) qui sont liées au plat que vous voulez, mais pas exactement les mêmes.

L'approche traditionnelle (Méthode "Partage" ou "Par Dataset") :

Le problème : Si vous donnez toutes les recettes de votre grand-mère en même temps au chef pour qu'il s'entraîne, il risque de se mélanger les pinceaux. Il va essayer de faire une pizza avec des ingrédients pour un rôtis, ou il va devenir un "chef moyen" qui ne fait rien parfaitement.
L'autre approche (Méthode "Par Dataset") : Si vous lui donnez une recette par jour et que vous lui demandez de créer un chef différent pour chaque recette, cela fonctionne mieux, mais c'est rigide. Si une seule recette contient à la fois des ingrédients pour un dessert et pour un plat salé (ce qui arrive souvent dans les données réelles), le chef va encore être confus.

💡 La Solution : MixFT (Le "Tri Intelligent")

Les auteurs proposent une nouvelle méthode appelée MixFT. Au lieu de suivre les étiquettes des dossiers (ex: "Recettes de Grand-mère" vs "Recettes de l'Oncle"), MixFT agit comme un détective culinaire très astucieux.

Voici comment cela fonctionne, étape par étape :

1. Le Tri par Goût (Le Mélange Bayésien)

Au lieu de regarder d'où vient l'ingrédient (le nom du fichier), MixFT regarde ce qu'il est.

Imaginez que votre grand-mère a un livre de recettes. Certaines pages parlent de plats très épicés, d'autres de plats très doux, d'autres de plats très rapides à préparer.
MixFT utilise une intelligence artificielle (un modèle de mélange bayésien) pour reclasser toutes les recettes. Il ne regarde plus le titre du livre, mais le contenu.
Il sépare les données en deux (ou plusieurs) sous-groupes homogènes :
- Groupe A : Tous les plats épicés.
- Groupe B : Tous les plats doux.
- Même si ces plats viennent du même livre de recettes !

2. La Spécialisation (Les LoRA)

Une fois les ingrédients triés, le chef (le modèle) ne s'entraîne plus de manière globale. Il crée des sous-chefs spécialisés (appelés modules LoRA dans le jargon technique) :

Le Sous-chef Épicé s'entraîne uniquement sur les plats épicés. Il devient un expert absolu du piment.
Le Sous-chef Doux s'entraîne uniquement sur les plats sucrés. Il devient un expert du chocolat.

Chaque sous-chef est plus précis car il ne doit pas s'occuper de tout, juste de son domaine précis.

3. La Prédiction (Le Service en Salle)

Quand un client arrive avec une nouvelle commande (une nouvelle série temporelle à prédire) :

Le serveur (MixFT) goûte d'abord la commande pour voir de quel type de plat il s'agit (est-ce épicé ou doux ?).
Il envoie la commande au Sous-chef Épicé ou au Sous-chef Doux qui est le plus adapté.
Le résultat est bien meilleur car le chef qui cuisine a été entraîné spécifiquement sur ce type de goût, sans être distrait par les autres.

🏆 Pourquoi c'est mieux ?

Dans l'article, les auteurs montrent que cette méthode bat les anciennes approches de deux façons :

Moins de confusion : En séparant les données par nature (sous-domaines) et non par source (fichiers), on évite que le modèle apprenne des règles contradictoires. C'est comme ne pas demander à un expert en ski de faire du surf en même temps.
Plus de précision : Quand le modèle doit prédire l'avenir (la "prévision zéro-shot"), il sait exactement quel "sous-chef" utiliser. Il n'a pas besoin de deviner ou de faire une moyenne floue entre plusieurs chefs.

🧠 En Résumé

L'ancien problème : On entraînait un modèle sur des tas de données mélangées, ce qui le rendait moyen partout.
La nouvelle idée (MixFT) : On utilise un tri automatique pour séparer les données en "familles" cachées (sous-domaines), même si elles sont dans le même dossier.
Le résultat : On crée une équipe de spécialistes. Quand on a un problème, on appelle l'expert exact pour ce problème, ce qui donne des prédictions beaucoup plus précises.

C'est un peu comme passer d'une école générale où tout le monde apprend tout, à une université où chaque étudiant choisit sa spécialité, et où l'on sait exactement quel expert appeler selon le problème à résoudre.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les Modèles de Base pour Séries Temporelles (TSFMs) sont devenus populaires pour leur capacité à effectuer des prévisions en zéro-shot (sans entraînement spécifique sur la série cible). Cependant, leur performance chute souvent lorsqu'ils sont appliqués à de nouveaux domaines non couverts par leur jeu de données d'entraînement initial.

Pour améliorer ces performances, les praticiens disposent souvent de jeux de données liés. La question centrale est : comment adapter (fine-tuner) un TSFM sur un ensemble de données liées pour optimiser les prévisions en zéro-shot ?

Les approches actuelles reposent généralement sur deux stratégies de Fine-Tuning Efficace en Paramètres (PEFT), utilisant des modules LoRA (Low-Rank Adaptation) :

Fine-tuning partagé (Shared) : Un seul module LoRA est entraîné sur l'ensemble des données disponibles.
Méthodes par jeu de données (Per-dataset) : Un module LoRA distinct est entraîné pour chaque jeu de données, puis combiné lors de la prévision.

Le problème identifié par les auteurs : Les méthodes "par jeu de données" supposent que chaque jeu de données correspond à une distribution unique. Or, un seul jeu de données de séries temporelles peut contenir plusieurs types de distributions (sous-domaines) dus à des changements de distribution (distribution shifts) ou à des différences entre les dimensions multivariées. Entraîner un module unique par jeu de données force le modèle à apprendre des caractéristiques hétérogènes, ce qui peut nuire à la spécialisation et à la précision des prévisions.

2. Méthodologie : MixFT

Les auteurs proposent MixFT (Mixtures Fine-Tuning), une méthode qui ne se base pas sur les frontières des jeux de données, mais sur la découverte de sous-domaines latents au sein des données.

A. Principes Fondamentaux

MixFT repose sur l'idée que les données d'ajustement peuvent être redéfinies en ensembles plus homogènes correspondant à des distributions abstraites (sous-domaines), telles que des motifs saisonniers spécifiques ou des niveaux de "pic" (spikiness).

B. Étapes de l'Algorithme

Encodage et Modélisation Bayésienne :
- Les fenêtres de contexte des séries temporelles sont d'abord encodées par le TSFM pré-entraîné pour obtenir des représentations vectorielles (embeddings).
- Un Modèle de Mélange Gaussien Bayésien (Bayesian GMM) est ajusté sur ces embeddings. Contrairement à un K-means classique, l'approche bayésienne (utilisant une inférence variationnelle de champ moyen) offre une meilleure stabilité et évite le surapprentissage (overfitting) lié à l'initialisation.
- Le modèle apprend $K$ composantes (sous-domaines) et leurs paramètres de distribution.
Redécoupage des Données (Re-partitioning) :
- Chaque point de données (fenêtre de contexte) est assigné à la composante du mélange la plus probable (sous-domaine).
- Les données sont ainsi redécoupées en $K$ ensembles $S_k$ , où chaque ensemble regroupe des données provenant potentiellement de différents jeux de données originaux, mais partageant la même distribution latente.
Entraînement des Modules LoRA :
- Un module LoRA distinct est entraîné sur chaque ensemble $S_k$ .
- Cela permet à chaque module de se spécialiser sur les caractéristiques d'un sous-domaine spécifique, réduisant les interférences destructrices entre tâches compétitives.
Prévision en Zéro-Shot :
- Lorsqu'une nouvelle série temporelle (contexte) arrive, MixFT l'encode et utilise le GMM pour identifier le sous-domaine le plus probable.
- Le module LoRA correspondant à ce sous-domaine est sélectionné pour effectuer la prévision.
- Cette sélection "dure" (hard assignment) est justifiée par le fait que les prévisions provenant de modules hors-distribution (OOD) sont souvent inexactes et peuvent dégrader la performance si elles sont mélangées.

3. Contributions Clés

Identification de l'optimalité des divisions de données : Les auteurs démontrent que diviser les données selon les étiquettes des jeux de données (dataset boundaries) n'est pas optimal pour le fine-tuning de modules spécialisés. La structure interne des données (sous-domaines) est plus pertinente.
Proposition de MixFT : Une nouvelle méthode utilisant des mélanges bayésiens pour identifier et entraîner des modules LoRA sur des sous-domaines plutôt que sur des jeux de données entiers. Cela permet également d'identifier le contexte du sous-domaine lors de la prévision en zéro-shot.
Évaluation empirique : Une étude comparative montrant que MixFT surpasse les méthodes existantes (Shared, Per-dataset) et que certaines méthodes par jeu de données peuvent même performer pire qu'un modèle non ajusté (Base).

4. Résultats Expérimentaux

Les expériences ont été menées sur les benchmarks Cloud et Gift-Eval, utilisant deux TSFMs de pointe : Chronos Bolt et Moirai-1.1-R.

Performance Globale : MixFT obtient le meilleur rang moyen sur tous les jeux de données de test, surpassant les méthodes "Shared", "Per-dataset" (comme $\mu$ -Datasets, Arrow, Poly, MBC).
Comparaison avec la Base : Contrairement à la littérature sur les LLM où le fine-tuning améliore presque toujours les performances, de nombreuses méthodes de fine-tuning pour les séries temporelles échouent à surpasser le modèle pré-entraîné (Base). MixFT est l'une des rares méthodes à systématiquement améliorer les performances.
Analyse des Mélanges :
- L'analyse montre que MixFT identifie des motifs réalistes (ex: périodicité, volatilité de la fin de la fenêtre) au sein des données.
- Un seul jeu de données peut être réparti entre plusieurs sous-domaines (ce que les méthodes par jeu de données ne peuvent pas faire).
- La classification des sous-domaines est très confiante (faible entropie), justifiant l'utilisation d'une sélection de module unique plutôt que d'un mélange pondéré.
Ablations : L'utilisation d'un GMM bayésien s'avère supérieure à un K-means ou à des modèles de topics, et le nombre de composantes $K=2$ s'est révélé optimal dans les expériences.

5. Signification et Impact

Ce travail remet en question la pratique standard de traiter les jeux de données comme des blocs monolithiques pour l'adaptation des modèles de fondation.

Spécialisation accrue : En forçant le modèle à apprendre des caractéristiques cohérentes au sein de sous-domaines homogènes, MixFT réduit l'écart de généralisation (generalization gap) entre les données d'ajustement et les données de test.
Robustesse : La méthode est robuste aux changements de distribution au sein d'un même jeu de données.
Direction Future : MixFT suggère que l'avenir du fine-tuning des TSFMs réside dans la compartmentalisation intelligente des données basée sur la distribution latente, plutôt que sur la structure administrative des fichiers de données.

En résumé, MixFT démontre que la qualité de l'adaptation d'un modèle de fondation dépend moins de la quantité de données utilisées, mais plutôt de la cohérence distributionnelle de ces données par rapport au contexte de prévision cible.