Discrete Tokenization Unlocks Transformers for Calibrated Tabular Forecasting

Each language version is independently generated for its own context, not a direct translation.

Le Problème : Pourquoi les "Super-Ordinateurs" échouent sur les tableaux de données

Imaginez que vous voulez prédire le temps qu'un coureur va mettre pour finir un marathon.

L'ancienne méthode (XGBoost) : C'est comme un vieux coach très expérimenté qui regarde des tableaux Excel. Il dit : "Si la température est supérieure à 20°C et que le coureur a moins de 30 ans, alors il court à 4 min/km". Il coupe le monde en cases très nettes. C'est très efficace, mais un peu rigide.
La nouvelle méthode (Transformers) : C'est comme un génie de l'intelligence artificielle capable de tout comprendre, mais qui a tendance à être trop "lisse". Il essaie de trouver des moyennes partout et rate les détails bizarres et irréguliers des vraies courses (comme un coup de vent soudain ou une fatigue imprévue).

Jusqu'à présent, le vieux coach (XGBoost) gagnait toujours contre le génie (Transformers) sur ce type de données.

La Solution : Le "Tokeniseur Discret" (Le jeu des cases)

L'auteur, Yael Elmatad, a eu une idée brillante : au lieu de demander au génie de deviner un chiffre précis (ex: 4 min 12 sec), on lui demande de choisir une case.

Imaginez que vous avez une règle graduée. Au lieu de dire "le coureur va faire 4 min 12,34 sec", on dit : "Il va faire entre 4 min 10 et 4 min 15".

On transforme toutes les données (météo, âge, temps) en mots (des "tokens").
Le modèle apprend alors à lire une histoire : "Voici la météo, voici l'âge, voici le temps passé depuis la dernière course... et maintenant, dans quelle case de temps se trouve le résultat ?"

C'est comme si on transformait un problème de mathématiques compliqué en un jeu de lecture de phrases.

L'Innovation Magique : La "Pâte à Modeler" (Lissage Gaussien)

C'est ici que ça devient vraiment astucieux.
Si le modèle devine la case "4 min 10-15" alors que le vrai temps était "4 min 14", c'est presque juste. Mais si le vrai temps était "4 min 16" (la case suivante), c'est aussi presque juste.

Au lieu de dire "Tu as faux" ou "Tu as juste", l'auteur utilise une technique appelée lissage gaussien.

Imaginez que vous lancez une boule de pâte à modeler sur la règle.
Si le vrai temps est au milieu d'une case, la pâte s'étale un peu sur les cases voisines.
Cela permet au modèle d'apprendre que les cases voisines sont aussi importantes. Cela évite au modèle d'être trop rigide et lui permet de comprendre la "probabilité" (la chance) que le coureur finisse dans telle ou telle case.

De plus, ils adaptent la taille de cette "pâte" : si la case est très fine (1 seconde), la pâte est petite. Si la case est large (10 secondes), la pâte s'étale plus. C'est ce qu'on appelle le lissage adaptatif.

Les Résultats : Le Génie bat le Vieux Coach

Sur un énorme jeu de données avec 600 000 coureurs (5 millions de courses), ce nouveau système (RunTime) a fait mieux que le meilleur coach humain (XGBoost) :

Plus précis : Il se trompe en moyenne de 35,9 secondes, contre 40,3 secondes pour l'ancien modèle.
Plus honnête : Il ne donne pas juste un chiffre, il donne une probabilité. Il peut dire : "Il y a 80% de chances qu'il fasse entre 4h10 et 4h20, et 20% qu'il fasse 4h25". C'est beaucoup plus utile pour un entraîneur.
Plus rapide : Il a appris plus vite grâce à l'utilisation des "mots" pour le temps (les écarts de temps entre les courses).

L'Analogie Finale : Le Chroniqueur de Course

Imaginez que vous essayez de prédire le résultat d'une course.

L'ancien modèle vous dit : "Il va finir en 4h12". C'est précis, mais si il finit en 4h13, le modèle a "échoué".
Le nouveau modèle vous dit : "Il va probablement finir entre 4h10 et 4h15, avec une petite chance de finir en 4h20".
Grâce à sa capacité à lire l'histoire (l'ordre des courses passées) et à utiliser ces "cases" intelligentes, il comprend mieux les nuances. Il sait que si un coureur a couru il y a 2 semaines, il est plus frais que s'il a couru il y a 2 jours.

En résumé : Ce papier montre que pour prédire des résultats complexes (comme le temps d'une course, ou même des prévisions financières), il ne faut pas essayer de tout calculer avec des nombres précis. Il faut découper le monde en cases simples, utiliser l'intelligence artificielle pour lire l'histoire comme un livre, et accepter que l'avenir soit un peu flou (une distribution de probabilités) plutôt qu'un chiffre unique.

C'est une victoire de la simplification intelligente sur la complexité brute.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Malgré la flexibilité des Transformers, les modèles de type Gradient Boosting (notamment XGBoost) dominent encore les benchmarks sur les données tabulaires.

La cause du problème : Les arbres de décision créent naturellement des frontières de décision discrètes et alignées sur les axes, ce qui correspond bien aux régimes discrets des données tabulaires. En revanche, les réseaux de neurones sont des approximeurs de fonctions lisses qui peinent à capturer ces motifs irréguliers.
Le défi spécifique : La tâche consiste à prédire la vitesse (pace) d'un coureur de marathon en fonction de son historique de courses, des conditions environnementales (météo, température), de la démographie et des écarts temporels irréguliers entre les courses. L'objectif n'est pas seulement une estimation ponctuelle, mais la prédiction d'une fonction de densité de probabilité (PDF) calibrée.

2. Méthodologie : RunTime

L'auteur propose une approche nommée RunTime qui transforme le problème de régression tabulaire en un problème de modélisation de langage séquentiel via une tokenisation discrète.

A. Tokenisation Discrète et Stratégie d'Entrée

Discrétisation des entrées : Les variables continues (vitesse, température, humidité, vent) sont binnées via une quantification équilibrée (basée sur les quantiles) pour créer un vocabulaire discret. Cela imite la façon dont les arbres de décision divisent l'espace.
Tokens temporels explicites : Contrairement aux approches standard, le modèle utilise des tokens spécifiques pour représenter les écarts de temps (semaines depuis la dernière course, semaines jusqu'à la cible). Ces tokens ne sont pas quantifiés mais encodés directement pour préserver l'information temporelle précise.
Structure de séquence : Chaque événement (course) est représenté comme un bloc de tokens : [Caractéristiques environnementales + Démographie][Vitesse][Delta Temps Suivant][Delta Temps Final]. Le modèle utilise une fenêtre de 327 tokens pour jusqu'à 30 événements.

A. Apprentissage avec Cibles Gaussiennes Adaptatives

Au lieu d'utiliser des cibles "one-hot" (classification dure) ou une régression classique :

Cibles douces (Soft Targets) : La prédiction est traitée comme une classification sur des bins, mais les cibles sont lissées par une intégration gaussienne. Cela préserve la structure ordinaire des bins (un bin voisin de la vraie valeur reçoit du crédit).
Lissage Adaptatif ( $\sigma_i$ ) : Au lieu d'un écart-type fixe, le papier propose un lissage adaptatif basé sur la largeur du bin ( $w_i$ ) :
$\sigma_i = \sqrt{\sigma_{floor}^2 + (k \cdot w_i)^2}$
Cela permet de garder les bins étroits (1-3 secondes) nets tout en appliquant un lissage proportionnel aux bins larges, évitant ainsi la perte d'information sur les valeurs extrêmes.

B. Architecture

Un Transformer causal (style décodeur) de 6 couches et 8 têtes d'attention.
L'attention est masquée pour respecter la causalité (le modèle ne voit que le passé).
L'entraînement utilise une fonction de perte d'entropie croisée lissée par Gaussienne.
Évaluation Entity-Disjoint : Les données sont divisées en ensembles d'entraînement, de validation et de test sans chevauchement d'entités (coureurs). Cela force le modèle à généraliser à de nouveaux individus plutôt qu'à mémoriser des trajectoires spécifiques.

3. Contributions Clés

Insight Architectural : Démonstration que ce sont les régimes discrets (via la tokenisation) et non la taille du modèle qui débloquent la performance des Transformers sur les données tabulaires.
Lissage Adaptatif : Introduction d'une méthode de lissage gaussien qui s'adapte dynamiquement à la largeur des bins, combinant la stabilité des bins étroits et la flexibilité des bins larges.
Représentation du Cadence : Utilisation explicite de tokens "time-delta" pour capturer les irrégularités temporelles, essentiel pour la généralisation sur des horizons longs.
Méthodologie d'Analyse : Mise en place d'une analyse de calibration stratifiée pour diagnostiquer les erreurs de calibration résiduelles, au-delà des métriques globales.

4. Résultats Expérimentaux

L'évaluation a été réalisée sur un jeu de données de 600 000 coureurs (5 millions d'exemples d'entraînement).

Performance (MAE) : RunTime bat un XGBoost optimisé de 10,8 % en erreur absolue médiane (MAE).
- RunTime : 35,94 s
- XGBoost (réglé) : 40,31 s
- Formule physique (Riegel) : 49,74 s
Calibration : Le modèle atteint un score de Kolmogorov-Smirnov (KS) de 0,0045 (très proche de la distribution uniforme idéale), prouvant que les PDFs prédites sont bien calibrées.
Ablations :
- Supprimer les tokens temporels augmente le MAE de ~1,8 %.
- Mélanger l'ordre chronologique des courses augmente le MAE de ~2,0 %, confirmant l'importance de la séquence temporelle.
- Le modèle converge plus vite avec les tokens temporels explicites (60h vs 107h).

5. Signification et Limites

Signification :
Ce travail prouve que les Transformers peuvent surpasser les méthodes de gradient boosting sur des données tabulaires complexes et irrégulières, à condition d'adopter une tokenisation discrète et une formation distributionnelle. Cela ouvre la voie à l'utilisation de Transformers pour des tâches de prévision où la quantification de l'incertitude (PDF) est cruciale (finance, énergie, santé).

Limites et Travaux Futurs :

Gestion des queues : Le modèle actuel manque de "bins de débordement" (overflow bins) pour gérer les valeurs extrêmes hors du vocabulaire discret.
Validation externe : Les résultats sont basés sur des données de course à pied ; une validation sur d'autres domaines (ex: MIMIC-IV) est nécessaire.
Extensions : Les auteurs envisagent d'appliquer cette tokenisation discrète aux entrées (et pas seulement aux sorties) et d'utiliser le modèle pour la génération de scénarios futurs (jumeaux numériques) via échantillonnage Monte Carlo.

En résumé, RunTime démontre que la combinaison de la tokenisation discrète, du lissage adaptatif et de la modélisation séquentielle permet aux Transformers de maîtriser la complexité des données tabulaires tout en fournissant des prévisions probabilistes calibrées.