Distributional Regression with Tabular Foundation Models: Evaluating Probabilistic Predictions via Proper Scoring Rules

Each language version is independently generated for its own context, not a direct translation.

🎲 Le Pari de la Prévision : Pourquoi "la moyenne" ne suffit plus

Imaginez que vous êtes un chef cuisinier. Pendant des années, pour prédire combien de clients viendraient au restaurant, vous utilisiez une seule règle : "Regardez le passé, faites la moyenne, et servez ce chiffre."

Si hier il y avait eu 100 clients et avant-hier 200, vous prévoyiez 150 clients. C'est simple, c'est efficace, et c'est ce que font la plupart des modèles d'intelligence artificielle actuels pour les tableaux de données (les "TabPFN").

Mais voici le problème : La vie réelle n'est pas une moyenne. Parfois, il y a deux pics de clients (un à midi, un le soir), et 150 clients, c'est un chiffre qui n'arrive jamais ! Si vous préparez juste pour 150, vous serez soit en manque, soit avec trop de gaspillage.

Ce papier de recherche dit : "Arrêtons de nous contenter de deviner un seul chiffre. Apprenons à prédire toute la distribution des possibilités."

1. Le Problème : La "Moyenne" est un menteur

Les chercheurs disent que les benchmarks (les classements de performance) actuels sont obsolètes. Ils jugent les modèles sur leur capacité à deviner la moyenne (comme le nombre moyen de clients).

L'analogie du dé à 6 faces :
Imaginez que vous lancez un dé.

La moyenne est de 3,5.
Mais si vous dites à quelqu'un : "Le prochain résultat sera 3,5", vous avez tort ! Un dé ne tombe jamais sur 3,5. Il tombe sur 1, 2, 3, 4, 5 ou 6.

Les modèles actuels essaient de prédire ce "3,5" impossible. Le papier explique que pour les modèles modernes (comme TabPFN), il faut prédire l'histogramme complet : "Il y a 16% de chances d'avoir 1, 16% pour 2, etc." C'est ce qu'on appelle la régression distributionnelle.

2. La Solution : Les "Règles de Jeu" (Scoring Rules)

Si on ne veut plus juger sur la moyenne, comment juge-t-on la qualité d'une prédiction probabiliste ? C'est là qu'interviennent les Règles de Jeu Proper (Proper Scoring Rules).

Imaginez que vous êtes un arbitre de football.

Si vous utilisez la règle "Moyenne Quadratique" (MSE), vous punissez énormément les erreurs lointaines. C'est comme si vous disiez : "Si tu te trompes de 10 mètres, c'est une faute grave, mais si tu te trompes de 1 mètre, c'est négligeable." Cela force le modèle à viser le centre exact, mais il peut ignorer les extrêmes.
Si vous utilisez la règle CRPS (le sujet principal du papier), c'est comme un arbitre qui regarde toute la courbe. Il vérifie si la forme de votre prédiction correspond à la réalité, pas juste si le point central est bon.

L'idée clé : Le choix de la règle de jeu change la façon dont le modèle apprend.

Si vous entraînez un modèle avec la règle "Moyenne", il deviendra un expert pour trouver le centre, mais il sera mauvais pour prédire les catastrophes rares.
Si vous l'entraînez avec la règle CRPS, il apprendra à dessiner la bonne "forme" de la distribution, comme un peintre qui capture les nuances plutôt qu'un photographe qui ne voit que le centre.

3. Les Résultats : Qui gagne le match ?

Les auteurs ont testé deux modèles d'IA de pointe (TabPFN et TabICL) sur de nombreux jeux de données réels (prix de maisons, ventes, etc.).

Le constat : Les modèles pré-entraînés sont déjà très bons, mais ils sont optimisés pour des règles de jeu anciennes (la moyenne).
L'expérience : Ils ont pris ces modèles et les ont "affinés" (fine-tuning) avec de nouvelles règles de jeu (comme le CRPS ou l'Energy Score).
Le résultat : En changeant simplement la règle de jeu utilisée pour l'entraînement, les modèles sont devenus meilleurs pour prédire les incertitudes. Ils ne donnent plus juste un chiffre, ils disent : "Il y a 80% de chances que le prix soit entre 200k et 250k, et 20% qu'il soit très bas."

C'est comme passer d'un GPS qui vous dit "Tournez à gauche" (un seul point) à un GPS qui vous dit "Il y a un embouteillage probable ici, mais une route alternative possible là-bas".

4. Pourquoi c'est important pour vous ?

Ce papier nous apprend une leçon fondamentale : Il n'y a pas de "meilleur" modèle universel.

Tout dépend de ce que vous voulez éviter :

Si vous êtes une banque et que vous voulez éviter de perdre de l'argent, vous voulez un modèle qui pénalise sévèrement les pertes (une règle de jeu asymétrique).
Si vous êtes un météorologue, vous voulez un modèle qui prédit bien les tempêtes rares, même si ça veut dire avoir plus d'erreurs sur les jours de beau temps.

La conclusion du papier :
Ne demandez pas à l'IA "Quelle est la moyenne ?". Demandez-lui : "Quelle est la probabilité de chaque scénario, et quelle règle de jeu correspond à mes besoins ?"

En résumé, ce papier est un appel à arrêter de regarder seulement le centre de la cible et à commencer à regarder toute la cible, en choisissant la bonne règle pour juger les fléchettes.

Each language version is independently generated for its own context, not a direct translation.

Résumé Technique

1. Problématique

L'émergence récente des Réseaux Ajustés aux Données Antérieures (Prior-Data Fitted Networks - PFNs), tels que TabPFN et TabICL, a révolutionné l'apprentissage profond sur les données tabulaires en utilisant l'apprentissage en contexte (in-context learning). Ces modèles sont conçus comme des modèles de base (foundation models) pour la classification et la régression.

Cependant, les auteurs identifient une faiblesse majeure dans les benchmarks actuels (comme TabArena ou TALENT) pour la régression :

Biais vers l'estimation ponctuelle : Les évaluations se concentrent presque exclusivement sur des métriques de point unique comme l'erreur quadratique moyenne (MSE), la racine de l'erreur quadratique moyenne (RMSE) ou le coefficient de détermination ( $R^2$ ).
Conséquence : Ces métriques poussent les chercheurs à optimiser uniquement pour l'estimation de la moyenne conditionnelle (l'estimateur de Bayes associé à la perte MSE).
Limitation fondamentale : Cette approche ignore l'incertitude aléatoire (aleatoric uncertainty) et échoue à capturer des distributions complexes (ex: multimodales). Une estimation de la moyenne peut tomber dans une région de probabilité nulle (ex: la moyenne d'un dé à 6 faces est 3,5, ce qui n'est jamais un résultat possible), rendant la prédiction inutile pour la prise de décision.

L'article plaide pour le passage d'une régression ponctuelle à une régression distributionnelle complète, où le modèle prédit une distribution de probabilité (un histogramme ou une fonction de densité discrétisée) plutôt qu'une seule valeur.

2. Méthodologie

Les auteurs proposent une approche centrée sur l'utilisation de règles de score propres (Proper Scoring Rules) pour évaluer et entraîner les modèles de régression distributionnelle.

Règles de Score Propres : Une règle de score $S$ est dite "stricte" si elle est minimisée en espérance uniquement lorsque la distribution prédite correspond à la distribution réelle. L'article explore plusieurs règles :
- Log-Score (Entropie Croisée) : Très sensible aux queues de distribution, pénalise sévèrement les observations à faible densité.
- CRPS (Continuous Ranked Probability Score) : Mesure la distance entre la fonction de répartition prédite et la valeur observée. Il est plus robuste aux valeurs aberrantes et évalue la masse de probabilité globale.
- CRLS (Continuous Ranked Logarithmic Scoring Rule) : Une variante logarithmique du CRPS.
- Beta-Energy Score ( $S_\beta$ ) : Une famille de scores paramétrables où $\beta$ contrôle la sensibilité aux erreurs (ex: $\beta=1$ favorise la médiane, $\beta=2$ favorise la moyenne).
Expérimentations et Finetuning :
- Les auteurs ont adapté le code de finetuning de realTabPFNv2.5 pour entraîner le modèle avec des fonctions de perte personnalisées (Beta-Energy Score, CRLS) au lieu des pertes standards.
- Ils ont également évalué TabICLv2 (qui utilise déjà des approches distributionnelles) sur ces mêmes métriques.
- Données : Évaluation sur un ensemble diversifié de datasets OpenML (environ 3000 échantillons par dataset, validation croisée 5 plis).
- Comparaison : Baseline (TabPFNv2.5 pré-entraîné) vs Modèles finetunés vs TabICLv2.
Étude de Cas Théorique (Toy Model) :
- Utilisation d'un modèle factice avec une distribution cible bimodale pour démontrer que le choix de la règle de score change l'induction bias (biais inductif) du modèle.
- Démonstration analytique que pour une distribution de Dirac, le score d'énergie avec $\beta=1$ minimise l'erreur absolue moyenne (médiane), tandis que $\beta=2$ minimise l'erreur quadratique moyenne (moyenne).

3. Contributions Clés

Proposition de nouveaux benchmarks : Appel à l'intégration de métriques probabilistes (principalement le CRPS) dans les benchmarks de régression tabulaire pour remplacer ou compléter les métriques ponctuelles.
Évaluation empirique : Première évaluation comparative de realTabPFNv2.5 et TabICLv2 basée sur des règles de score propres (CRPS, Beta-Energy Score, CRLS).
Preuve de l'impact du Finetuning : Démonstration que le finetuning de TabPFNv2.5 avec des scores spécifiques (Beta-Energy $\beta=1.8$ ou CRLS) améliore les performances probabilistes sur la majorité des datasets.
Analyse du Biais Inductif : Mise en évidence théorique et empirique que le choix de la règle de score détermine la nature de l'erreur minimisée, affectant ainsi le classement des modèles et leur adéquation à des cas d'usage spécifiques (ex: finance où les pertes asymétriques sont critiques).
Discussion sur l'adaptation : Identification du conflit entre un modèle de base "généraliste" (non modifié après pré-entraînement) et la nécessité d'optimiser pour des règles de score spécifiques à un cas d'usage utilisateur.

4. Résultats

Amélioration par Finetuning :
- Le finetuning de realTabPFNv2.5 avec le Beta-Energy Score ( $\beta=1.8$ ) a entraîné des améliorations modestes mais constantes sur la plupart des métriques (MAE, RMSE, CRPS) par rapport à la version de base.
- Le finetuning avec CRLS a également montré des gains, notamment sur le CRPS et le Interval Score.
Performance de TabICLv2 :
- TabICLv2 surpasse systématiquement realTabPFNv2.5 (même finetuné) sur les métriques probabilistes (CRPS, CRLS, Interval Score) sur la majorité des datasets.
- Les gains sont particulièrement marqués sur des datasets complexes comme Mercedes Benz ou Pol, bien que des pertes soient observées sur certains datasets spécifiques (ex: Puma8NH).
Impact du choix du Score :
- L'étude sur le modèle factice (Toy Model) confirme que le "meilleur" modèle dépend de la règle de score choisie. Un modèle optimisé pour le CRPS peut être inférieur à un modèle optimisé pour le Log-Score sur une métrique spécifique, et vice-versa.
- Cela illustre que l'induction bias change selon la fonction de perte, même si les deux sont des règles de score propres.

5. Signification et Perspectives

Changement de paradigme : L'article marque un tournant vers l'évaluation de la qualité des prévisions probabilistes complètes plutôt que de simples points. Cela est crucial pour les applications où l'incertitude est aussi importante que la valeur attendue (météo, finance, production pharmaceutique).
Adaptabilité aux risques asymétriques : Les auteurs soulignent que les règles de score standards (comme le CRPS non pondéré) peuvent ne pas convenir à tous les cas d'usage. Par exemple, en finance, une erreur de prédiction vers le bas peut être plus coûteuse qu'une erreur vers le haut.
Voies futures :
- Nécessité de développer des mécanismes de finetuning ou d'apprentissage par prompt permettant aux modèles de base de s'adapter dynamiquement à des règles de score spécifiques fournies par l'utilisateur (ex: CRPS pondéré, Interval Score).
- Exploration de l'utilisation de "tokens de tâche" pour conditionner le modèle sur la fonction d'utilité désirée.
Limites : La minimisation de l'espérance d'une règle de score reste difficile pour les événements rares (queues de distribution) en raison de l'incertitude épistémique (manque de données d'entraînement dans ces régions).

En conclusion, cet article plaide pour une refonte des pratiques de benchmarking et d'entraînement des modèles de fondation tabulaires, en intégrant explicitement des règles de score propres pour garantir que les modèles apprennent non seulement la moyenne, mais toute la structure de la distribution conditionnelle, adaptée aux besoins spécifiques de l'utilisateur.

Distributional Regression with Tabular Foundation Models: Evaluating Probabilistic Predictions via Proper Scoring Rules

🎲 Le Pari de la Prévision : Pourquoi "la moyenne" ne suffit plus

1. Le Problème : La "Moyenne" est un menteur

2. La Solution : Les "Règles de Jeu" (Scoring Rules)

3. Les Résultats : Qui gagne le match ?

4. Pourquoi c'est important pour vous ?

Résumé Technique

1. Problématique

2. Méthodologie

3. Contributions Clés

4. Résultats

5. Signification et Perspectives

Articles similaires

Exploring AI in Fashion: A Review of Aesthetics, Personalization, Virtual Try-On, and Forecasting

Rule Extraction in Machine Learning: Chat Incremental Pattern Constructor

Inverse classification with logistic and softmax classifiers: efficient optimization

BarcodeBERT: Transformers for Biodiversity Analysis

On Minimal Depth in Neural Networks