Valid Feature-Level Inference for Tabular Foundation Models via the Conditional Randomization Test

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes un détective privé dans un monde où les suspects (les données) sont nombreux, mais où les règles du jeu ont changé. Autrefois, pour savoir si un suspect était coupable, on utilisait des règles mathématiques strictes et simples. Aujourd'hui, nous avons des super-intelligences artificielles (les "modèles fondation") qui peuvent prédire l'avenir avec une précision époustouflante, mais qui sont aussi opaques qu'une boîte noire. On sait qu'elles fonctionnent, mais on ne sait pas pourquoi.

Le problème ? Quand on demande à ces boîtes noires : "Est-ce que ce suspect précis (une variable) a vraiment un rôle dans le crime (la prédiction) ?", elles ne peuvent pas vous donner une réponse fiable avec une preuve légale (une valeur p). Elles disent juste : "C'est important, je le sens."

Voici comment l'article de Mohamed Salem résout ce mystère, en utilisant une méthode ingénieuse et une analogie simple.

1. Le Problème : La différence entre "Seul" et "En groupe"

Imaginons que vous essayez de prédire s'il va pleuvoir demain.

Variable A : Le niveau d'humidité de l'air.
Variable B : La couleur du ciel (bleu ou gris).

Si vous regardez la couleur du ciel seule, elle semble très importante. Mais si vous savez déjà que l'humidité est à 100 %, la couleur du ciel ne vous apprend plus rien de nouveau. C'est ce qu'on appelle la relevance conditionnelle (l'importance en sachant déjà les autres infos).

Les méthodes actuelles (comme les "valeurs de Shapley") sont comme des juges qui regardent les suspects un par un. Elles disent : "Le ciel gris est coupable !" sans se rendre compte que l'humidité est déjà là, assise à côté, et que c'est elle la vraie coupable. Elles confondent la culpabilité réelle avec la simple association.

2. La Solution : Le "Test de Randomisation Conditionnelle" (CRT)

L'auteur propose une méthode géniale pour tester la culpabilité réelle d'un suspect, appelée le Test de Randomisation Conditionnelle.

L'analogie du "Remplacement Magique" :
Imaginez que vous avez une équipe de joueurs (vos données) et que vous voulez savoir si le joueur numéro 7 est vraiment essentiel à la victoire de l'équipe.

Vous gardez tout le reste de l'équipe exactement comme il est.
Vous prenez le joueur numéro 7 et vous le remplacez par un sosie parfait, tiré au sort, mais qui respecte exactement les mêmes règles de comportement que le joueur original par rapport aux autres joueurs.
Vous regardez si l'équipe gagne toujours aussi bien avec le sosie.

Si l'équipe perd avec le sosie, c'est que le joueur original était vraiment important.
Si l'équipe gagne aussi bien avec le sosie, c'est que le joueur original n'était pas si spécial que ça.

C'est ce que fait le CRT : il remplace une variable par des versions "fictives" qui respectent les liens avec les autres variables, mais qui sont coupées du résultat final. Si la prédiction s'effondre après le remplacement, la variable est cruciale.

3. Le Super-Héros : TabPFN

Le problème avec cette méthode, c'est qu'il faut être capable de créer ces "sosies" parfaits. C'est très difficile si les données sont compliquées (non linéaires, mélangées). C'est là qu'intervient TabPFN.

L'analogie du "Chef Cuisinier Universel" :
Imaginez un chef cuisinier (TabPFN) qui a goûté à des millions de recettes différentes avant même d'entrer dans votre cuisine. Il n'a pas besoin de réapprendre à cuisiner pour votre plat spécifique.

Il peut instantanément deviner : "Si je connais les ingrédients A, B et C, quelle est la probabilité que l'ingrédient D soit présent ?"
Il peut aussi dire : "Si je connais A, B et C, quelle est la probabilité que le plat soit salé ?"

Grâce à ce chef cuisinier (TabPFN), on peut générer ces "sosies" de données instantanément, sans avoir besoin de réentraîner le modèle à chaque fois. C'est comme si le détective avait un assistant qui pouvait simuler des milliers de scénarios alternatifs en une seconde.

4. Le Résultat : Des preuves solides, pas juste des intuitions

En combinant le "Remplacement Magique" (CRT) avec le "Chef Cuisinier Universel" (TabPFN), l'article montre qu'on peut enfin :

Obtenir des preuves légales (des valeurs p) : On peut dire avec certitude statistique : "Il y a 95 % de chances que cette variable soit vraiment importante."
Gérer le chaos : Même si les données sont bizarres, non linéaires ou très corrélées (comme des suspects qui se ressemblent tous), la méthode tient bon.
Éviter les faux positifs : On ne accuse plus à tort des variables qui ne sont importantes que parce qu'elles ressemblent à d'autres.

En résumé

C'est comme passer d'une enquête basée sur des "intuitions de détective" (les méthodes actuelles) à une enquête basée sur des expériences scientifiques contrôlées.

L'auteur nous dit : "Vous n'avez plus besoin de choisir entre un modèle super puissant (qui prédit bien) et un modèle compréhensible (qui explique pourquoi). Avec TabPFN et ce test, vous pouvez avoir les deux."

C'est une avancée majeure pour la science des données responsable : on peut maintenant utiliser les intelligences artificielles les plus puissantes tout en restant honnêtes et rigoureux sur ce qu'elles nous disent vraiment.

Each language version is independently generated for its own context, not a direct translation.

Résumé Technique : Inférence au niveau des caractéristiques pour les modèles de base tabulaires

1. Problématique

L'apprentissage automatique moderne, bien que très performant en prévision, souffre d'un manque fondamental de garanties statistiques rigoureuses. Contrairement aux modèles statistiques classiques (linéaires, GLM) qui fournissent naturellement des tests d'hypothèses et des intervalles de confiance, les modèles "boîte noire" (réseaux de neurones, ensembles, modèles de base) ne produisent que des prédictions.

Les méthodes d'interprétation actuelles, telles que les valeurs de Shapley (SHAP), sont principalement descriptives et non inférentielles. Elles quantifient la contribution d'une caractéristique à la sortie d'un modèle spécifique, mais ne permettent pas de tester si cette contribution est statistiquement significative, ni de distinguer la pertinence marginale de la pertinence conditionnelle. De plus, ces méthodes manquent souvent de garanties formelles, surtout en présence de corrélations entre les variables.

L'objectif est de répondre à la question suivante : Une covariable donnée $X_j$ apporte-t-elle une information sur la cible $Y$ au-delà de ce qui est déjà expliqué par les autres variables $X_{-j}$ ? Cela nécessite un test d'indépendance conditionnelle valide, même pour des échantillons de taille finie et des relations non linéaires.

2. Méthodologie

L'article propose une procédure combinant le Test de Randomisation Conditionnelle (CRT) avec TabPFN, un modèle de fondation probabiliste pour les données tabulaires.

A. Le Cadre du CRT
Le CRT, formalisé par Candes et al. (2017), teste l'hypothèse nulle $H_0 : Y \perp\!\!\!\perp X_j | X_{-j}$ .

Principe : Il remplace les valeurs observées de la caractéristique $X_j$ par des échantillons tirés de sa distribution conditionnelle $p(X_j | X_{-j})$ , tout en préservant la structure de dépendance entre les autres covariables.
Statistique de test : On compare une statistique calculée sur les données originales avec celle calculée sur des jeux de données où $X_j$ a été randomisé.
Validité : Sous l'hypothèse nulle, la statistique observée est échangeable avec les statistiques nulles, garantissant des valeurs-p valides pour des échantillons de taille finie, sans hypothèses paramétriques.

B. L'Intégration de TabPFN
Le défi majeur du CRT est d'estimer précisément $p(X_j | X_{-j})$ , surtout dans des contextes non linéaires et de types mixtes. L'article utilise TabPFN pour résoudre ce problème :

Modélisation de $p(Y|X)$ : TabPFN est utilisé pour évaluer la qualité prédictive (via la densité de prédiction postérieure).
Modélisation de $p(X_j | X_{-j})$ : Un second modèle TabPFN est entraîné pour approximer la distribution conditionnelle des covariables.
- Pour les caractéristiques continues : échantillonnage via les quantiles prédits.
- Pour les caractéristiques catégorielles : échantillonnage via les probabilités de classe prédites.
Statistique de test choisie : La Densité de Prédiction Logarithmique Espérée (ELPD). C'est une règle de score propre qui mesure la qualité prédictive du modèle sur l'ensemble de test.

Procédure :

Ajuster TabPFN pour estimer $Y|X$ et $X_j|X_{-j}$ .
Calculer la statistique observée $T_{obs}$ (ELPD) sur les données réelles.
Générer $B$ échantillons nuls en remplaçant $X_j$ par des valeurs tirées de $p(X_j | X_{-j})$ .
Recalculer la statistique pour chaque échantillon nul.
Calculer la valeur-p : $p = \frac{1 + \sum I(T^{(b)} \ge T_{obs})}{B + 1}$ .

3. Contributions Clés

Première intégration d'un modèle de fondation (TabPFN) dans le cadre CRT : Utilisation d'un modèle pré-entraîné capable d'inférence bayésienne "in-context" sans réentraînement spécifique pour la tâche.
Validité en échantillon fini : La méthode fournit des valeurs-p valides même pour de petits échantillons, sans dépendre d'approximations asymptotiques.
Flexibilité non paramétrique : La procédure fonctionne efficacement sur des données non linéaires, corrélées, et de types mixtes (continus/catégoriels), là où les tests classiques échouent.
Distinction Pertinence Conditionnelle vs Marginale : Contrairement aux méthodes d'attribution post-hoc, cette approche isole strictement l'information unique apportée par une variable.

4. Résultats Expérimentaux

Les auteurs ont évalué la méthode sur une suite de 11 générateurs de données synthétiques couvrant des régimes linéaires, non linéaires, avec interactions et corrélations.

Contrôle de l'erreur de type I : La méthode maintient un contrôle robuste du taux d'erreur de type I (taux de faux positifs) proche du niveau nominal ( $\alpha = 0.05$ $α = 0.05$ ) dans la plupart des scénarios (linéaire, Friedman 1, XOR).
- Observation : Une légère inflation de l'erreur de type I est observée dans des cas très spécifiques (ex: signal faible ou corrélations complexes), suggérant que la qualité de l'approximation de $p(X_j | X_{-j})$ est critique.
Puissance de détection : La méthode atteint une puissance de détection de 100% (détection parfaite) dans 8 des 11 scénarios, y compris pour des signaux faibles et des interactions complexes (XOR).
Calibration : Les distributions cumulées empiriques (ECDF) des valeurs-p pour les variables non pertinentes suivent une loi uniforme, confirmant la validité de la calibration.
Limites de puissance : Une puissance réduite est notée pour des formes non linéaires très complexes (Friedman 2 et 3), indiquant que l'approximation de la distribution conditionnelle par TabPFN peut parfois être insuffisante pour capturer des structures de dépendance très fines.

5. Signification et Conclusion

Cet article démontre qu'il est possible de fusionner la flexibilité des modèles de fondation modernes avec la rigueur des cadres statistiques classiques.

Impact : Cela permet d'obtenir des inférences statistiques valides (valeurs-p) sans sacrifier la puissance de prédiction des modèles complexes.
Avantage pratique : Grâce à TabPFN, la procédure évite le réentraînement itératif coûteux des modèles génératifs pour chaque test de caractéristique, rendant l'approche plus efficace que les méthodes CRT précédentes basées sur des GANs ou des réseaux de densité.
Perspectives : Bien que la méthode soit actuellement limitée par la capacité de calcul pour de très grands ensembles de données et dépende de la qualité de l'approximation conditionnelle, elle ouvre la voie à une science des données responsable où les décisions basées sur l'IA sont accompagnées de garanties statistiques formelles.

En résumé, cette approche transforme les modèles de boîte noire en outils d'inférence statistique fiables, capables de distinguer la corrélation de la causalité conditionnelle dans des environnements de données complexes.

Valid Feature-Level Inference for Tabular Foundation Models via the Conditional Randomization Test

1. Le Problème : La différence entre "Seul" et "En groupe"

2. La Solution : Le "Test de Randomisation Conditionnelle" (CRT)

3. Le Super-Héros : TabPFN

4. Le Résultat : Des preuves solides, pas juste des intuitions

En résumé

Résumé Technique : Inférence au niveau des caractéristiques pour les modèles de base tabulaires

1. Problématique

2. Méthodologie

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Conclusion

Articles similaires

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers