Valid Feature-Level Inference for Tabular Foundation Models via the Conditional Randomization Test

Cet article propose une méthode pratique combinant le test de randomisation conditionnelle (CRT) et le modèle fondamental TabPFN pour obtenir des valeurs p valides à échantillon fini afin d'évaluer l'importance des caractéristiques dans des modèles tabulaires, sans nécessiter de réentraînement ni d'hypothèses paramétriques.

Mohamed Salem

Publié 2026-03-10
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes un détective privé dans un monde où les suspects (les données) sont nombreux, mais où les règles du jeu ont changé. Autrefois, pour savoir si un suspect était coupable, on utilisait des règles mathématiques strictes et simples. Aujourd'hui, nous avons des super-intelligences artificielles (les "modèles fondation") qui peuvent prédire l'avenir avec une précision époustouflante, mais qui sont aussi opaques qu'une boîte noire. On sait qu'elles fonctionnent, mais on ne sait pas pourquoi.

Le problème ? Quand on demande à ces boîtes noires : "Est-ce que ce suspect précis (une variable) a vraiment un rôle dans le crime (la prédiction) ?", elles ne peuvent pas vous donner une réponse fiable avec une preuve légale (une valeur p). Elles disent juste : "C'est important, je le sens."

Voici comment l'article de Mohamed Salem résout ce mystère, en utilisant une méthode ingénieuse et une analogie simple.

1. Le Problème : La différence entre "Seul" et "En groupe"

Imaginons que vous essayez de prédire s'il va pleuvoir demain.

  • Variable A : Le niveau d'humidité de l'air.
  • Variable B : La couleur du ciel (bleu ou gris).

Si vous regardez la couleur du ciel seule, elle semble très importante. Mais si vous savez déjà que l'humidité est à 100 %, la couleur du ciel ne vous apprend plus rien de nouveau. C'est ce qu'on appelle la relevance conditionnelle (l'importance en sachant déjà les autres infos).

Les méthodes actuelles (comme les "valeurs de Shapley") sont comme des juges qui regardent les suspects un par un. Elles disent : "Le ciel gris est coupable !" sans se rendre compte que l'humidité est déjà là, assise à côté, et que c'est elle la vraie coupable. Elles confondent la culpabilité réelle avec la simple association.

2. La Solution : Le "Test de Randomisation Conditionnelle" (CRT)

L'auteur propose une méthode géniale pour tester la culpabilité réelle d'un suspect, appelée le Test de Randomisation Conditionnelle.

L'analogie du "Remplacement Magique" :
Imaginez que vous avez une équipe de joueurs (vos données) et que vous voulez savoir si le joueur numéro 7 est vraiment essentiel à la victoire de l'équipe.

  1. Vous gardez tout le reste de l'équipe exactement comme il est.
  2. Vous prenez le joueur numéro 7 et vous le remplacez par un sosie parfait, tiré au sort, mais qui respecte exactement les mêmes règles de comportement que le joueur original par rapport aux autres joueurs.
  3. Vous regardez si l'équipe gagne toujours aussi bien avec le sosie.
  • Si l'équipe perd avec le sosie, c'est que le joueur original était vraiment important.
  • Si l'équipe gagne aussi bien avec le sosie, c'est que le joueur original n'était pas si spécial que ça.

C'est ce que fait le CRT : il remplace une variable par des versions "fictives" qui respectent les liens avec les autres variables, mais qui sont coupées du résultat final. Si la prédiction s'effondre après le remplacement, la variable est cruciale.

3. Le Super-Héros : TabPFN

Le problème avec cette méthode, c'est qu'il faut être capable de créer ces "sosies" parfaits. C'est très difficile si les données sont compliquées (non linéaires, mélangées). C'est là qu'intervient TabPFN.

L'analogie du "Chef Cuisinier Universel" :
Imaginez un chef cuisinier (TabPFN) qui a goûté à des millions de recettes différentes avant même d'entrer dans votre cuisine. Il n'a pas besoin de réapprendre à cuisiner pour votre plat spécifique.

  • Il peut instantanément deviner : "Si je connais les ingrédients A, B et C, quelle est la probabilité que l'ingrédient D soit présent ?"
  • Il peut aussi dire : "Si je connais A, B et C, quelle est la probabilité que le plat soit salé ?"

Grâce à ce chef cuisinier (TabPFN), on peut générer ces "sosies" de données instantanément, sans avoir besoin de réentraîner le modèle à chaque fois. C'est comme si le détective avait un assistant qui pouvait simuler des milliers de scénarios alternatifs en une seconde.

4. Le Résultat : Des preuves solides, pas juste des intuitions

En combinant le "Remplacement Magique" (CRT) avec le "Chef Cuisinier Universel" (TabPFN), l'article montre qu'on peut enfin :

  • Obtenir des preuves légales (des valeurs p) : On peut dire avec certitude statistique : "Il y a 95 % de chances que cette variable soit vraiment importante."
  • Gérer le chaos : Même si les données sont bizarres, non linéaires ou très corrélées (comme des suspects qui se ressemblent tous), la méthode tient bon.
  • Éviter les faux positifs : On ne accuse plus à tort des variables qui ne sont importantes que parce qu'elles ressemblent à d'autres.

En résumé

C'est comme passer d'une enquête basée sur des "intuitions de détective" (les méthodes actuelles) à une enquête basée sur des expériences scientifiques contrôlées.

L'auteur nous dit : "Vous n'avez plus besoin de choisir entre un modèle super puissant (qui prédit bien) et un modèle compréhensible (qui explique pourquoi). Avec TabPFN et ce test, vous pouvez avoir les deux."

C'est une avancée majeure pour la science des données responsable : on peut maintenant utiliser les intelligences artificielles les plus puissantes tout en restant honnêtes et rigoureux sur ce qu'elles nous disent vraiment.