Not Another Imputation Method: A Transformer-based Model for Missing Values in Tabular Datasets

Ce papier présente NAIM, un modèle basé sur les transformers qui traite directement les valeurs manquantes dans les données tabulaires sans imputation traditionnelle, en utilisant des embeddings spécifiques aux caractéristiques et un mécanisme d'attention masqué modifié, surpassant ainsi plusieurs modèles de pointe sur cinq jeux de données publics.

Camillo Maria Caruso, Paolo Soda, Valerio Guarrasi

Publié 2026-03-13
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🌧️ Le Problème : La Cuisine avec des Ingrédients Manquants

Imaginez que vous êtes un chef cuisinier (c'est votre intelligence artificielle) et que vous devez préparer un délicieux plat (c'est la prédiction ou la décision à prendre). Pour cela, vous avez une recette qui demande des ingrédients précis : des tomates, du sel, du poivre, etc.

Mais voici le hic : dans votre cuisine, certains ingrédients sont manquants.

  • Parfois, un client oublie de dire s'il est allergique au gluten (donnée manquante).
  • Parfois, un capteur de température tombe en panne pendant une mesure.
  • Parfois, une personne refuse de répondre à une question dans un sondage.

Dans le monde de l'intelligence artificielle traditionnelle, quand il manque un ingrédient, le chef est obligé de faire une devinette. Il va dire : "Bon, comme il manque du sel, je vais mettre un peu de sel par défaut, ou peut-être que c'est comme du sucre, je vais essayer de deviner ce qu'il y avait."

C'est ce qu'on appelle l'imputation. Le problème, c'est que si vous devinez mal, votre plat sera raté. De plus, vous passez beaucoup de temps à deviner au lieu de cuisiner.

🚀 La Solution : NAIM, le Chef qui Accepte le Vide

Les auteurs de cet article ont créé un nouveau modèle appelé NAIM (Not Another Imputation Method - "Pas encore une autre méthode d'imputation").

Au lieu de deviner ce qui manque, NAIM a une philosophie différente : "Si l'ingrédient n'est pas là, on ne le met pas dans la casserole, et on cuisine quand même avec ce qu'on a."

Pour y arriver, NAIM utilise deux super-pouvoirs magiques :

1. Les Étiquettes Magiques (Les "Embeddings")

Imaginez que chaque ingrédient (chaque colonne de votre tableau de données) a sa propre étiquette spéciale.

  • Si l'ingrédient est là, l'étiquette dit : "Voici la tomate !".
  • Si l'ingrédient manque, l'étiquette ne dit pas "Je devine que c'est une pomme". Elle dit simplement : "Je suis vide".
  • NAIM comprend parfaitement cette étiquette "vide". Il ne panique pas. Il sait exactement comment traiter un ingrédient manquant sans avoir besoin de le remplacer par un faux.

2. Le Masque de Ninja (L'Attention Masquée)

C'est la partie la plus géniale. Imaginez que NAIM est un ninja qui lit votre recette.

  • Normalement, un chef regarde toute la recette et essaie de tout mélanger. Si un ingrédient manque, il essaie de le deviner et cela gâche le mélange.
  • NAIM, lui, porte un masque de ninja. Quand il voit un ingrédient manquant, il met un masque noir dessus.
  • Ce masque dit au cerveau de l'IA : "Oublie complètement cette case. Ne la regarde pas, ne l'utilise pas pour calculer le goût, ne la laisse pas influencer les autres ingrédients."
  • Résultat : L'IA se concentre uniquement sur les ingrédients présents. Elle ne se trompe pas en essayant de deviner le vide.

🎭 L'Entraînement : Le Jeu de la Chaise Musique

Pour que ce chef (NAIM) soit aussi bon, il faut l'entraîner. Mais il y a un problème : si on l'entraîne seulement avec des recettes complètes, il ne saura pas gérer les manques le jour où il cuisinera pour de vrai.

Les auteurs ont inventé une technique d'entraînement géniale : le "Jeux des Chaises Musicales".

  • Pendant l'entraînement, à chaque fois qu'ils donnent une recette à NAIM, ils cachent au hasard certains ingrédients, même si la recette était complète au départ.
  • NAIM doit apprendre à cuisiner un plat parfait même si, soudainement, le sel ou le poivre disparaît de la table.
  • Cela le rend super résistant. Peu importe si 10% ou 75% des ingrédients manquent, il sait s'adapter et donner un excellent résultat.

🏆 Le Résultat : Pourquoi c'est mieux ?

Les chercheurs ont testé NAIM sur 5 grands jeux de données (comme des bases de données de banques, de supermarchés, de santé, etc.) et l'ont comparé à 11 autres méthodes célèbres (des experts en cuisine).

Le verdict est sans appel :

  • Les autres méthodes (qui devinent les ingrédients manquants) font souvent des erreurs ou perdent du temps.
  • NAIM gagne presque toujours. Il est plus précis, plus rapide et surtout, il ne se trompe pas en inventant des données qui n'existent pas.

En Résumé

Imaginez que vous essayez de résoudre un puzzle.

  • Les anciennes méthodes essaient de dessiner les pièces manquantes pour que le puzzle soit complet, mais elles se trompent souvent de dessin.
  • NAIM, lui, prend le puzzle tel quel. Il regarde les pièces qui sont là, ignore les trous, et arrive à deviner l'image finale avec une précision incroyable, sans jamais avoir besoin de dessiner une fausse pièce.

C'est une révolution pour l'intelligence artificielle : on n'a plus besoin de "réparer" les données avant de les utiliser. On peut les utiliser telles quelles, même si elles sont abîmées.