Least trimmed squares regression with missing values and cellwise outliers

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple et imagée de ce papier de recherche, conçue pour être comprise par tout le monde, même sans être statisticien.

🕵️‍♂️ Le Problème : La Recette de Cuisine Gâtée

Imaginez que vous êtes un chef cuisinier (le statisticien) qui essaie de trouver la recette parfaite pour prédire le goût d'un plat (la variable à expliquer, par exemple le taux de mortalité par cancer). Vous avez un grand livre de recettes avec des milliers d'exemples (les données).

Habituellement, on utilise une méthode classique (comme les "Moindres Carrés Ordinaires" ou OLS) qui consiste à prendre la moyenne de tous les exemples pour trouver la recette.

Mais il y a deux gros problèmes avec les données réelles :

Les lignes entières sont fausses (Outliers par cas) : Imaginez qu'un cuisinier a écrit "100 kg de sel" au lieu de "100 grammes" pour tout un plat. Si vous incluez ce plat dans votre moyenne, votre recette sera ruinée.
Les cases individuelles sont fausses (Outliers par cellule) : C'est le vrai casse-tête de ce papier. Imaginez que dans une recette normale, quelqu'un a effacé le mot "sucre" et écrit "sable" à la place, ou a laissé une case vide. Le plat est presque correct, mais cette une seule erreur gâche tout si on ne la repère pas. De plus, certaines pages du livre sont déchirées (données manquantes).

Les méthodes actuelles sont bonnes pour repérer les plats entiers gâtés, mais elles paniquent dès qu'une seule case est fausse ou manquante.

🛠️ La Solution : La Méthode "CellLTS" (Le Détective Robuste)

Les auteurs (Jakob Raymaekers et Peter Rousseeuw) proposent une nouvelle méthode en deux étapes, qu'ils appellent CellLTS. Voici comment elle fonctionne, avec des analogies :

Étape 1 : Le Nettoyage Intelligent (Avant de cuisiner)

Avant même de chercher la recette, le détective nettoie les ingrédients.

Le miroir magique (Symétrisation) : Pour repérer les erreurs, la méthode crée des "miroirs" des données. Elle compare chaque recette avec une autre recette similaire. Si une recette dit "100g de sel" et son miroir dit "100g de sable", le miroir révèle l'erreur. Cela aide à gérer les données qui ne sont pas "normales" (comme des distributions asymétriques).
Le détective des cases (CellMCD) : Au lieu de regarder le plat entier, le détective examine chaque ingrédient individuellement. Il repère les cases suspectes (ex: "400 ans" pour l'âge d'une personne !).
Le remède (Imputation) : Au lieu de jeter le plat entier parce qu'une case est fausse, le détective devine ce qui aurait dû être écrit là (par exemple, il remplace "400 ans" par l'âge moyen logique basé sur les autres ingrédients) et remplit les cases vides.

Étape 2 : La Cuisine Résistante (LTS)

Une fois les ingrédients nettoyés, on cherche la recette.

Le tri sélectif (Least Trimmed Squares) : Au lieu de prendre la moyenne de tous les plats, cette méthode dit : "Je vais ignorer les 25 % de plats les plus bizarres et je ne vais cuisiner qu'avec les 75 % les plus cohérents." Cela garantit que même s'il reste quelques erreurs cachées, la recette finale reste solide.

🔮 La Magie : Prédire l'Avenir (Même avec des données sales)

C'est ici que la méthode brille vraiment. Imaginez qu'un client vous demande de prédire le goût d'un nouveau plat qu'il n'a jamais vu, mais dont la fiche de recette est tachée et incomplète.

Les anciennes méthodes : Elles diraient "Je ne peux pas cuisiner avec des données sales" ou elles utiliseraient les données sales telles quelles, ce qui donnerait un résultat catastrophique.
La méthode CellLTS : Elle dit : "Attends, je vais d'abord nettoyer ta fiche de recette (repérer les erreurs, remplir les trous), et ensuite je te donnerai ma prédiction."

C'est comme si un assistant très intelligent nettoyait votre liste de courses avant que vous n'entriez au supermarché, assurant que vous ne rameniez pas de sable dans votre cuisine.

📊 Les Résultats : Pourquoi c'est important ?

Les auteurs ont testé leur méthode sur des données simulées (des fausses données avec des erreurs ajoutées) et sur de vraies données américaines concernant le cancer.

Sur les données simulées : CellLTS a été beaucoup plus précise que les autres méthodes pour trouver la vraie recette, même quand 20 % des cases étaient fausses.
Sur les données réelles (Cancer) : En regardant les données des comtés américains, la méthode a repéré des erreurs absurdes (comme des comtés avec un âge médian de 400 ans !).
- Exemple : Dans le comté de Williamsburg (Virginie), une donnée indiquait un taux de cancer énorme. La méthode a compris que c'était une erreur et l'a corrigée, révélant que le taux était en fait normal.
- Exemple : Pour l'Alaska, la méthode a compris que les données semblaient bizarres (très hauts revenus, très faible densité) mais qu'elles étaient réelles à cause du contexte (pêche, pétrole, population autochtone), et n'a pas essayé de les "corriger" à tort.

🎯 En Résumé

Ce papier propose un nouvel outil statistique qui agit comme un détective de données :

Il ne panique pas quand une case est fausse ou manquante.
Il nettoie les données avant de faire les calculs.
Il est capable de faire des prédictions fiables même sur de nouvelles données imparfaites.

C'est une avancée majeure car, dans le monde réel, les données sont rarement parfaites. Cette méthode permet de faire confiance aux résultats même quand les chiffres sont un peu "sales".

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article « Least trimmed squares regression with missing values and cellwise outliers » de Jakob Raymaekers et Peter J. Rousseeuw.

1. Problématique

La régression statistique classique est souvent confrontée à des données réelles contenant des valeurs aberrantes (outliers) et des valeurs manquantes. La littérature existante traite principalement deux types de contamination :

Outliers par cas (casewise) : Une observation entière (une ligne du tableau de données) est erronée ou provient d'une population différente. Des méthodes robustes comme les moindres carrés tronqués (LTS) ou les estimateurs S/MM existent pour gérer cela.
Outliers par cellule (cellwise) : Des entrées individuelles (cellules) dans la matrice des prédicteurs ou de la réponse sont suspectes, tandis que le reste de la ligne peut être valide.

Le défi actuel : Les méthodes robustes existantes pour les outliers par cellule (comme 3SGS, Shooting S, CR-Lasso) souffrent de limitations majeures :

Elles ne gèrent pas bien les distributions asymétriques (skewed).
Elles ne fournissent pas de prédictions robustes hors échantillon (out-of-sample). En effet, traiter de nouvelles données d'entrée comme étant exemptes d'outliers par cellule est une hypothèse souvent fausse en pratique.
Elles ne gèrent pas nativement les valeurs manquantes de manière robuste.

L'objectif de cet article est de proposer une méthode de régression robuste capable de gérer simultanément les outliers par cas, les outliers par cellule, les valeurs manquantes et les distributions asymétriques, tout en permettant des prédictions fiables sur de nouvelles données.

2. Méthodologie : L'estimateur CellLTS

Les auteurs proposent une nouvelle méthode en deux étapes, nommée CellLTS (Cellwise Least Trimmed Squares).

Étape 1 : Nettoyage et imputation des prédicteurs

Cette étape vise à nettoyer la matrice des prédicteurs $X$ sans utiliser l'information de la réponse $Y$ .

Symétrisation : Pour gérer l'asymétrie des données, les auteurs appliquent une transformation de symétrisation. Au lieu d'utiliser les données brutes, ils travaillent sur les différences paires ( $X - X'$ ), ce qui rend la distribution plus proche de la normalité (Gaussianité) et élimine l'intercept.
Estimateur CellMCD : Ils utilisent l'estimateur Cellwise Minimum Covariance Determinant (CellMCD) sur les données symétrisées pour estimer la position et la matrice de covariance des prédicteurs propres. Cet estimateur identifie les cellules suspectes.
Imputation : Les cellules identifiées comme aberrantes (ou manquantes) sont imputées par leur meilleure prédiction linéaire basée sur les paramètres robustes estimés (moyenne et covariance). Cela produit une matrice de prédicteurs nettoyée $\tilde{X}$ .

Étape 2 : Régression robuste par cas

Une fois les prédicteurs nettoyés, la réponse $Y$ est régressée sur $\tilde{X}$ .

Symétrisation de la réponse : La variable réponse $Y$ est également symétrisée et standardisée.
LTS avec pénalité : Une régression par moindres carrés tronqués (LTS) est appliquée sur les données symétrisées. Une pénalité de type Ridge ( $\lambda ||\beta||^2$ ) est ajoutée pour éviter les problèmes de colinéarité.
Estimation finale : Les coefficients sont transformés pour revenir à l'échelle originale, et l'intercept est estimé à partir des résidus pseudo-robustes.

Prédiction hors échantillon (Out-of-sample)

C'est une contribution clé de la méthode. Pour prédire sur une nouvelle observation $x^*$ (qui peut elle-même contenir des valeurs manquantes ou des outliers par cellule) :

On ne suppose pas que $x^*$ est propre.
On applique la même procédure de détection d'outliers par cellule (basée sur les paramètres estimés à l'étape 1) pour flaguer les cellules suspectes de $x^*$ .
On impute ces cellules suspectes.
On calcule la prédiction $\hat{y}^*$ uniquement à partir de la version nettoyée de $x^*$ multipliée par les coefficients robustes.

3. Contributions Clés

Premier résultat de rupture (Breakdown point) : L'article établit le premier résultat théorique de "breakdown value" (point de rupture) pour une méthode de régression robuste aux outliers par cellule. La valeur de rupture est d'environ $29% $($ 1 - 1/\sqrt{2}$), ce qui est comparable aux méthodes robustes classiques comme Theil-Sen.
Prédiction robuste hors échantillon : Contrairement aux méthodes précédentes, CellLTS offre un mécanisme cohérent pour nettoyer et prédire sur de nouvelles données corrompues.
Gestion de l'asymétrie et des manquants : L'utilisation de la symétrisation permet de traiter des données non-Gaussiennes, et le processus d'imputation intégré gère les valeurs manquantes sans prétraitement ad hoc.
Algorithme efficace : L'optimisation est réalisée via une modification de l'algorithme FastLTS, intégrant la pénalité et les contraintes de symétrisation.

4. Résultats Expérimentaux

Étude de simulation

Les auteurs comparent CellLTS à l'OLS, 3SGS, Shooting S et STMW (CR-Lasso) sur diverses configurations (Gaussien, Exponentiel, Log-normal, différentes dimensions $n$ et $d$ , taux de contamination $\epsilon$ ).

Précision des coefficients : CellLTS maintient une faible erreur quadratique moyenne (MSE) et une distance de Mahalanobis (MD) stable même lorsque la contamination augmente, là où les autres méthodes (surtout OLS et 3SGS) se dégradent rapidement.
Prédiction hors échantillon : CellLTS surpasse nettement les autres méthodes en termes de MSE de prédiction sur des données de test contaminées, grâce à son étape de nettoyage préalable.
Symétrisation : L'utilisation d'un sous-ensemble de paires aléatoires ( $k=20$ permutations) pour la symétrisation offre des performances quasi-identiques au calcul exhaustif de toutes les paires ( $O(n^2)$ ), mais avec une complexité linéaire en $n$ , rendant la méthode scalable.

Application sur données réelles : Mortalité par cancer aux USA

L'analyse porte sur un jeu de données de 3047 comtés américains avec 33 variables (démographie, économie, santé).

Comparaison OLS vs CellLTS : Les coefficients diffèrent significativement, notamment pour l'âge médian. L'OLS est biaisé par des erreurs de saisie extrêmes (ex: âge médian de 400 ans), tandis que CellLTS les détecte et les corrige, produisant un coefficient cohérent avec la réalité.
Détection d'anomalies : La "cellmap" (carte des cellules suspectes) révèle des erreurs de données (ex: taux d'incidence de cancer incohérents dans certaines villes) et des cas réels intéressants (ex: comtés avec des populations autochtones ayant des taux de mortalité élevés malgré des prédicteurs favorables).
Interprétabilité : La méthode permet de distinguer les erreurs de mesure des véritables phénomènes statistiques, offrant une analyse plus fine que les méthodes classiques.

5. Signification et Conclusion

Cet article représente une avancée significative dans le domaine de la régression robuste. En combinant la robustesse aux outliers par cellule avec la capacité de faire des prédictions fiables sur des données futures potentiellement corrompues, CellLTS comble une lacune importante dans la pratique statistique moderne.

La méthode est particulièrement pertinente pour les grands jeux de données réels où la qualité des données est hétérogène (données manquantes, erreurs de saisie, distributions asymétriques). La disponibilité du code R et la validation sur un jeu de données substantiel renforcent l'applicabilité pratique de cette approche. C'est la première méthode à offrir une théorie de rupture solide pour la régression cellwise tout en étant orientée vers la prédiction.