Comparing Variable Selection and Model Averaging Methods for Logistic Regression

Each language version is independently generated for its own context, not a direct translation.

🎯 Le Problème : Le Dilemme du Chef Cuisinier

Imaginez que vous êtes un chef cuisinier (le statisticien) qui doit préparer un plat délicieux (un modèle prédictif) pour deviner si un client va commander un dessert (un résultat binaire : oui/non).

Vous avez devant vous un immense comptoir rempli de 100 ingrédients différents (les variables ou prédicteurs). Certains sont essentiels (sucre, farine), d'autres sont inutiles (des cailloux), et d'autres encore sont dangereux s'ils sont utilisés en trop grande quantité.

Le problème, c'est que vous ne savez pas exactement quels ingrédients sont nécessaires.

Si vous mettez tout dans la casserole, votre plat sera trop lourd, déséquilibré et impossible à manger (c'est le surapprentissage ou overfitting).
Si vous enlevez trop d'ingrédients, le plat sera fade et ne ressemblera pas à la réalité (c'est le sous-apprentissage).

En statistiques, ce problème s'appelle l'incertitude du modèle. Comment choisir les bons ingrédients sans se tromper ?

🧪 L'Expérience : Un Grand Concours de Cuisiniers

Les auteurs de cet article (Nikola Sekulovski et son équipe) ont organisé un grand concours. Ils ont invité 28 méthodes différentes (des "cuisiniers" ou algorithmes) pour voir qui serait le meilleur pour choisir les bons ingrédients dans des situations réalistes.

Ils ont utilisé 11 vrais jeux de données (comme des recettes réelles issues de la médecine, de la sociologie, etc.) et ont simulé des milliers de repas pour tester chaque méthode.

⚠️ Le Piège : La "Séparation" (Le Miroir Magique)

Il y a un piège spécial dans ce jeu de cuisine : la séparation.
Imaginez que vous avez un ingrédient (disons, le sel) qui, s'il est présent, garantit à 100 % que le client commandera un dessert. Si le sel est absent, il ne commandera jamais.
C'est ce qu'on appelle la séparation. Dans ce cas, les mathématiques classiques deviennent folles : les estimations explosent, les chiffres deviennent infinis, et le cuisinier classique panique. C'est comme si votre balance de cuisine se mettait à afficher "∞" dès que vous posez un grain de sel dessus.

🏆 Les Résultats : Qui a gagné ?

Les résultats changent radicalement selon que le "piège de la séparation" est présent ou non.

1. Quand tout va bien (Pas de séparation)

C'est la situation idéale, comme une cuisine bien rangée.

Les Gagnants : Les méthodes Bayésiennes (qui utilisent une approche de "moyenne intelligente" appelée BMA).
Le Champion : Une méthode appelée "Benchmark" (avec une règle précise appelée g = max(n, p²)). C'est comme un chef qui sait exactement combien de chaque ingrédient mettre en fonction de la taille de la cuisine. Il est très précis, ne se trompe pas, et donne un plat équilibré.
Les autres : Les méthodes classiques (comme la sélection pas à pas, où l'on ajoute ou retire des ingrédients un par un) sont très mauvaises. Elles choisissent souvent des ingrédients au hasard ou enlèvent les bons.

2. Quand le piège se déclenche (Avec séparation)

C'est la situation difficile, où les mathématiques classiques cassent.

Les Gagnants : Les méthodes de pénalisation (comme le LASSO).
Pourquoi ? Imaginez que le LASSO est un chef très strict qui porte des gants de protection. Quand il voit que l'ingrédient "sel" devient dangereux (infini), il le force à rester dans des limites raisonnables. Il ne choisit pas toujours le meilleur plat théorique, mais il ne rate jamais la cuisson. Il est stable.
Le Surprenant : Une méthode bayésienne appelée EB-local a aussi très bien résisté. C'est comme un chef qui a un "sixième sens" pour ajuster ses mesures même quand la balance est déréglée.

📉 Ce qui ne fonctionne pas

Les méthodes "Pas à pas" (Stepwise) : C'est comme essayer de deviner la recette en goûtant un ingrédient à la fois et en changeant d'avis à chaque fois. C'est lent, instable et souvent faux.
Les méthodes basées sur les p-valeurs (p < 0.05) : C'est comme décider d'ajouter un ingrédient seulement si vous avez "la chance" qu'il soit présent. Ça marche parfois, mais souvent, ça vous fait rater des ingrédients importants ou en ajouter de superflus.

💡 La Leçon pour la Vie Quotidienne

Cette étude nous donne une carte routière pour les chercheurs et les data scientists :

Si vous êtes dans un monde calme (pas de séparation) : Utilisez les méthodes Bayésiennes (comme le Benchmark ou Hyper-g). Elles sont les plus précises et vous donnent la meilleure estimation de la "vraie" recette.
Si vous êtes dans un monde chaotique (séparation, petits échantillons) : Utilisez les méthodes de pénalisation (comme le LASSO ou Elastic Net). Elles sont moins précises théoriquement, mais elles ne vont pas vous faire exploser la cuisine. Elles sont robustes.
Évitez les vieilles méthodes : Arrêtez d'utiliser les méthodes "pas à pas" ou les simples tests de p-valeurs. C'est comme essayer de construire un avion avec des règles de 1980 : ça peut marcher, mais c'est dangereux et inefficace.

En résumé

Cette étude est comme un guide de survie pour les chefs de données. Elle nous dit : "Ne choisissez pas votre méthode au hasard. Regardez d'abord si votre cuisine est calme ou en feu. Si elle est calme, utilisez le chef Bayésien. Si elle brûle, utilisez le chef LASSO avec ses gants de protection."

C'est une avancée majeure pour rendre les prédictions statistiques plus fiables, que ce soit pour prédire une maladie, un comportement d'achat ou le résultat d'une élection.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article « Comparing Variable Selection and Model Averaging Methods for Logistic Regression » en français.

1. Problématique

L'incertitude de modèle est un défi central en inférence statistique, particulièrement dans les régressions logistiques où il est souvent difficile de déterminer a priori quels prédicteurs inclure. Contrairement aux modèles linéaires, la régression logistique présente des difficultés d'estimation spécifiques, notamment le phénomène de séparation (quand une combinaison linéaire de prédicteurs sépare parfaitement la variable binaire), ce qui peut rendre les estimations de vraisemblance maximale non définies ou instables.

Bien que de nombreuses méthodes aient été proposées pour gérer cette incertitude (approches bayésiennes et fréquentistes), leur performance relative dans des conditions empiriques réalistes, incluant la séparation et des tailles d'échantillons variées, restait mal comprise. L'objectif de cette étude était de combler ce vide en évaluant systématiquement 28 méthodes établies pour la sélection de variables et l'inférence sous incertitude de modèle.

2. Méthodologie

L'étude repose sur une simulation pré-enregistrée (preregistered) basée sur 11 jeux de données empiriques réels provenant de divers domaines (médecine, génétique, sciences sociales, etc.).

Conception des simulations :
- Les auteurs ont utilisé un processus de génération de données (DGP) paramétré sur les 11 jeux de données réels. Pour chaque jeu, 100 jeux de données simulés ont été générés en maintenant la matrice des prédicteurs fixe et en simulant la variable binaire de sortie.
- Au total, 1 100 jeux de données simulés ont été analysés.
- Une détection automatique de la séparation a été mise en place. Sur l'ensemble des simulations, 42 % des jeux de données présentaient une séparation.
- Les résultats ont été stratifiés et présentés séparément pour les cas sans séparation et avec séparation.
Méthodes comparées (28 au total) :
- Méthodes Bayésiennes (Moyennage de modèles - BMA) : Basées sur le package BAS et d'autres, utilisant diverses priors (g-priors fixes comme $g=n$ , $g=4$ , $g=\max(n, p^2)$ , $g=\sqrt{n}$ ; priors adaptatives comme Hyper-g, EB-local, EB-global, Robust, Intrinsic, CCH, Beta-prime, Spike-and-Slab).
- Méthodes de vraisemblance pénalisée (Frequentistes) : LASSO, Ridge, Elastic Net, SCAD, MCP, LASSO lissé induit (Induced Smoothed LASSO), et régression logistique à biais réduit de Firth.
- Méthodes classiques : Sélection pas à pas (Forward, Backward, Both) et sélection basée sur les valeurs p (seuils 0.05 et 0.005).
- Méthode de référence : BIC.BMA (package BMA).
Métriques d'évaluation :
- Estimation ponctuelle : Erreur quadratique moyenne (RMSE).
- Inférence (Intervalles) : Score d'intervalle moyen (MIS).
- Sélection de modèle : Aire sous la courbe Précision-Rappel (AUPRC).
- Prédiction : Score de Brier.
- Indicateurs supplémentaires : Temps de calcul (CPU) et taux d'échec (convergence ou erreurs).
- Les scores ont été standardisés par rapport à la méthode « Spike-and-Slab » (référence).

3. Résultats Clés

Les résultats diffèrent radicalement selon la présence ou l'absence de séparation.

A. Cas sans séparation (Fig. 1)

Meilleures performances : Les méthodes de Moyennage de Modèles Bayésiens (BMA) basées sur les priors $g$ $g$ dominent.
- Le prior Benchmark ( $g = \max(n, p^2)$ ) obtient les meilleurs scores globaux.
- Sont également très performants : BIC.BAS, CCH, Hyper-g/n, Beta-prime et $g=\sqrt{n}$ .
- Le prior EB-local (Empirical Bayes local) est compétitif, bien que légèrement inférieur en prédiction.
Méthodes fréquentistes : Le LASSO lissé induit (Induced Smoothed LASSO) se distingue parmi les méthodes fréquentistes (8ème rang), suivi par SCAD et MCP. Le LASSO standard, Ridge et Elastic Net sont moins performants.
Méthodes classiques : Les méthodes pas à pas et basées sur les valeurs p ( $p < 0.05$ ) sont nettement inférieures et lentes.

B. Cas avec séparation (Fig. 2)

Changement de dynamique : Les méthodes BMA basées sur les priors $g$ (sauf EB-local) subissent une dégradation significative, surtout en estimation ponctuelle et intervalle, bien que leurs performances prédictives restent stables.
Meilleures performances : Les approches de vraisemblance pénalisée dominent.
- Le LASSO lissé induit est classé premier (malgré un taux d'échec de 28,5 %).
- Le LASSO, Elastic Net, SCAD, MCP et Ridge suivent de près.
- La méthode de Firth (biais réduit) est robuste mais souffre d'un taux d'échec élevé (29,7 %).
Méthodes Bayésiennes robustes : Le prior EB-local et la méthode Spike-and-Slab maintiennent une bonne robustesse et une calibration des intervalles, se classant respectivement 9ème et 10ème.
Échecs : Les méthodes pas à pas et basées sur les valeurs p échouent massivement (taux d'échec jusqu'à 71 % pour $p < 0.005$ ).

4. Contributions et Signification

Guide pratique pour les chercheurs : L'étude fournit des recommandations concrètes :
- En l'absence de séparation, privilégier les méthodes BMA avec priors adaptatifs (notamment $g = \max(n, p^2)$ ou EB-local).
- En présence de séparation (fréquente en petits échantillons ou haute dimension), privilégier les méthodes pénalisées (LASSO, SCAD, MCP) ou le prior EB-local si l'incertitude de modèle doit être quantifiée.
Validation empirique : Contrairement aux études antérieures basées sur des données synthétiques pures, cette étude utilise des données réelles pour générer les simulations, augmentant la validité externe des résultats.
Transparence et reproductibilité : Le caractère pré-enregistré de l'étude, la publication du code et des données (OSF), et l'analyse transparente des écarts par rapport au plan initial renforcent la crédibilité des conclusions.
Apport théorique : L'étude confirme que les avantages des priors adaptatifs (comme EB-local) s'étendent au-delà des modèles linéaires, mais met en lumière leurs limites face à la séparation, un problème spécifique aux modèles non-linéaires comme la régression logistique.

En résumé, cette étude démontre qu'il n'existe pas de méthode universelle optimale. Le choix dépend crucialement de la présence de séparation dans les données et de l'objectif (estimation précise vs prédiction vs quantification de l'incertitude).