Power Studies For Two-Sample and Goodness-of-Fit Methods… — Explication vulgarisée

Imaginez que vous soyez un détective tentant de résoudre un mystère. Vous avez un tas de indices (des données) et vous avez une théorie sur la manière dont ces indices ont été créés (un modèle mathématique). Votre travail consiste à déterminer : Ma théorie est-elle juste, ou quelqu'un d'autre joue-t-il un tour avec moi ?

Ce papier, écrit par Wolfgang Rolke, est essentiellement un immense « test de résistance » pour les outils que les détectives utilisent pour résoudre ces mystères. L'auteur a exécuté des milliers de simulations informatiques afin de voir quels outils statistiques fonctionnent le mieux dans différentes conditions.

Voici une décomposition des conclusions du papier en utilisant des analogies simples :

1. Les Deux Grands Mystères

Le papier se concentre sur deux types de travail d'enquête :

Le mystère de l'« Adéquation du Modèle » (Goodness-of-Fit) : Vous avez un seul jeu d'indices. Vous avez une théorie spécifique (par exemple : « Ces nombres proviennent d'une distribution Normale »). Vous voulez savoir : Les données correspondent-elles réellement à cette théorie ?
Le mystère de l'« Échantillon Double » (Two-Sample) : Vous avez deux tas d'indices (par exemple, des données du Groupe A et des données du Groupe B). Vous voulez savoir : Ces deux tas proviennent-ils de la même source, ou sont-ils différents ?

2. Le Problème : Pas de « Baguette Magique »

La découverte la plus importante de ce papier est qu'il n'existe aucun outil « baguette magique » unique qui résolve parfaitement chaque mystère.

Pensez aux tests statistiques comme à différents types de clés.

Certaines clés sont excellentes pour ouvrir des portes en bois (données continues).
D'autres sont excellentes pour des portes en métal (données discrètes).
Certaines fonctionnent sur des petites portes (2 dimensions), mais se coincent sur d'énormes portes de coffre-fort (5 dimensions).

Le papier montre qu'un outil qui est un champion dans une situation peut être totalement inutile dans une autre. Si vous choisissez le mauvais outil, vous risquez de manquer le criminel (faible puissance) ou d'accuser une personne innocente (fausse alerte).

3. L'Astuce du « Binning » (Transformer le Lisse en Blocs)

L'une des découvertes les plus intéressantes concerne la manière dont nous examinons les données.

Données Continues : Imaginez une rivière fluide et coulante.
Données Discrètes : Imaginez cette même rivière figée en une grille de cubes de glace.

Le papier a découvert que pour des données à 2 dimensions, transformer la rivière fluide en une grille de cubes de glace (ce qu'on appelle le « binning ») et utiliser un test classique du « Chi-deux » (Chi-Square) est incroyablement puissant. C'est comme prendre une photo floue, l'imprimer sur une grille de pixels, et soudainement le motif devient évident.

La Pièce : Cela ne fonctionne bien qu'en 2 dimensions. Si vous essayez de griller une rivière à 5 dimensions, le nombre de cubes de glace explose, et la méthode devient trop lente et trop désordonnée pour être utilisée.

4. La Stratégie « Hybride » (La Sauvegarde par Simulation)

Parfois, le modèle théorique est si complexe que vous ne pouvez pas calculer la réponse directement. C'est comme essayer de prédire la météo sans superordinateur.

La Méthode Hybride : Le papier suggère une solution de contournement : « Faisons semblant. » Vous générez un deuxième ensemble de fausses données basé sur votre théorie, puis vous comparez vos vraies données à ces fausses données en utilisant un test « Échantillon Double ».
La Découverte : Cela fonctionne, mais vous avez besoin de beaucoup de fausses données pour que cela soit efficace. Le papier recommande de générer un ensemble de fausses données 5 fois plus grand que votre ensemble de données réel. Si vous ne faites que des fausses données de la même taille que les vraies données, le test échoue souvent à détecter les différences.

5. Recommandations pour le « Meilleur Outil »

Sur la base de leur immense simulation, l'auteur suggère un « kit de survie » d'outils. Vous n'avez pas besoin de tous, mais vous devriez en avoir quelques-uns prêts selon votre situation :

Si vous avez des données lisses à 2D : Utilisez le test du Chi-deux (avec une petite grille) ou le test Fasano-Franceschini. Ce sont les poids lourds.
Si vous avez des données lisses à 5D (ou plus) : Le test MMD (Maximum Mean Discrepancy) est le gagnant clair. C'est comme un scanner haute technologie qui voit des motifs dans des données complexes et multicouches que les autres outils manquent.
Si vous avez des données « cubes de glace » (discrètes) : Les tests Chi-deux et Kullback-Leibler sont vos meilleurs amis.
Si vous comparez deux groupes (Échantillon Double) : Les tests MMD et Biswas-Ghosh sont généralement les plus fiables dans l'ensemble.

6. Le Piège des « Marginales »

Le papier met en lumière une situation piège : Que se passe-t-il si les deux groupes semblent identiques lorsque vous les examinez une variable à la fois (les « marginales »), mais sont totalement différents lorsque vous les examinez ensemble ?

L'Analogie : Imaginez deux sacs de billes. Le sac A contient 50 % de rouges et 50 % de bleues. Le sac B contient aussi 50 % de rouges et 50 % de bleues. Un test simple ne regardant que la couleur pourrait dire : « Ils sont identiques ! »
La Réalité : Dans le sac A, toutes les billes rouges sont lourdes. Dans le sac B, toutes les billes bleues sont lourdes. La combinaison de couleur et de poids est différente, même si les couleurs seules semblent identiques.
La Leçon : Le papier a découvert que de nombreux tests standards échouent ici. Cependant, le test du Chi-deux (avec une petite grille) est étonnamment bon pour repérer ces différences cachées dans les données à 2D.

Résumé

Le papier est un guide pour les statisticiens. Il dit : « Ne vous fiez pas à un seul outil. Si vous examinez des données à 2D, essayez de les mettre en grille (binning). Si vous examinez des données complexes et de haute dimension, utilisez le test MMD. Et si vous devez simuler des fausses données pour vous aider, assurez-vous d'en faire beaucoup (5 fois la taille). »

Les auteurs ont emballé tous ces outils dans des logiciels gratuits (des packages R appelés MD2sample et MDgof) afin que d'autres détectives puissent utiliser ces méthodes éprouvées pour résoudre leurs propres mystères de données.

Résumé technique : Études de puissance pour les méthodes à deux échantillons et d'adéquation au modèle pour les données multivariées

Énoncé du problème
L'article aborde le défi de la sélection de tests statistiques appropriés pour les données multivariées dans deux contextes principaux : le problème d'adéquation au modèle (gof) et le problème non paramétrique à deux échantillons. Dans le cadre de l'adéquation au modèle, un échantillon est tiré d'une distribution $F$ (potentiellement avec des paramètres inconnus), et l'objectif est de tester $H_0: X \sim F$ . Dans le cadre à deux échantillons, deux échantillons indépendants sont tirés des distributions $F$ et $G$ , avec pour objectif de tester $H_0: F = G$ .

Bien que la littérature pour les données univariées soit extensive, les auteurs notent que les méthodes multivariées sont considérablement plus rares. Une difficulté spécifique surgit dans l'extension des tests univariés classiques (comme Kolmogorov-Smirnov) aux dimensions supérieures, car l'écart maximal entre les fonctions de distribution empiriques et théoriques devient computationnellement ingérable dans les dimensions $d > 1$ . De plus, les logiciels existants pour les tests multivariés sont limités, et aucune méthode unique n'a été démontrée comme possédant une puissance uniformément supérieure sur toutes les hypothèses alternatives.

Méthodologie
L'étude repose sur des expériences de simulation extensives menées à l'aide des packages R MD2sample et MDgof, que l'auteur a développés pour implémenter ces méthodes. Les simulations couvrent :

Types de données : Données continues en 2 et 5 dimensions ; données discrètes (binnées/histogrammes) en 2 dimensions.
Scénarios : Adéquation au modèle (avec et sans estimation de paramètres) et problèmes à deux échantillons.
Distributions marginales : Cas où les marginales sont identiques sous l'hypothèse nulle et l'alternative, et cas où elles diffèrent.
Approches hybrides : Une méthode « hybride » où un test d'adéquation au modèle est converti en un test à deux échantillons en générant un ensemble de données Monte Carlo (MC) sous l'hypothèse nulle. Cela est testé avec des tailles d'échantillon MC égales aux données réelles ( $n_{MC}=n$ ) et cinq fois plus grandes ( $n_{MC}=5n$ ).

Les valeurs p pour les tests à deux échantillons sont dérivées via des méthodes de permutation, tandis que les valeurs p d'adéquation au modèle sont obtenues par simulation (bootstrap paramétrique). L'étude évalue un large éventail de méthodes, notamment :

Méthodes binnées : Tests du Chi-deux (intervalles d'espace égal et de probabilité égale) et variantes discrètes (Pearson, Variation Totale, Kullback-Leibler, Hellinger).
Basées sur la fonction de distribution : Versions simplifiées (« rapides ») de Kolmogorov-Smirnov (qKS), Kuiper (qK), Cramer-vonMises (qCvM) et Anderson-Darling (qAD), implémentées en évaluant les écarts uniquement aux points de données.
Basées sur la densité et les transformations : Bickel-Breiman, Bakshaev-Rudzkis, transformations de Rosenblatt (Fasano-Franceschini, K de Ripley).
Basées sur la distance et les voisins : Aslan-Zech, Baringhaus-Franz, Biswas-Ghosh, Discrépance Moyenne Maximale (MMD), Friedman-Rafski, et tests de Voisin le Plus Proche.

Contributions clés

Analyse de puissance complète : L'article fournit une comparaison à grande échelle de nombreuses méthodes sur 30 études de cas d'adéquation au modèle et 50 études de cas à deux échantillons, distinguant les données continues et discrètes, les dimensions 2 et 5, et diverses conditions marginales.
Implémentation logicielle : Le travail introduit et utilise MD2sample et MDgof, des packages qui implémentent bon nombre de ces méthodes (particulièrement pour les données multivariées) en utilisant Rcpp et la programmation parallèle pour gérer l'intensité computationnelle.
Utilité des données discrètes : L'étude met en évidence l'utilité de discrétiser de grands ensembles de données continues en intervalles 2D pour appliquer des tests discrets rapides, notant que cette approche est computationnellement faisable pour les données bivariées mais pas pour les dimensions supérieures en raison du fléau de la dimensionnalité.
Évaluation des méthodes hybrides : L'article évalue systématiquement l'efficacité de la conversion des problèmes d'adéquation au modèle en problèmes à deux échantillons via une génération Monte Carlo, constatant que bien que réalisable, ces méthodes nécessitent généralement des tailles d'échantillon MC significativement plus grandes pour rivaliser avec les tests d'adéquation au modèle directs.

Résultats
Les résultats de simulation conduisent à plusieurs conclusions spécifiques concernant la performance des méthodes :

Aucune meilleure méthode universelle : Aucune méthode unique n'est uniformément supérieure. La performance dépend fortement de l'hypothèse alternative spécifique et de la structure des données.
Performance du Chi-deux : En deux dimensions, particulièrement lorsque les distributions marginales restent inchangées entre l'hypothèse nulle et l'alternative, le test du Chi-deux classique (avec un petit nombre d'intervalles, par exemple 5x5) présente souvent une puissance supérieure, surpassant fréquemment les autres méthodes. Cependant, cela est limité au 2D en raison des contraintes de binning.
Recommandations pour les données continues :
- Adéquation au modèle (2D) : Bakshaev-Rudzkis, Fasano-Franceschini, K de Ripley, Chi-deux (intervalles de probabilité égale), et Anderson-Darling, Kuiper et Cramer-vonMises simplifiés sont recommandés.
- Adéquation au modèle (>2D) : Bakshaev-Rudzkis et Anderson-Darling, Kuiper et Cramer-vonMises simplifiés.
- Deux échantillons : Le test de Discrépance Moyenne Maximale (MMD) est identifié comme la seule meilleure option pour les données continues en 2 et 5 dimensions, suivi de près par les tests de Biswas-Ghosh et Aslan-Zech.
Recommandations pour les données discrètes : Pour les données discrètes, les tests du Chi-deux, Anderson-Darling, Kuiper et Kullback-Leibler fonctionnent bien.
Sensibilité aux marginales : Lorsque les marginales sont égales sous l'hypothèse nulle et l'alternative (rendant les tests univariés inefficaces), le test du Chi-deux en 2D reste très puissant. Dans les cas où les marginales sont inégales, un ensemble plus large de méthodes est requis pour assurer la détection.
Méthodes hybrides : Les tests hybrides nécessitent généralement que l'ensemble de données MC généré soit au moins cinq fois la taille de l'ensemble de données réel pour être compétitifs. Les auteurs concluent que si un test classique d'adéquation au modèle est computationnellement faisable, il est préféré à l'approche hybride.

Signification et affirmations
L'article revendique modestement que sa valeur principale réside dans la fourniture d'un guide axé sur les données pour les chercheurs confrontés à des problèmes d'inférence multivariée. En démontrant que « n'importe quelle méthode peut être très bonne pour une certaine combinaison d'hypothèse nulle et alternative et peut échouer lamentablement pour une autre », les auteurs s'opposent à la dépendance à l'égard d'un seul « meilleur » test. Au lieu de cela, ils proposent une petite sélection curatée de méthodes pour chaque scénario (par exemple, combinaisons spécifiques pour 2D vs 5D, continu vs discret) de telle sorte que pour toute étude de cas incluse dans leur analyse, au moins une méthode de l'ensemble possédera une bonne puissance. Le travail sert de ressource pratique pour sélectionner des tests appropriés à l'aide des packages R fournis, comblant une lacune dans les logiciels disponibles pour les tests non paramétriques multivariés.

Power Studies For Two-Sample and Goodness-of-Fit Methods For Multivariate Data