The Persistent Non-Response Bias in a Sample-Matched Poll… — Explication vulgarisée

La vue d'ensemble : Le « fantôme » dans la machine de sondage

Imaginez que vous essayiez de deviner le score final d'un match de football en demandant à 60 000 supporters dans le stade ce qu'ils prévoient. Vous vous attendez à ce que votre supposition soit assez proche du score réel. Mais lors de l'élection présidentielle américaine de 2024, les sondages étaient comme un supporter qui prédisait avec assurance la victoire de l'équipe à domicile, alors que c'est l'équipe visiteuseuse (Donald Trump) qui l'a emporté. Cela s'est produit exactement comme en 2016.

Ce document examine pourquoi les sondages se sont trompés, même s'ils ont utilisé une méthode très sophistiquée appelée « appariement d'échantillon » (ce qui revient à choisir soigneusement un groupe de supporters qui ressemble exactement à l'ensemble du stade en termes d'âge, de race et de genre).

L'auteur, Jay Chooi, soutient que le problème n'est pas que l'échantillon était de la mauvaise taille ou qu'il ne comprenait pas les bonnes catégories de personnes. Le problème est un « fantôme » dans la machine : le biais de non-réponse. Plus précisément, les partisans de Trump étaient beaucoup moins enclins à répondre au téléphone ou à remplir le sondage que les partisans de Harris, et ce silence a faussé les résultats.

Les trois grandes découvertes

1. L'effet « Trump timide » est toujours présent

Le document utilise un cadre mathématique (développé par le professeur Meng) pour mesurer à quel point les personnes qui n'ont pas répondu au sondage diffèrent de celles qui l'ont fait.

L'analogie : Imaginez une salle de classe où l'enseignant demande : « Qui aime le brocoli ? ». Si les élèves discrets qui aiment réellement le brocoli restent silencieux, l'enseignant pensera que personne n'aime cela.
La conclusion : Même après avoir ajusté le groupe sondé pour qu'il ressemble exactement à la population américaine, les électeurs de Trump étaient toujours en train de se « cacher ». Les données montrent un biais persistant où les électeurs de Trump étaient sous-représentés. Curieusement, lorsque les chercheurs ont ajusté les données en fonction de ceux qui ont réellement voté, les électeurs de Harris ont montré un léger « biais positif » (ils étaient légèrement sur-représentés), ce qui a rendu l'écart entre les deux candidats encore plus important qu'il ne l'était réellement.

2. Le « Paradoxe des Big Data » : Plus grand n'est pas forcément mieux

Habituellement, en statistiques, si vous interrogez plus de personnes, votre réponse devient plus précise. Ce document affirme que ce n'est pas vrai lorsque les personnes qui répondent sont biaisées.

L'analogie : Imaginez que vous essayiez de deviner la taille moyenne d'une équipe de basket, mais que vous ne demandez qu'aux personnes du premier rang. Si vous demandez à 10 personnes au premier rang, vous obtenez une mauvaise réponse. Si vous demandez à 10 000 personnes au premier rang, vous obtenez une mauvaise réponse très convaincante. Plus vous collectez de données auprès d'une source biaisée, plus vous vous trompez avec certitude.
La conclusion : Dans les grands États comme la Californie et le Texas, les sondages avaient des tailles d'échantillon énormes (des milliers de personnes). Comme le biais (les électeurs de Trump ne répondant pas) était constant, ces échantillons massifs ont entraîné des erreurs énormes qui se situaient bien en dehors de la « zone de sécurité » des prédictions statistiques normales. Le document appelle cela le « Paradoxe des Big Data » : plus les données sont volumineuses, plus nous sommes certains de nous tromper.

3. L'effondrement de la « Taille d'échantillon effective »

C'est peut-être la découverte la plus choquante. Le document calcule combien de personnes le sondage représentait effectivement, compte tenu du biais.

L'analogie : Imaginez que vous avez un seau contenant 4 000 billes. Vous pensez en compter toutes. Mais parce qu'il y a un trou au fond, seules 20 billes restent réellement dans le seau pour être comptées. Même si vous en avez collecté 4 000, vos données ne valent que celles de 20 billes.
La conclusion : Dans les plus grands États, la « taille d'échantillon effective » a chuté de plus de 99 %. Un sondage qui a interrogé 4 200 personnes au Texas n'était statistiquement pas meilleur qu'un sondage qui n'en aurait interrogé que 19. La quantité massive de données a été rendue presque inutile par le biais.

La solution : Une correction par « voyage dans le temps »

Puisque nous ne pouvons pas corriger le fait que les électeurs de Trump n'ont pas répondu au téléphone avant l'élection, l'auteur propose un contournement ingénieux.

L'idée : Utiliser le « fantôme » du passé pour corriger le présent.
Comment ça marche : L'auteur a examiné les données de l'élection de 2016 pour voir à quel point les électeurs de Trump étaient sous-représentés à l'époque. Il a ensuite appliqué ce même « facteur de correction » aux données de 2024.
Le résultat : En soustrayant ce biais historique des chiffres de 2024, l'erreur de prédiction (RMSE) a été réduite de moitié, passant de 0,13 à 0,05. Cette estimation corrigée était presque aussi précise que d'attendre l'après-élection pour re-pondérer les données.

Résumé

Le document conclut que le simple fait d'interroger plus de personnes (Big Data) ne corrige pas les erreurs de sondage si les personnes qui répondent sont différentes de celles qui ne répondent pas. En 2024, tout comme en 2016, les électeurs de Trump étaient « silencieux », provoquant des erreurs massives qui s'aggravaient dans les grands États. La seule façon de corriger cela avant l'élection est d'utiliser les données historiques pour mathématiquement « combler les blancs » laissés par ceux qui n'ont pas pris la parole.

Résumé Technique : La persistance du biais de non-réponse dans un sondage par appariement d'échantillons pour l'élection présidentielle américaine de 2024

Énoncé du problème
Malgré la victoire de Donald Trump lors de l'élection présidentielle américaine de 2024, les agrégats de sondages préélectoraux prédisaient une avance pour la candidate démocrate, Kamala Harris. Cette divergence reflète l'erreur de sondage observée en 2016. Bien que l'échantillonnage aléatoire simple (SRS) soit la norme théorique absolue, le sondage pratique repose sur des échantillons de non-probabilité où les refus de répondre introduisent un biais de non-réponse. Des recherches antérieures (Meng 2018) ont identifié un grave biais de non-réponse contre les électeurs de Trump en 2016, souvent attribué à l'hypothèse du « supporter de Trump timide » (Shy Trump Supporter). Ce document examine si ce biais persiste en 2024 au sein de la Cooperative Election Study (CES), une enquête à grande échelle (N=60 000) qui utilise l'appariement d'échantillons à la population adulte américaine. Le problème central est que même lorsque les échantillons sont appariés à des cibles démographiques, un biais de non-réponse systématique peut subsister, entraînant des erreurs de prévision significatives qui évoluent avec la taille de la population et violent les hypothèses conventionnelles des intervalles de confiance.

Méthodologie
L'analyse utilise le Common Content Dataset de la Cooperative Election Study (CES), qui a interrogé 60 000 adultes américains avant et après l'élection de 2024. L'étude emploie le cadre de corrélation de défaut de données établi par Meng (2018) pour décomposer l'erreur de sondage en trois composantes : la qualité des données (corrélation entre la réponse et la variable d'intérêt), la quantité de données (taille de l'échantillon par rapport à la population) et la difficulté du problème (variance inhérente).

Les étapes méthodologiques clés incluent :

Corrélation du défaut de données ( $\rho_{R,G}$ ) : Calculée à l'aide de l'équation de Meng pour mesurer la corrélation entre la participation au sondage et le vote pour un candidat spécifique. L'étude analyse les répondants bruts, les électeurs probables et les électeurs validés.
Test de la Loi des Grandes Populations (LLP) : Le document teste si les erreurs de sondage évoluent avec la racine carrée de la taille de la population ( $\sqrt{N}$ ), un phénomène distinct de la Loi des Grands Nombres. Cela est évalué en effectuant une régression de l'erreur standardisée sur le logarithme de la population de l'État.
Analyse du Paradoxe des Big Data : L'étude examine si des tailles d'échantillons ( $n$ ) plus grandes mènent à de plus grands écarts par rapport aux intervalles de confiance conventionnels lorsqu'un biais de non-réponse existe, en contrastant l'échelle en $n^{1/2}$ des erreurs biaisées contre l'échelle en $n^{-1/2}$ des erreurs SRS.
Calcul de la taille d'échantillon effective ( $n_{eff}$ ) : Les auteurs calculent la taille d'échantillon effective requise sous un régime SRS pour atteindre le même erreur quadratique moyenne que l'échantillon biaisé de la CES, quantifiant ainsi la perte d'information due à la non-réponse.
Correction du biais préélectoral : Un nouvel estimateur est proposé qui ajuste la moyenne de l'échantillon en utilisant les corrélations historiques de défaut de données (de 2016) et les taux de participation, permettant une correction du biais avant l'élection sans dépendre d'une pondération post-électorale.

Résultats clés

Persistance du biais de non-réponse : Même avec un appariement d'échantillon à la population adulte des États-Unis, un biais de non-réponse significatif pour les électeurs de Trump persiste. La corrélation du défaut de données pour Trump était de $\rho = -0,0030$ (en utilisant les électeurs validés), comparable au $-0,0045$ observé en 2016. Inversement, les électeurs de Harris ont présenté un biais de réponse positif ( $\rho \approx 0,0013$ ) après ajustement de la participation, conduisant à une surestimation de son soutien.
Validation de la Loi des Grandes Populations : L'étude confirme que les erreurs de sondage pour Trump évoluent avec la racine carrée de la taille de la population de l'État ( $\sqrt{N}$ ). La régression de l'erreur sur la taille de la population a produit un gradient d'environ 0,5, cohérent avec la théorie de la LLP. Les erreurs pour Harris n'ont pas montré cette évolution, se comportant davantage comme des erreurs SRS.
Le Paradoxe des Big Data : Dans les États ayant des tailles d'échantillons plus grandes, l'erreur standardisée ( $Z_n$ ) tombait de plus en plus en dehors des intervalles de confiance conventionnels. Pour les États les plus importants (ex. Californie, Texas), les erreurs dépassaient 10 écarts-types, démontrant que les « plus grandes données » peuvent conduire à une plus grande excès de confiance dans les estimations biaisées.
Réduction drastique de la taille d'échantillon effective : La taille d'échantillon effective pour les plus grands États a été réduite de plus de 99 %. Par exemple, un échantillon de 4 222 au Texas a produit une taille d'échantillon effective de seulement 19. Cela indique que le gain d'information provenant de l'augmentation de la taille de l'échantillon est négligeable en présence d'un biais de non-réponse.
Efficacité de la correction du biais : L'estimateur proposé, qui corrige le biais préélectoral en utilisant les corrélations historiques de défaut de données et les données de participation, a réduit l'erreur quadratique moyenne (RMSE) de la part de vote de Trump de 0,13 à 0,05. Cette performance est comparable à la pondération post-électorale (RMSE 0,09) mais est réalisable avant l'élection.

Signification et revendications
Le document affirme démontrer que l'appariement d'échantillon seul est insuffisant pour éliminer le biais de non-réponse dans les sondages politiques modernes. Il renforce le cadre théorique selon lequel les erreurs de sondage sont pilotées par la qualité des données (corrélation entre la sélection et la réponse) plutôt que par la simple quantité de données. Les conclusions suggèrent que le « Paradoxe des Big Data » est un problème critique dans les prévisions électorales, où des échantillons plus larges dans de grandes populations exacerbent les erreurs plutôt que de les réduire.

La principale contribution est la proposition d'une méthode de correction du biais préélectoral qui exploite les corrélations historiques de défaut de données. Les auteurs soutiennent que compter uniquement sur l'augmentation de la taille de l'échantillon n'est pas une solution viable, car les tailles d'échantillons requises pour surmonter le biais de non-réponse (ex. ~130 000 répondants pour un seul État pivot afin d'obtenir une taille d'échantillon effective de 1 000) sont pratiquement irréalisables. Au lieu de cela, le document préconise la correction directe des problèmes de qualité de données en utilisant les modèles historiques de défaut. L'étude conclut que bien que l'estimateur proposé améliore considérablement la précision, son utilité dépend de la stabilité des corrélations de défaut de données à travers les cycles électoraux.

The Persistent Non-Response Bias in a Sample-Matched Poll for the 2024 U.S. Presidential Election