A capture-recapture hidden Markov model framework for register-based inference of population size and dynamics

Cet article propose un cadre évolutif basé sur des modèles de Markov cachés de type capture-recapture pour estimer avec précision la taille et la dynamique d'une population à partir de registres administratifs incomplets, en tenant compte simultanément des erreurs d'omission et de surcouverture grâce à une estimation par vraisemblance maximale et une quantification de l'incertitude par le « Bag of Little Bootstraps ».

Lucy Y Brown, Eleni Matechou, Bruno Santos, Eleonora Mussino

Publié 2026-03-27
📖 6 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🎯 Le Problème : Le "Fantôme" dans les Registres

Imaginez que vous essayez de compter combien de personnes vivent réellement dans une ville. Habituellement, on fait un recensement (une grande enquête maison par maison), mais c'est cher, lent et ça ne se fait que tous les dix ans.

Aujourd'hui, beaucoup de pays (comme la Suède) utilisent une autre méthode : ils regardent les registres administratifs. C'est comme si la ville avait un immense tableau blanc où l'on inscrit chaque fois qu'une personne fait quelque chose : elle se marie, elle trouve un travail, elle va à l'hôpital, elle paie des impôts.

Le problème, c'est que ce tableau blanc est imparfait :

  1. Les "Fantômes" (Faux Positifs) : Parfois, une personne a déménagé à l'étranger, mais elle a oublié de se désinscrire. Son nom reste sur le tableau parce que sa famille continue de toucher des allocations ou parce qu'elle a un compte bancaire actif. Pour le système, elle est toujours là, alors qu'elle est partie. C'est comme si un fantôme continuait de faire des courses dans le supermarché.
  2. Les "Invisibles" (Faux Négatifs) : À l'inverse, une personne vit bien dans le pays, mais elle ne fait rien qui laisse une trace administrative cette année-là. Elle est là, mais le tableau blanc ne la voit pas.

Les méthodes actuelles pour compter les gens sont soit trop simplistes (elles comptent les fantômes), soit trop lentes pour traiter des millions de données.

🚀 La Solution : Le Détective "Capture-Recapture"

Les auteurs de ce papier (Lucy, Eleni, Bruno et Eleonora) ont créé un nouveau modèle mathématique, un peu comme un super-détective numérique.

Ils utilisent une technique appelée "Capture-Recapture", qui vient à l'origine de l'écologie pour compter les poissons dans un lac.

  • L'idée : Si vous capturez 100 poissons, vous les marquez et vous les relâchez. Plus tard, vous en capturez 50, et 10 ont déjà un marqueur. Vous pouvez en déduire qu'il y a environ 500 poissons au total dans le lac.

Ici, au lieu de poissons, on capture des gens à travers différents registres (mariage, emploi, école, etc.).

🧠 Le Cerveau du Détective : Le Modèle "Caché"

Ce qui rend ce modèle génial, c'est qu'il ne se contente pas de regarder les listes. Il imagine ce qui se passe derrière le rideau.

Imaginez que chaque personne a un statut secret (son état caché) qui change chaque année :

  • 🟢 Présent : La personne est là, en vie.
  • 🟡 À l'étranger : La personne est partie, mais son nom reste sur le tableau (le "fantôme").
  • 🔴 Décédé : La personne est morte.

Le modèle essaie de deviner ce statut secret en regardant les indices (les registres).

  • Si quelqu'un apparaît sur le registre "Salaire", c'est un indice fort qu'il est Présent.
  • Si quelqu'un n'apparaît que sur le registre "Revenus de la famille" (parce que son conjoint travaille), le détective se demande : "Est-ce qu'il est vraiment là, ou est-ce juste un fantôme administratif ?"

🎭 L'Analogie du Théâtre

Pour bien comprendre, imaginez un théâtre :

  • La Scène (Les Registres) : C'est ce que le public voit. Les acteurs (les gens) apparaissent ou disparaissent selon les pièces (les registres).
  • Les Coulisses (Le Modèle) : C'est ce qui se passe vraiment. Un acteur peut être parti en vacances (à l'étranger) mais son nom reste affiché sur l'affiche du théâtre parce que le directeur n'a pas eu le temps de changer l'affiche.

L'ancien modèle disait : "Si son nom est sur l'affiche, il est sur scène."
Le nouveau modèle dit : "Attends, il est sur l'affiche, mais il n'a pas joué depuis 3 ans et il n'a pas de rôle dans la pièce actuelle. Il est probablement parti en vacances, même si son nom est encore affiché."

🛠️ Comment ça marche techniquement (sans les maths) ?

  1. Le Miroir des Âmes (Hétérogénéité) : Le modèle sait que tout le monde n'est pas pareil. Certains sont très actifs (ils ont un travail, un mariage, des enfants) et apparaissent souvent sur les listes. D'autres sont plus discrets. Le modèle crée deux "groupes invisibles" pour distinguer les très actifs des moins actifs, afin de ne pas se tromper en comptant.
  2. Le Calculateur Ultra-Rapide (BLB) : Traiter les données de 720 000 personnes sur 14 ans est comme essayer de compter chaque grain de sable d'une plage à la main. C'est impossible. Les auteurs ont utilisé une astuce appelée "Bag of Little Bootstraps". Imaginez que vous prenez de petits échantillons de sable, vous les comptez très vite, et vous extrapolez le résultat pour toute la plage. Cela permet de faire des calculs complexes en quelques jours au lieu de quelques années.

🇸🇪 Le Cas Réel : La Suède

Les auteurs ont testé leur détective sur les données suédoises concernant les immigrants.

  • Résultat : Ils ont pu distinguer les vrais résidents des "fantômes" administratifs.
  • Découverte : Ils ont vu que pour certaines nationalités (comme les Danois ou les Norvégiens), il y a beaucoup de "fantômes" parce que les gens voyagent beaucoup entre ces pays et oublient de se désinscrire. Pour d'autres groupes, c'est différent.
  • Avantage : Ils peuvent maintenant dire : "En 2010, il y avait X millions de personnes, mais Y milliers étaient en fait des fantômes administratifs."

💡 Pourquoi c'est important ?

C'est comme avoir une carte météo précise au lieu d'une vieille carte dessinée à la main.

  • Pour le gouvernement : Cela permet de mieux répartir l'argent (écoles, hôpitaux) là où sont vraiment les gens, et pas là où ils sont juste "sur le papier".
  • Pour la science : Cela permet de comprendre comment les gens bougent, partent et reviennent, sans avoir à faire des enquêtes coûteuses.

En résumé : Ce papier propose un nouveau détective mathématique capable de voir à travers les mensonges des registres administratifs pour compter la population avec une précision inédite, en distinguant les vrais vivants des fantômes administratifs.