A capture-recapture hidden Markov model framework for register-based inference of population size and dynamics

Los autores proponen un marco escalable basado en modelos ocultos de Markov y captura-recaptura para inferir el tamaño y la dinámica poblacional a partir de registros administrativos incompletos que contienen errores de falsos positivos y negativos, superando las limitaciones de los métodos tradicionales mediante estimación de máxima verosimilitud y cuantificación de incertidumbre.

Lucy Y Brown, Eleni Matechou, Bruno Santos, Eleonora Mussino

Publicado 2026-03-27
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

Imagina que quieres saber cuántas personas viven realmente en una ciudad. Lo ideal sería hacer un censo, pero eso es caro, lento y a veces desactualizado. Así que muchos países, como Suecia, usan "registros administrativos": listas de la administración (impuestos, trabajo, universidad, etc.) para saber quién está vivo y dónde.

El problema es que estas listas no son perfectas. Es como intentar adivinar cuántos peces hay en un lago usando solo las fotos que la gente sube a Instagram.

Los dos grandes problemas de las listas:

  1. El pez invisible (Falso Negativo): Hay personas que viven en la ciudad pero no suben fotos a Instagram (no trabajan, no se casan, no van al hospital). La lista dice que no están, pero sí lo están.
  2. El fantasma (Falso Positivo): Hay personas que ya se fueron del país, pero su nombre sigue apareciendo en las listas porque, por ejemplo, su familia sigue recibiendo una pensión o una ayuda familiar en su nombre. La lista dice que están, pero ya no están.

Además, la gente se mueve: entra, sale, vuelve, muere. Las listas antiguas no sabían distinguir bien entre un "fantasma" y un "visitante temporal".

La solución de los autores: Un detective con una lupa mágica

Los autores de este artículo (Lucy Brown y su equipo) han creado un nuevo método matemático, una especie de "detective digital" que usa dos herramientas muy potentes:

1. El modelo de "Atrapa y Vuelve" (Capture-Recapture)

Imagina que eres un pescador. Lanzas una red (un registro), capturas algunos peces, les pones una etiqueta y los sueltas. Luego lanzas otra red (otro registro).

  • Si un pez tiene etiqueta, sabes que ya lo viste antes.
  • Si un pez no tiene etiqueta, es nuevo.
  • Si no ves a un pez en ninguna red, sabes que existe, pero no lo atrapaste.

Este método tradicional funciona bien para animales, pero es muy difícil de aplicar a millones de personas que se mueven, mueren o se van del país, y donde las "redes" (registros) a veces se confunden entre sí.

2. El Modelo Oculto (Hidden Markov Model)

Aquí es donde entra la magia. Imagina que cada persona tiene un estado secreto que no podemos ver directamente:

  • Estado A: Está en la ciudad y viva.
  • Estado B: Está fuera del país (emigró) pero sigue viva.
  • Estado C: Ha muerto.

Lo que vemos en los registros (trabajo, matrimonio, etc.) son solo pistas que nos ayudan a adivinar ese estado secreto.

  • Si ves a alguien trabajando, es muy probable que esté en el Estado A.
  • Si ves a alguien solo en la lista de "ingresos familiares" (porque su cónyuge trabaja) pero no en ninguna otra lista durante 3 años seguidos... ¡Bingo! El modelo deduce que probablemente es un "fantasma" (Estado B) que no se dio de baja.

¿Cómo lo hacen sin volverse locos? (La analogía de la "Bolsa de Botellas")

El mayor desafío es que hay 720.000 personas y 14 años de datos. Hacer los cálculos para todos a la vez es como intentar adivinar el resultado de lanzar un millón de dados al mismo tiempo: imposible para una computadora normal.

Para resolverlo, usan una técnica llamada "Bolsa de Botellas" (Bag of Little Bootstraps).

  • Imagina que tienes un océano de datos. En lugar de intentar analizar todo el océano de una vez, tomas 20 copas pequeñas de agua (subconjuntos de datos).
  • De cada copa, haces muchas copias pequeñas (resampling) para ver qué pasa.
  • Como cada copa es pequeña, la computadora puede procesarla rápido.
  • Al final, juntas todas las conclusiones de las 20 copas y obtienes una respuesta muy precisa para todo el océano, pero trabajando de forma inteligente y rápida.

¿Qué descubrieron en Suecia?

Al aplicar este "detective" a los datos suecos de inmigrantes:

  1. Descubrieron a los "fantasmas": Encontraron que hay mucha más gente que aparece en los registros pero que ya no vive en Suecia de lo que se pensaba. Especialmente en grupos muy móviles (como los de países vecinos) o en personas que dependen de ingresos familiares.
  2. Rastros individuales: No solo saben cuánta gente hay, sino que pueden seguir la "historia de vida" de cada persona: cuándo llegó, cuándo se fue, cuándo volvió y cuándo murió.
  3. Precisión: Su método es mucho mejor que las reglas antiguas (que decían "si no tiene ingresos, no vive aquí") porque entiende que la gente puede estar fuera pero seguir dejando rastro digital por accidente.

En resumen

Este artículo presenta una nueva forma de contar a la gente usando las huellas digitales que dejamos en los registros administrativos. En lugar de confiar ciegamente en las listas oficiales, usan un modelo matemático inteligente que:

  • Sabe que las listas tienen errores (gente que falta y gente fantasma).
  • Sigue los movimientos de la gente a lo largo del tiempo.
  • Usa trucos computacionales para manejar millones de datos sin tardar años en procesarlos.

Es como pasar de contar peces a ojo, a tener un sistema de cámaras y sensores que sabe exactamente cuántos peces hay, cuáles se fueron y cuáles son solo reflejos en el agua.