A capture-recapture hidden Markov model framework for register-based inference of population size and dynamics

Each language version is independently generated for its own context, not a direct translation.

Imagina que quieres saber cuántas personas viven realmente en una ciudad. Lo ideal sería hacer un censo, pero eso es caro, lento y a veces desactualizado. Así que muchos países, como Suecia, usan "registros administrativos": listas de la administración (impuestos, trabajo, universidad, etc.) para saber quién está vivo y dónde.

El problema es que estas listas no son perfectas. Es como intentar adivinar cuántos peces hay en un lago usando solo las fotos que la gente sube a Instagram.

Los dos grandes problemas de las listas:

El pez invisible (Falso Negativo): Hay personas que viven en la ciudad pero no suben fotos a Instagram (no trabajan, no se casan, no van al hospital). La lista dice que no están, pero sí lo están.
El fantasma (Falso Positivo): Hay personas que ya se fueron del país, pero su nombre sigue apareciendo en las listas porque, por ejemplo, su familia sigue recibiendo una pensión o una ayuda familiar en su nombre. La lista dice que están, pero ya no están.

Además, la gente se mueve: entra, sale, vuelve, muere. Las listas antiguas no sabían distinguir bien entre un "fantasma" y un "visitante temporal".

La solución de los autores: Un detective con una lupa mágica

Los autores de este artículo (Lucy Brown y su equipo) han creado un nuevo método matemático, una especie de "detective digital" que usa dos herramientas muy potentes:

1. El modelo de "Atrapa y Vuelve" (Capture-Recapture)

Imagina que eres un pescador. Lanzas una red (un registro), capturas algunos peces, les pones una etiqueta y los sueltas. Luego lanzas otra red (otro registro).

Si un pez tiene etiqueta, sabes que ya lo viste antes.
Si un pez no tiene etiqueta, es nuevo.
Si no ves a un pez en ninguna red, sabes que existe, pero no lo atrapaste.

Este método tradicional funciona bien para animales, pero es muy difícil de aplicar a millones de personas que se mueven, mueren o se van del país, y donde las "redes" (registros) a veces se confunden entre sí.

2. El Modelo Oculto (Hidden Markov Model)

Aquí es donde entra la magia. Imagina que cada persona tiene un estado secreto que no podemos ver directamente:

Estado A: Está en la ciudad y viva.
Estado B: Está fuera del país (emigró) pero sigue viva.
Estado C: Ha muerto.

Lo que vemos en los registros (trabajo, matrimonio, etc.) son solo pistas que nos ayudan a adivinar ese estado secreto.

Si ves a alguien trabajando, es muy probable que esté en el Estado A.
Si ves a alguien solo en la lista de "ingresos familiares" (porque su cónyuge trabaja) pero no en ninguna otra lista durante 3 años seguidos... ¡Bingo! El modelo deduce que probablemente es un "fantasma" (Estado B) que no se dio de baja.

¿Cómo lo hacen sin volverse locos? (La analogía de la "Bolsa de Botellas")

El mayor desafío es que hay 720.000 personas y 14 años de datos. Hacer los cálculos para todos a la vez es como intentar adivinar el resultado de lanzar un millón de dados al mismo tiempo: imposible para una computadora normal.

Para resolverlo, usan una técnica llamada "Bolsa de Botellas" (Bag of Little Bootstraps).

Imagina que tienes un océano de datos. En lugar de intentar analizar todo el océano de una vez, tomas 20 copas pequeñas de agua (subconjuntos de datos).
De cada copa, haces muchas copias pequeñas (resampling) para ver qué pasa.
Como cada copa es pequeña, la computadora puede procesarla rápido.
Al final, juntas todas las conclusiones de las 20 copas y obtienes una respuesta muy precisa para todo el océano, pero trabajando de forma inteligente y rápida.

¿Qué descubrieron en Suecia?

Al aplicar este "detective" a los datos suecos de inmigrantes:

Descubrieron a los "fantasmas": Encontraron que hay mucha más gente que aparece en los registros pero que ya no vive en Suecia de lo que se pensaba. Especialmente en grupos muy móviles (como los de países vecinos) o en personas que dependen de ingresos familiares.
Rastros individuales: No solo saben cuánta gente hay, sino que pueden seguir la "historia de vida" de cada persona: cuándo llegó, cuándo se fue, cuándo volvió y cuándo murió.
Precisión: Su método es mucho mejor que las reglas antiguas (que decían "si no tiene ingresos, no vive aquí") porque entiende que la gente puede estar fuera pero seguir dejando rastro digital por accidente.

En resumen

Este artículo presenta una nueva forma de contar a la gente usando las huellas digitales que dejamos en los registros administrativos. En lugar de confiar ciegamente en las listas oficiales, usan un modelo matemático inteligente que:

Sabe que las listas tienen errores (gente que falta y gente fantasma).
Sigue los movimientos de la gente a lo largo del tiempo.
Usa trucos computacionales para manejar millones de datos sin tardar años en procesarlos.

Es como pasar de contar peces a ojo, a tener un sistema de cámaras y sensores que sabe exactamente cuántos peces hay, cuáles se fueron y cuáles son solo reflejos en el agua.

Each language version is independently generated for its own context, not a direct translation.

Aquí presento un resumen técnico detallado del artículo "A capture-recapture hidden Markov model framework for register-based inference of population size and dynamics" (Un marco de modelos ocultos de Markov de captura-recaptura para la inferencia basada en registros del tamaño y la dinámica poblacional), traducido y sintetizado al español.

1. Planteamiento del Problema

La inferencia precisa sobre la dinámica poblacional (migración, cambios en el tamaño total) es crucial para la formulación de políticas y la asignación de recursos. Sin embargo, los censos tradicionales son costosos, infrecuentes y poco oportunos, lo que ha llevado a muchos países a adoptar enfoques basados en registros administrativos.

El desafío principal en este cambio es la incompletitud y el error de observación en los registros administrativos:

Falsos Negativos: Incluso cuando un individuo está presente, sus actividades pueden no generar registros en un periodo dado (ej. no tener empleo registrado).
Falsos Positivos: Algunos registros no son una "señal de vida" directa, sino artefactos administrativos o procesos a nivel de hogar. Un individuo puede aparecer en un registro (ej. ingresos familiares) aunque haya emigrado físicamente, lo que infla la estimación de la población presente.
Emigración Temporal: La ausencia de un registro no implica necesariamente emigración permanente; los individuos pueden regresar sin que se registre su salida.
Heterogeneidad: Las probabilidades de observación varían según características individuales y factores no observados.

Los métodos existentes (como los enfoques de "señal de vida" ad hoc o los modelos log-lineales de sistemas múltiples - MSE) suelen ignorar uno o ambos tipos de error, solo ofrecen instantáneas anuales (sin dinámica temporal) o son computacionalmente inviables para conjuntos de datos de población completa.

2. Metodología Propuesta

Los autores proponen un marco unificado y escalable que combina Modelos de Captura-Recaptura (CR) de tipo Cormack-Jolly-Seber (CJS) con Modelos Ocultos de Markov (HMM) y Estimación de Máxima Verosimilitud.

A. Estructura del Modelo Oculto de Markov (HMM)

El modelo trata el estado verdadero de un individuo (latente) y sus observaciones en los registros como un proceso estocástico:

Estados Latentes ( $Z_{it}$ ): Se definen estados como "Presente y vivo", "En el extranjero (vivo)", "Muerto" (estado absorbente). En el estudio de caso sueco, se refinan a 8 estados para distinguir entre emigración registrada, emigración no registrada (sobrecubrimiento) y muerte.
Proceso de Transición: Se modela mediante una cadena de Markov que incluye probabilidades de supervivencia ( $s_{it}$ ), emigración ( $e_{it}$ ), re-inmigración ( $r_{it}$ ) y desregistro administrativo ( $\lambda_{it}$ ). Estas probabilidades dependen de covariables observadas.
Proceso de Observación:
- Falsos Negativos: Se modelan mediante una distribución multinomial sobre combinaciones de registros y covariables.
- Falsos Positivos: Se introduce una probabilidad no nula de que un individuo en el extranjero aparezca en registros específicos (ej. ingresos familiares) debido a procesos administrativos indirectos.
- Heterogeneidad No Observada: Se incorpora mediante una Mezcla Finita (FMM) en el modelo de emisión. Esto permite capturar subgrupos de individuos con diferentes propensiones a aparecer en los registros (ej. alta vs. baja participación laboral) que no se explican por las covariables observadas.

B. Inferencia y Escalabilidad

Estimación: Se utiliza el algoritmo hacia adelante (forward algorithm) para marginalizar sobre los estados latentes y maximizar la función de verosimilitud.
Cuantificación de la Incertidumbre (BLB): Dado que los conjuntos de datos administrativos nacionales son masivos (cientos de miles de individuos), el bootstrap tradicional es computacionalmente inviable. Los autores integran el método Bag of Little Bootstraps (BLB). Este método divide los datos en subconjuntos pequeños, genera remuestreos ponderados y ajusta el modelo en paralelo, permitiendo obtener errores estándar e intervalos de confianza sin sacrificar la precisión estadística.
Decodificación: Se utiliza el algoritmo de Viterbi para reconstruir la trayectoria latente más probable de cada individuo (presente, ausente conocido, ausente desconocido, muerto).

3. Contribuciones Clave

Unificación de Enfoques: Es el primer marco que combina la estructura de captura-recaptura abierta (dinámica temporal) con la estructura de observación de los modelos de sistemas múltiples (MSE) para manejar dependencias entre registros y heterogeneidad.
Manejo de Errores de Observación: Modela explícitamente tanto los falsos negativos como los falsos positivos, lo cual es crítico para corregir el "sobrecubrimiento" (overcoverage) en registros administrativos.
Escalabilidad: Al utilizar HMMs con el algoritmo hacia adelante y BLB, el método es capaz de procesar poblaciones completas (nacional), superando la limitación de métodos bayesianos anteriores (como el de Santos et al., 2024) que solo podían manejar muestras pequeñas debido a la carga computacional.
Inferencia a Nivel Individual: Proporciona trayectorias individuales de migración y estado de presencia, permitiendo análisis detallados de subgrupos demográficos.

4. Resultados del Estudio de Caso (Suecia)

El modelo se aplicó a datos administrativos suecos de 721,854 adultos nacidos en el extranjero que entraron al país entre 2003 y 2016, utilizando 10 registros administrativos (empleo, educación, matrimonio, ingresos, etc.).

Estimación de Sobrecubrimiento: El modelo identificó que una proporción significativa de personas registradas en el censo oficial (RTB) en realidad no residen en el país. Las estimaciones de sobrecubrimiento oscilaron entre el 6% y el 12%, con un pico alrededor de 2009-2010.
Impacto de los Falsos Positivos: La comparación con modelos reducidos mostró que ignorar los falsos positivos subestima el sobrecubrimiento en un 3-4%. El modelo completo es capaz de distinguir entre individuos que realmente están presentes y aquellos que solo aparecen en registros de "ingresos familiares" mientras viven en el extranjero.
Heterogeneidad (FMM): La mezcla finita identificó dos grupos claros en la población: uno con alta probabilidad de estar en el registro de ingresos laborales y otro con baja probabilidad. Esta distinción mejoró la precisión de las estimaciones de observación.
Dinámica Migratoria: Se observaron patrones diferenciados por país de origen. Por ejemplo, los migrantes de Dinamarca/Norway mostraron altas tasas de emigración y desregistro, mientras que los de Islandia/Finlandia mostraron patrones de desregistro automático debido a acuerdos administrativos, lo que afectó la probabilidad de falsos positivos.
Estabilidad: La asignación a los grupos latentes (mezcla finita) fue altamente estable en las repeticiones del bootstrap.

5. Significado e Implicaciones

Este trabajo demuestra que es posible realizar modelado detallado de registros administrativos a escala nacional, superando las limitaciones de los métodos tradicionales.

Para la Estadística Oficial: Ofrece una alternativa robusta a los censos y a los métodos de "señal de vida" ad hoc, proporcionando estimaciones de población más realistas al corregir el sesgo por sobrecubrimiento.
Para la Investigación Demográfica: Permite entender no solo el tamaño de la población, sino también los procesos subyacentes (migración, mortalidad, desregistro) y la heterogeneidad individual en la interacción con el sistema administrativo.
Generalización: Aunque probado en Suecia (con un sistema de registros muy desarrollado), el marco es aplicable a otros países que utilizan datos administrativos, aunque podría requerir simplificaciones si la infraestructura de registros es más débil.

En conclusión, el marco propuesto representa un avance metodológico significativo al integrar la flexibilidad de los modelos de captura-recaptura con la capacidad de manejar grandes volúmenes de datos y errores de observación complejos, proporcionando una herramienta poderosa para la demografía basada en registros.