Dirichlet kernel density estimation on the simplex with missing data

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que estás intentando entender la "receta" perfecta de una sopa, pero no tienes acceso a todas las ollas de la cocina. Algunos chefs han dejado sus recetas a medias, otros han perdido sus notas, y solo tienes una parte de la información. Además, la "sopa" en este caso es especial: es una mezcla de ingredientes que siempre suman el 100% (como si fueras a mezclar harina, agua y levadura, y la suma siempre tiene que ser la masa total).

Este artículo de investigación es como un manual de cocina inteligente para reconstruir esa receta perdida, incluso cuando faltan datos, sin tener que adivinar o inventar los ingredientes que faltan.

Aquí te explico la idea principal usando analogías sencillas:

1. El Problema: La Sopa Incompleta (Datos Composicionales y Datos Faltantes)

Imagina que estudias la composición de la sangre de las personas (cuánto hay de glóbulos rojos, blancos, etc.). Estos datos son "composicionales": si tienes 50% de un tipo, el resto debe ser el otro 50%. No puedes tener 60% de todo.

El problema es que, a veces, los pacientes no se hacen el análisis completo.

El error común: La mayoría de los estadísticos dirían: "¡Bueno, inventemos los datos que faltan basándonos en lo que tenemos!" (esto se llama imputación). Es como si, al ver que falta sal en una receta, le dijeras a un amigo: "Adivina cuánto sal falta" y luego cocinaras con esa suposición. Si te equivocas en la adivinanza, toda la receta sale mal.
La solución de este paper: En lugar de inventar los datos, dicen: "No inventemos nada. Simplemente prestemos más atención a las recetas que sí tenemos, pero dándoles más peso si son difíciles de encontrar".

2. La Herramienta Mágica: El "Dirichlet" (El Molde Perfecto)

Para estudiar estas mezclas (donde todo suma 100%), no puedes usar reglas normales de geometría (como medir en una hoja de papel plana). Necesitas un molde especial que respete las reglas de la "sopa".

Los autores usan algo llamado Núcleo Dirichlet.

La analogía: Imagina que quieres dibujar un mapa de calor en una pizza triangular. Los métodos antiguos usaban círculos perfectos que se salían de la pizza por los bordes, arruinando el mapa. El Núcleo Dirichlet es como un molde triangular flexible que se adapta perfectamente a los bordes de la pizza. Nunca se sale de la zona permitida y se comporta muy bien en las esquinas.

3. El Truco: Ponderación por Probabilidad Inversa (IPW)

Aquí entra la parte brillante. Como faltan datos, las recetas que tenemos podrían estar sesgadas (quizás solo tenemos recetas de gente joven y falta la de los ancianos).

La analogía del concierto: Imagina que estás en un concierto y quieres saber la edad promedio de la audiencia, pero solo puedes ver a la gente que está en la primera fila (porque los de atrás tienen la cabeza tapada).
- Si solo promedias a los de la primera fila, te equivocas.
- La solución es: "Si sé que es difícil ver a alguien de la tercera fila, le doy más valor a cada persona que logro ver de la primera fila".
- En el papel, usan un paso extra: estiman la probabilidad de que alguien haya sido "visto" (que tuviera el dato completo) basándose en otras cosas que sí conocemos (como su Índice de Masa Corporal o BMI). Si es poco probable que alguien tuviera el dato, le damos un "peso" gigante a su receta para compensar.

4. ¿Funciona de verdad? (Simulaciones y Datos Reales)

Los autores probaron su método de dos formas:

En la computadora (Simulaciones): Crearon miles de sopas falsas, les quitaron datos al azar y probaron su método contra otros métodos (como transformar los datos a una escala logarítmica, que es como intentar medir una pizza con una regla de metro).
- Resultado: Su método (el molde triangular inteligente + el truco de los pesos) siempre encontró la receta más cercana a la realidad, especialmente cuando había muchos datos faltantes.
En la vida real (NHANES): Lo aplicaron a datos reales de salud de Estados Unidos sobre la composición de glóbulos blancos.
- El hallazgo: Podían identificar con precisión cuál era el "perfil de inmunidad más común" en la población, a pesar de que muchos participantes tenían datos incompletos. Descubrieron que la mezcla típica era algo así como 57% neutrófilos, 32% linfocitos y 11% otros. Es como encontrar el "sabor promedio" de la población sin tener que adivinar los ingredientes faltantes.

En Resumen

Este paper nos dice: "Cuando te faltan piezas del rompecabezas, no intentes inventarlas. En su lugar, mira las piezas que tienes y dale más importancia a las que son más difíciles de conseguir, usando una herramienta geométrica especial que respeta las reglas del juego."

Es una forma más honesta, precisa y elegante de entender datos complejos y incompletos, como la composición de la sangre, la dieta o la distribución de recursos en un país.

Each language version is independently generated for its own context, not a direct translation.

1. Planteamiento del Problema

El artículo aborda el problema de la estimación de densidad no paramétrica para datos composicionales. Estos datos consisten en vectores de componentes no negativos que suman uno, por lo que su soporte geométrico es el simplex ( $S_d$ ). Ejemplos típicos incluyen perfiles de microbioma, composiciones geoquímicas y asignaciones de portafolios financieros.

El desafío central es la presencia de datos faltantes bajo un mecanismo de Missing At Random (MAR). En este escenario, la probabilidad de que una observación esté faltante depende de covariables totalmente observadas ( $X$ ), pero no de los valores faltantes mismos ( $Y$ ).

Limitaciones de los enfoques existentes:
- La imputación de valores faltantes seguida de estimación de densidad es indirecta y requiere modelar la relación entre datos faltantes y observados, lo cual puede introducir sesgos si el modelo de imputación es incorrecto.
- El análisis de casos completos (ignorar datos faltantes) genera estimadores sesgados bajo mecanismos MAR.
- Los métodos estándar de suavizado por núcleos (kernel) en espacios euclidianos fallan al aplicarse directamente al simplex debido a la restricción de cierre (suma = 1) y a los efectos de borde.

2. Metodología Propuesta

Los autores proponen un estimador de densidad basado en núcleos de Dirichlet adaptado mediante ponderación por probabilidad inversa (IPW, por sus siglas en inglés).

A. El Estimador Pseudo-IPW

Cuando las probabilidades de observación (puntuaciones de propensión, $\pi(X)$ ) son conocidas, se define el estimador pseudo:
$\tilde{f}_{n,b}(s) = \frac{1}{n} \sum_{i=1}^n \frac{\delta_i}{\pi(X_i)} \kappa_{s,b}(Y_i)$
Donde:

$\delta_i$ es el indicador de observación.
$\kappa_{s,b}(\cdot)$ es el núcleo de Dirichlet asimétrico adaptado al punto $s$ y al parámetro de suavizado $b$ . Este núcleo garantiza que la estimación sea no negativa y se comporte bien cerca de los bordes del simplex.

B. El Estimador Factible

En la práctica, $\pi(X)$ es desconocido. Los autores proponen estimarlo mediante un regresor de Nadaraya-Watson ( $\hat{\pi}_i$ ) utilizando las covariables observadas. El estimador final factible es:
$\hat{f}_{n,b}(s) = \frac{1}{n} \sum_{i=1}^n \frac{\delta_i}{\hat{\pi}_i(X_{1:n})} \kappa_{s,b}(Y_i)$

C. Selección de Parámetros

Ancho de banda ( $b$ ): Se selecciona mediante un criterio de validación cruzada por mínimos cuadrados (LSCV) adaptado al entorno IPW, minimizando el error cuadrático integrado estimado.
Ancho de banda de la propensión ( $h$ ): Se selecciona utilizando reglas empíricas (como la regla de Silverman) para la estimación del núcleo de Nadaraya-Watson en el espacio de las covariables.

3. Contribuciones Clave y Resultados Teóricos

El artículo establece una teoría asintótica completa para ambos estimadores (pseudo y factible) bajo condiciones de regularidad estándar (densidad Lipschitz, soporte acotado, etc.).

A. Sesgo y Varianza

Sesgo: Se demuestra que el término principal del sesgo del estimador IPW es idéntico al del estimador de núcleo de Dirichlet con datos completos. La presencia de datos faltantes (MAR) no introduce un nuevo término de sesgo de primer orden.
Varianza: La varianza se incrementa por un factor $(1 + \zeta(s))$ $(1 + ζ (s))$ , donde $\zeta(s)$ $ζ (s)$ depende de la variabilidad de las probabilidades de observación.
- Para el estimador factible (cuando $\pi$ se estima), se identifica un término de reducción de varianza de segundo orden ( $-n^{-1}\xi(s)$ ). Esto implica que estimar las propensiones no infla la varianza en el primer orden, siempre que se cumplan ciertas condiciones de suavidad.

B. Tasas Óptimas y Normalidad Asintótica

Se derivan las tasas óptimas de suavizado: $b \sim n^{-2/(d+4)}$ para la densidad y $h \sim n^{-1/(p+4)}$ para la propensión.
Se prueba la normalidad asintótica del estimador estandarizado.
Condición Crítica ( $p < d$ ): El teorema de normalidad asintótica para el estimador factible requiere que la dimensión de las covariables ( $p$ ) sea estrictamente menor que la dimensión del simplex ( $d$ ). Si $p \geq d$ , el error de estimación de la propensión domina el error de estimación de la densidad (maldición de la dimensionalidad), invalidando la normalidad estándar a menos que se usen núcleos de orden superior o supuestos más estrictos.

4. Resultados Empíricos (Simulaciones y Aplicación Real)

A. Estudio de Simulación

Se comparó el método propuesto (IPW Dirichlet) contra alternativas basadas en transformaciones log-ratio (alr e ilr) aplicadas a estimadores de núcleo en espacios euclidianos.

Desempeño: El estimador IPW Dirichlet superó consistentemente a las alternativas log-ratio en términos de Error Cuadrático Integrado (ISE) para diversos tamaños de muestra ( $n=100$ a $800$) y tasas de missingness (5% a 40%).
Estabilidad: El método mostró mayor estabilidad y menor dispersión, especialmente en configuraciones con alta tasa de datos faltantes.
Selección de ancho de banda: El criterio LSCV adaptado funcionó eficazmente para seleccionar el parámetro $b$ .

B. Aplicación a Datos Reales (NHANES)

Se aplicó el método a datos del National Health and Nutrition Examination Survey (NHANES) 2017-2018.

Objetivo: Estimar la distribución de la composición de leucocitos (Neutrófilos, Linfocitos y Otros) en función del Índice de Masa Corporal (IMC).
Datos: Se utilizaron $n=8005$ participantes, con una tasa de datos faltantes en la composición de leucocitos de aproximadamente el 9.1% (debido a fallos en el análisis de sangre).
Hallazgo: El estimador identificó un modo dominante en la composición de leucocitos: aproximadamente 57% Neutrófilos, 32% Linfocitos y 11% Otros. Este perfil se alinea con rangos de referencia biológicos para poblaciones adultas sanas, demostrando la utilidad práctica del método para identificar perfiles inmunológicos típicos a pesar de los datos incompletos.

5. Significado e Impacto

Este trabajo es significativo por varias razones:

Geometría Intrínseca: Ofrece un marco riguroso para la estimación de densidad en el simplex que respeta las restricciones geométricas naturales de los datos composicionales, evitando las distorsiones que pueden introducir las transformaciones log-ratio.
Manejo Directo de Datos Faltantes: Proporciona una solución directa (IPW) para el problema de datos faltantes en estimación de densidad, evitando la necesidad de imputar valores y modelar la distribución conjunta de datos faltantes/observados.
Fundamento Teórico Sólido: Establece las propiedades asintóticas (sesgo, varianza, normalidad) necesarias para la inferencia estadística en este contexto complejo.
Aplicabilidad: Demuestra su utilidad en ciencias de la salud y epidemiología, donde los datos composicionales (como perfiles celulares o dietéticos) son comunes y a menudo sufren de datos faltantes no aleatorios.

En resumen, el artículo presenta una metodología robusta y teóricamente fundamentada para analizar datos composicionales incompletos, superando a las técnicas tradicionales basadas en transformaciones y ofreciendo una herramienta valiosa para el análisis de datos en el simplex.