Functional Bias and Tangent-Space Geometry in Variational Inference

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un mapa del tesoro extremadamente complejo y detallado (la distribución posterior real), pero tu brújula y papel son muy simples y solo pueden dibujar líneas rectas o formas básicas (la familia variacional). Quieres encontrar el tesoro, pero tu mapa simplificado nunca será perfecto.

Este artículo de Sean Plummer no se pregunta "¿qué tan mal está el mapa en general?", sino algo más útil: "¿Qué partes del mapa son fiables y cuáles son totalmente falsas?"

Aquí tienes la explicación de la investigación usando analogías cotidianas:

1. El Problema: El Mapa Simplificado

En estadística avanzada, a veces es imposible calcular la verdad exacta. Así que usamos "Variational Inference" (Inferencia Variacional) para crear una aproximación más simple.

La realidad: Un terreno montañoso, con valles profundos y picos (la distribución real).
La aproximación: Un mapa dibujado con bloques rectangulares (como un videojuego de 8-bits).

La mayoría de los científicos miran el mapa completo y dicen: "Está un 90% cerca de la realidad". Pero el autor dice: "Eso no importa tanto. Lo que importa es si puedo confiar en la ubicación de un tesoro específico".

2. La Idea Central: La "Geometría" del Error

El autor usa una idea geométrica brillante. Imagina que el mapa simplificado tiene una "Zona de Seguridad" (el Espacio Tangente).

Lo que cabe en la Zona de Seguridad: Son cosas que tu mapa simple puede dibujar perfectamente (como líneas rectas o sumas simples).
Lo que queda fuera: Son cosas complejas que tu mapa no puede representar (como curvas suaves o interacciones entre dos variables).

La Regla de Oro del Artículo:

Si lo que buscas es algo que cabe en tu Zona de Seguridad (ej. el promedio de una sola variable), tu error será mínimo (casi imperceptible).
Si lo que buscas es algo que queda fuera (ej. cómo se relacionan dos variables entre sí), tu error será grande y sistemático.

3. La Analogía de los Bloques de Construcción (Mean-Field)

El artículo se centra en un tipo de mapa llamado "Mean-Field" (Campo Medio). Imagina que tienes dos cajas de bloques de construcción, la Caja A y la Caja B.

La Regla del Mapa Simple: "Solo puedes apilar bloques dentro de la Caja A y dentro de la Caja B, pero nunca puedes poner un bloque que conecte ambas cajas".
La Consecuencia:
- Si quieres saber cuántos bloques hay en la Caja A, tu mapa es perfecto.
- Si quieres saber cuántos bloques hay en la Caja B, tu mapa es perfecto.
- Pero, si quieres saber cómo se relacionan los bloques de la Caja A con los de la Caja B (¿si hay muchos en A, hay pocos en B?), tu mapa fallará estrepitosamente. Como no puedes poner "puentes" entre cajas, el mapa asume que son independientes, aunque en la realidad estén conectados.

4. ¿Qué significa esto en la vida real?

El autor demuestra matemáticamente que:

Promedios y Varianzas simples: Si solo te interesa el comportamiento individual de una parte del sistema, la aproximación es muy buena.
Correlaciones y Riesgos Conjuntos: Si te interesa saber qué pasa cuando dos cosas ocurren al mismo tiempo (ej. "¿Qué pasa si sube el precio del petróleo Y baja el dólar?"), la aproximación variacional suele fallar. Tiende a decir que no hay relación, cuando en realidad la hay.

5. La Conclusión: No todo el mapa es igual de malo

La gran lección del artículo es que no debemos juzgar un mapa por su error total, sino por qué tipo de preguntas podemos responder con él.

Si tu pregunta es simple (adicitiva), el mapa es excelente.
Si tu pregunta es compleja (interactiva), el mapa te dará una respuesta sesgada desde el principio.

En resumen:
Imagina que usas una foto en blanco y negro para diagnosticar una enfermedad.

Si la enfermedad se ve bien en blanco y negro (la forma de un órgano), el diagnóstico es bueno.
Si la enfermedad depende del color (sangre vs. tejido sano), el diagnóstico será un error.

Este artículo nos da las herramientas matemáticas para saber, antes de empezar, qué preguntas podemos responder con confianza y cuáles debemos evitar o tratar con mucho cuidado cuando usamos estos mapas simplificados. Nos dice: "No confíes en el mapa para ver las conexiones entre las cajas, pero confía en él para contar los bloques dentro de cada caja".

Each language version is independently generated for its own context, not a direct translation.

1. Planteamiento del Problema

La Inferencia Variacional (IV) es un método ampliamente utilizado para aproximar distribuciones posteriores bayesianas en modelos complejos, proyectando la posterior verdadera sobre una familia de distribuciones manejable (tractable) mediante la minimización de la divergencia de Kullback-Leibler (KL).

Aunque la IV ofrece ventajas computacionales significativas, introduce un sesgo sistemático cuya estructura no ha sido completamente entendida. La literatura teórica tradicional se ha centrado en medidas globales de calidad de aproximación (como la divergencia KL o tasas de contracción posterior). Sin embargo, muchas aplicaciones prácticas dependen de resúmenes específicos de la posterior, tales como:

Esperanzas (medias).
Varianzas y covarianzas.
Probabilidades de cola (tail probabilities).

La pregunta central que aborda el artículo es: ¿Qué resúmenes funcionales de la posterior pueden estimarse con precisión a partir de una aproximación variacional y cuáles sufren un sesgo estructural?

2. Metodología y Marco Teórico

El autor desarrolla un marco geométrico basado en la teoría de espacios de Hilbert y la inferencia semiparamétrica para analizar el sesgo de los funcionales posteriores.

A. Proyección Variacional y Residuo

Se define la aproximación variacional $q^*$ como la proyección de KL de la posterior $\pi$ sobre la familia variacional $\mathcal{Q}$ . Se introduce el residuo de log-densidad:
$\Delta(\theta) = \log \frac{q^*(\theta)}{\pi(\theta)}$
Este residuo mide la discrepancia entre la aproximación y la verdadera posterior.

B. Espacio Tangente Variacional ( $T_{q^*}\mathcal{Q}$ )

El núcleo del análisis es el espacio tangente de la familia variacional en el punto de proyección $q^*$ . Este espacio, denotado como $T_{q^*}\mathcal{Q}$ , representa las direcciones en las que la distribución variacional puede ser perturbada localmente sin salir de la familia $\mathcal{Q}$ .

Propiedad Clave (Lema 1): El residuo $\Delta$ es ortogonal al espacio tangente bajo el producto interno de $L^2(q^*)$ . Es decir, $E_{q^*}[h \Delta] = 0$ para todo $h \in T_{q^*}\mathcal{Q}$ .

C. Descomposición del Sesgo Funcional

El artículo establece que cualquier funcional de interés $g$ (una función de los parámetros) puede descomponerse ortogonalmente en $L^2(q^*)$ como:
$g = g_{\parallel} + g_{\perp}$
Donde:

$g_{\parallel} \in T_{q^*}\mathcal{Q}$ (componente alineada con el espacio tangente).
$g_{\perp} \perp T_{q^*}\mathcal{Q}$ (componente ortogonal, fuera del espacio tangente).

El Teorema 1 demuestra que el sesgo de la esperanza variacional respecto a la verdadera posterior se comporta como:
$E_{\pi}[g] - E_{q^*}[g] = -\langle g_{\perp}, \Delta \rangle_{L^2(q^*)} + O(\|\Delta\|^2)$
Esto implica que el sesgo de primer orden está determinado exclusivamente por la componente del funcional que es ortogonal al espacio tangente variacional.

3. Contribuciones Principales

Descomposición del Sesgo Funcional: Deriva una identidad que expresa el sesgo de cualquier funcional posterior en términos de su proyección ortogonal al espacio tangente variacional.
Caracterización de Funcionales Insesgados: Demuestra que los funcionales alineados con el espacio tangente ( $g_{\parallel}$ ) sufren solo un sesgo de segundo orden, mientras que los componentes ortogonales ( $g_{\perp}$ ) generan el error dominante.
Geometría del Media-Field Estructurado: Para familias de media-field estructuradas (donde los parámetros se dividen en bloques independientes), caracteriza explícitamente el espacio tangente como el conjunto de funciones aditivas por bloques.
- El complemento ortogonal corresponde a términos de interacción que acoplan múltiples bloques.
Expansión Asintótica Local: Bajo condiciones de normalidad asintótica local (Bernstein-von Mises), deriva expansiones explícitas del sesgo, mostrando que las direcciones de interacción omitidas producen una distorsión de primer orden en las medidas de dependencia cruzada.
Ejemplos Ilustrativos: Aplica la teoría a covarianzas cruzadas, varianzas de contrastes lineales y probabilidades de cola conjuntas.

4. Resultados Clave

A. Estructura del Sesgo en Media-Field

En aproximaciones de media-field estructuradas, el espacio tangente consiste en funciones de la forma $\sum f_b(\theta_{B_b})$ .

Resúmenes Aditivos: Funcionales que son sumas de funciones de bloques individuales (ej. $E[\theta_1] + E[\theta_2]$ ) están dentro del espacio tangente y se estiman con alta precisión (sesgo de segundo orden).
Interacciones: Funcionales que dependen de la interacción entre bloques (ej. $E[\theta_1 \theta_2]$ o $Cov(\theta_1, \theta_2)$ ) tienen componentes ortogonales al espacio tangente. Estos sufren un sesgo de primer orden.

B. Expansión Asintótica (Teorema 3 y Proposición 3)

En el régimen asintótico local donde la posterior es aproximadamente Gaussiana $N(\mu_n, \Sigma/n)$ y la variacional es $N(\mu_n, V/n)$ :

El sesgo asintótico para un funcional $g$ es proporcional a $\frac{1}{2n} \text{tr}(H_g(\Sigma - V))$ , donde $H_g$ es la Hessiana de $g$ .
Para media-field, $V$ es diagonal. Si $g(\theta) = \theta_i \theta_j$ con $i \neq j$ (covarianza cruzada), la Hessiana tiene componentes fuera de la diagonal.
Resultado: El sesgo asintótico de la covarianza cruzada es $\frac{\Sigma_{ij}}{n} + o(n^{-1})$ . Esto significa que la media-field no puede capturar la dependencia cruzada y distorsiona sistemáticamente estas medidas incluso en muestras grandes.

C. Interpretación Geométrica

El marco explica por qué la media-field falla en capturar dependencias: la familia variacional carece de "direcciones" en su espacio tangente para representar interacciones entre bloques. Cualquier funcional sensible a estas interacciones se proyecta fuera del espacio de aproximación, generando un error sistemático.

5. Significado e Implicaciones

Explicación Geométrica de Fenómenos Conocidos: Proporciona una justificación teórica rigurosa para la observación empírica de que la media-field subestima las varianzas y distorsiona las covarianzas, mientras que las medias marginales suelen ser precisas.
Diseño de Familias Variacionales: Sugiere que para mejorar la inferencia, no basta con minimizar la divergencia global; se debe expandir el espacio tangente para incluir las direcciones de interacción relevantes para los funcionales de interés. Esto justifica el uso de media-field estructurado (agrupando variables correlacionadas en bloques) para reducir el sesgo.
Nuevas Métricas de Evaluación: Propone evaluar las aproximaciones variacionales no solo por su divergencia global, sino por la clase de funcionales que su espacio tangente puede representar sin sesgo de primer orden.
Conexión con Inferencia Semiparamétrica: Establece un paralelo profundo con la teoría de estimadores eficientes, donde el error de estimación depende de la proyección ortogonal de la función de influencia sobre el espacio tangente del modelo.

En conclusión, el artículo demuestra que la geometría de la familia variacional dicta qué aspectos de la distribución posterior se preservan y cuáles se distorsionan, ofreciendo una herramienta predictiva para el comportamiento de la inferencia variacional en grandes muestras.