Functional Bias and Tangent-Space Geometry in Variational Inference

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个在统计学和人工智能中非常核心的问题：当我们用一种“简化版”的模型去猜测复杂的真相时，我们会在哪里犯错？又会在哪里意外地猜对？

作者 Sean Plummer 用一种非常优雅的几何视角（把数学问题想象成空间中的形状）来解释为什么“变分推断”（Variational Inference, VI）这种流行的近似方法会有特定的偏差。

为了让你轻松理解，我们可以把整个过程想象成**“在一张只有横竖线的网格纸上，试图画出一个复杂的曲线”**。

1. 核心场景：网格纸与复杂的真相

真相（后验分布 $\pi$ ）：想象你面前有一个极其复杂、蜿蜒曲折的 3D 地形图（比如真实的天气系统、股票市场的波动）。这是完美的、真实的分布，但太复杂了，算不过来。
简化模型（变分族 $Q$ ）：为了计算方便，你决定只用一张只有横线和竖线组成的网格纸（这就是“结构化平均场”模型）去覆盖这个地形。你只能画直线，不能画斜线，也不能画波浪线。
目标：你要在这张网格纸上画出一个形状，让它尽可能贴近那个复杂的地形。

2. 几何视角：什么是“切空间”？

论文引入了一个关键概念：切空间（Tangent Space）。

比喻：想象你的网格纸不仅仅是纸，它还是一个**“允许移动的游乐场”**。
- 在这个游乐场里，你可以左右移动（改变 X 轴上的分布），也可以上下移动（改变 Y 轴上的分布）。
- 但是，你不能同时让 X 和 Y 发生某种复杂的联动（比如“如果 X 变大，Y 必须变小”这种斜向的互动）。
切空间：就是你在网格纸上所有能合法移动的方向的集合。
- 在这个例子里，切空间 = {所有独立的横向移动 + 所有独立的纵向移动}。
- 切空间的补集（正交补）：就是那些你无法移动的方向，也就是那些**“斜向的互动”**（Cross-block dependencies）。

3. 核心发现：偏差的“几何法则”

论文最精彩的结论是：你的猜测会错在哪里，完全取决于你想测量的东西（函数）是不是“斜向”的。

作者发现了一个**“偏差分解”**法则：

情况 A：你想测量的东西是“直来直去”的（在切空间内）

例子：你想知道“平均气温是多少”（只跟 X 有关），或者“平均湿度是多少”（只跟 Y 有关）。
结果：你的网格纸模型会非常准！
原因：因为这些方向就在你的“游乐场”里，模型可以自由调整去贴合真相。即使有误差，也是极小的“二阶误差”（就像你画直线时手抖了一点点，几乎看不出来）。

情况 B：你想测量的东西是“斜向互动”的（在切空间外）

例子：你想知道“气温和湿度的相关性"（如果气温高，湿度是不是就低？），或者“同时发生极端高温和极端干旱的概率”。
结果：你的模型会产生巨大的、系统性的偏差！
原因：因为“相关性”或“联合概率”需要斜向的线，而你的网格纸没有斜线。模型被迫用横线和竖线去强行拼凑一个斜线，结果就是歪了。
论文结论：这种偏差是一阶的（很大的、主要的误差），而且是由那些你**“画不出来”的互动部分**直接决定的。

4. 为什么这很重要？（生活中的类比）

想象你在做一道复杂的菜（真相），但你只有一把直尺和一把圆规（变分模型）。

如果你想量桌子的长度（单一变量的期望），直尺量得很准。
如果你想量桌子的对角线长度（两个变量的联合分布/协方差），你只能用直尺量长、圆规量宽，然后自己算。但因为你无法直接画出对角线，你的计算结果会系统性地偏小或偏大。

这篇论文告诉我们：

不要指望模型能算出所有东西：如果你用这种简化模型，“独立性”相关的统计量（如均值、方差）通常很准。
警惕“互动”指标：如果你关心的是**“变量之间的相互关系”（如协方差、联合尾部概率），这种模型一定会出错**，而且错得很有规律（总是低估或扭曲这种关系）。
改进方向：如果你想算得更准，就得换一张带斜线的纸（使用更复杂的变分族，比如结构化平均场，允许块与块之间有互动），这样你的“切空间”就变大了，能覆盖的方向就多了，偏差就小了。

5. 总结：一句话看懂

这篇论文用几何语言证明了：变分推断模型就像一张只有横竖线的网格纸，它能完美地描绘“独立”的世界，但一旦涉及到“互动”和“关联”，它就会因为画不出斜线而产生系统性的扭曲。

这就解释了为什么在机器学习中，我们常常发现模型能很好地预测平均值，但在预测变量之间的相关性时却总是表现不佳。这不是算法不够聪明，而是**“画纸”的几何结构限制了它的能力**。

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于变分推断（Variational Inference, VI）中后验泛函偏差几何结构的深度技术总结。该论文由 Sean Plummer 撰写，提出了一种基于流形几何和切空间（Tangent Space）的理论框架，用于解释和量化变分近似带来的系统性偏差。

以下是该论文的详细技术总结：

1. 研究背景与问题 (Problem)

背景：变分推断通过将一个复杂的后验分布投影到一个易于处理的分布族（变分族）上来近似贝叶斯后验。虽然这种方法在计算上可扩展，但它引入了系统性偏差。
现有局限：传统的理论分析主要关注全局散度度量（如 KL 散度）或后验收缩率。然而，实际应用中往往更关心特定的后验摘要（Posterior Summaries），如期望、方差、协方差或尾部概率。
核心问题：在变分近似下，哪些后验泛函（Functional）能被准确估计？哪些会产生显著偏差？这种偏差的几何结构是什么？

2. 方法论：几何框架 (Methodology)

论文建立了一个基于希尔伯特空间 $L^2(q^*)$ 的几何框架，将变分解视为后验分布到变分族的 KL 投影。

对数密度残差 (Log-density Residual)：定义 $\Delta(\theta) = \log \frac{q^*(\theta)}{\pi(\theta)}$ ，其中 $q^*$ 是变分近似， $\pi$ 是真实后验。
变分切空间 (Variational Tangent Space, $T_{q^*}Q$ )：由变分族在最优解 $q^*$ 处的得分函数（Score functions）张成的线性空间。它代表了变分分布可以在局部扰动而不离开该族的方向。
正交性引理 (Lemma 1)：基于 KL 最优性条件，残差 $\Delta$ 与切空间 $T_{q^*}Q$ 正交，即对于任意 $h \in T_{q^*}Q$ ，有 $E_{q^*}[h \Delta] = 0$ 。
测度变换展开：利用恒等式 $E_\pi[g] = E_{q^*}[g e^{-\Delta}]$ 和泰勒展开 $e^{-x} \approx 1 - x + \rho(x)$ ，将后验期望与变分期望的差值分解为线性项（由 $\Delta$ 主导）和高阶余项。

3. 核心贡献与理论结果 (Key Contributions & Results)

A. 泛函偏差分解 (Functional Bias Decomposition)

定理 1 (变分投影恒等式) 是论文的核心结论。对于任意后验泛函 $g$ ，将其正交分解为切空间分量 $g_\parallel$ 和正交补分量 $g_\perp$ ：
$g = g_\parallel + g_\perp, \quad g_\parallel \in T_{q^*}Q, \quad g_\perp \perp T_{q^*}Q$
偏差的主要项（一阶误差）由正交补分量决定：
$E_\pi[g] - E_{q^*}[g] = -\langle g_\perp, \Delta \rangle_{L^2(q^*)} + O(\|\Delta\|^2)$

结论：如果泛函 $g$ 完全位于切空间内（即 $g_\perp = 0$ ），其偏差仅为二阶（ $O(\|\Delta\|^2)$ ）；如果 $g$ 包含正交于切空间的分量，则会产生一阶偏差。

B. 结构化平均场 (Structured Mean-Field) 的几何刻画

针对结构化平均场变分族（参数被划分为块 $\theta = (\theta_{B_1}, \dots, \theta_{B_m})$ ，且假设块间独立）：

切空间特征 (Theorem 2)：切空间由块加性函数（Block-additive functions）组成，即形式为 $\sum f_b(\theta_{B_b})$ 的函数。
正交补特征：正交补空间由交互项（Interaction terms）组成，即涉及多个参数块耦合的函数，且满足给定任意单块时条件期望为零。
推论：平均场近似能准确估计参数块的加性摘要，但会在一阶水平上扭曲涉及块间依赖（交互）的统计量。

C. 局部渐近偏差分析 (Local Asymptotic Bias)

在局部渐近正态性（LAN）条件下，假设后验和变分近似均收敛到高斯分布：

定理 3：给出了偏差的显式渐近展开：
$E_{\pi_n}[g] - E_{q^*_n}[g] = \frac{1}{2n} \text{tr}(H_g(\Sigma - V)) + o_p(n^{-1})$
其中 $\Sigma$ 是后验协方差， $V$ 是变分近似协方差， $H_g$ 是 $g$ 的 Hessian 矩阵。
交叉协方差偏差 (Proposition 3)：对于交叉协方差泛函 $g(\theta) = \theta_i \theta_j (i \neq j)$ ，在平均场近似下（ $V$ 为对角阵），偏差为 $\frac{\Sigma_{ij}}{n}$ 。这意味着交叉块依赖关系在平均场近似下存在非零的一阶渐近偏差。
切空间泛函的无偏性 (Theorem 4)：如果 $g$ 是块加性的（属于切空间），则其 Hessian 不含交叉项，与对角阵 $V$ 的交互项抵消，导致一阶偏差消失。

4. 具体示例 (Examples)

论文通过以下例子验证了理论：

交叉协方差：完全由正交补分量（交互项）主导，因此平均场近似会系统性地低估或扭曲块间相关性。
线性泛函的方差：方差中的交叉项（ $i \neq j$ ）导致偏差，而单变量平方项（ $i=j$ ）属于切空间，偏差较小。
联合尾部概率：联合尾部事件 $P(X>t, Y>s)$ 的指示函数包含交互分量，导致平均场近似在估计联合尾部概率时产生偏差，尽管边际尾部概率可能较准确。

5. 意义与影响 (Significance)

理论解释：为平均场变分推断中已知的“系统性扭曲交叉块依赖”现象提供了严格的几何解释。偏差并非随机，而是由变分族无法表示的“交互方向”决定的。
指导实践：
- 如果应用关注的是加性统计量（如单个参数的均值），平均场可能是足够的。
- 如果应用关注依赖结构（如协方差、相关性、联合风险），则必须使用结构化变分族（扩大块大小）或更复杂的族（如流模型），以扩展切空间并减少正交补的维度。
方法论创新：将半参数推断中的切空间投影概念引入变分推断，建立了一种评估变分近似质量的“泛函视角”，补充了传统的基于全局散度的评估方法。
未来方向：该框架可推广到混合模型、归一化流（Normalizing Flows）等更复杂的变分族，并可用于开发诊断工具，识别哪些后验摘要最容易受到变分偏差的影响。

总结：这篇论文通过引入切空间几何，证明了变分推断的偏差本质上是由**后验分布中无法被变分族切空间捕获的方向（即交互项）**所决定的。这一发现不仅解释了现有现象，也为设计更准确的变分近似提供了理论依据。