Each language version is independently generated for its own context, not a direct translation.

タイトル：「変分推論の『偏見』と、見えない影の幾何学」

1. 問題の核心：「完璧な地図は作れない」

まず、背景を説明しましょう。
統計学では、複雑なデータから「真実（事後分布）」を推測したいとします。しかし、真実の形はあまりに複雑で、計算機では直接描けません。

そこで使われるのが**「変分推論」です。これは、「複雑な真実の形を、計算しやすい単純な形（例えば、丸い箱や直方体）に置き換えて近似する」**という方法です。

真実（Posterior）： 山や谷、川が複雑に入り組んだ本物の地形。
変分推論（Variational Approximation）： その地形を、平らな四角いブロックや単純な箱で表現しようとする試み。

このとき、**「どの情報は正確に再現でき、どの情報は大きく歪んでしまうのか？」**が今回のテーマです。

2. 核心の発見：「影（Tangent Space）」の法則

論文の最も重要な発見は、**「歪み（バイアス）は、その形が『変分推論の得意分野』からどれだけ外れているかで決まる」**というものです。

ここで**「変分推論の得意分野（接空間：Tangent Space）」を「変形できる方向」や「描ける影」**と想像してください。

得意な方向（接空間内）：
変分推論が自在に表現できる方向です。例えば、「ブロック A の形」や「ブロック B の形」 individually（個別に）見るなら、変分推論は非常に得意です。
- 結果： これらの情報は**「ほぼ正確」**に計算されます。誤差はごくわずかです。
苦手な方向（接空間の外）：
変分推論が表現できない方向です。例えば、「ブロック A とブロック B が互いにどう影響し合っているか（相互作用）」という複雑な関係性です。
- 結果： これらの情報は**「大きく歪んで」**しまいます。これが論文で言う「一次の偏見（Leading-order bias）」です。

【アナロジー：影絵と手品】
変分推論を「手品師」と想像してください。手品師は「手」の動き（ブロックごとの情報）は完璧に再現できますが、「手と手がつながっている瞬間の複雑な動き（ブロック間の相互作用）」は再現できません。
もし、あなたが「手と手の関係」を聞けば、手品師はそれを無視して、それぞれの手の動きだけを説明します。その結果、「手と手の関係」という重要な情報が、影（歪み）として失われてしまうのです。

3. 具体的な例：なぜ「相関」は壊れるのか？

論文では、この理論が実際にどう働くかをいくつかの例で示しています。

例①：相関関係（クロス・コバリアンス）
「X と Y が一緒に動く傾向」を知りたいとします。
- 変分推論（特に「平均場近似」と呼ばれる単純な方法）は、X と Y を**「互いに無関係な別々の箱」**として扱おうとします。
- そのため、「X と Y が一緒に動く」という**「相互作用」**の部分は、変分推論の「得意分野（箱）」の外にあり、完全に無視されてしまいます。
- 結論： 相関関係は、変分推論を使うと**「ゼロ」や「間違った値」**として出てきてしまい、大きな誤差になります。
例②：平均値や分散
「X の平均値」や「Y の分散」を知りたいとします。
- これらは「X だけ」や「Y だけ」の情報なので、変分推論の「得意分野」の中にあります。
- 結論： これらは非常に正確に計算されます。

4. 大規模データでも同じことが起きる

論文の後半では、データ量（サンプル数）が増えたときの話もしています。
「データが無限に増えれば、変分推論も完璧になるのでは？」と思うかもしれませんが、違います。

データが増えると、真実の形はより明確になりますが、変分推論が使う「単純な箱」の形は変わりません。
そのため、「箱では表現できない部分（相互作用）」の歪みは、データが増え続けても消えません。
逆に、「箱で表現できる部分（個別の平均など）」は、データが増えるほど正確になります。

これは、**「どんなに高性能なカメラでも、レンズの歪み（変分推論の構造）自体は変わらない」**ようなものです。レンズの歪みがある限り、歪んだ部分は永遠に歪んだままです。

5. 私たちへのメッセージ：「何を見るか」が重要

この論文が私たちに教えてくれるのは、**「変分推論を使うときは、何を知りたいかを慎重に選ぶべきだ」**ということです。

OK なこと： 個々のパラメータの平均値や、単純な分散を知りたい場合。
NG なこと（注意が必要）： 「A と B の関係性」や「同時に起こる確率（同時確率）」を知りたい場合。これらは変分推論の「苦手な影」の部分なので、結果を鵜呑みにせず、注意が必要です。

また、**「構造を持った変分推論（Structured Mean-Field）」という、少し複雑な箱の組み合わせを使う方法を採用すれば、「得意な範囲」を広げることができます。つまり、「箱の形を少し工夫するだけで、歪みを減らせる」**という希望も示しています。

まとめ

この論文は、**「変分推論という道具は、特定の方向（個別の情報）には非常に鋭いが、他の方向（複雑な関係性）には盲目である」**ということを、数学的な「影と光」の幾何学で証明しました。

私たちがこの道具を使うときは、**「自分が知りたい情報が、その道具の『得意な影』の中に収まっているか」**を常に意識する必要がある、という教訓です。

Each language version is independently generated for its own context, not a direct translation.

論文「Functional Bias and Tangent-Space Geometry in Variational Inference」の技術的サマリー

1. 概要と問題設定

変分推論（Variational Inference, VI）は、複雑な統計モデルにおけるベイズ事後分布の近似手法として広く用いられています。しかし、従来の理論解析の多くは、KL ダイバージェンスや事後分布の収束率といった大域的な近似精度に焦点を当てており、実際の応用で重要となる特定の事後要約（期待値、分散、共分散、尾部確率など）の推定精度については十分に理解されていません。

本論文は、変分近似によって生じる事後関数（posterior functionals）のバイアスを、幾何学的な視点から分析する枠組みを提案しています。特に、変分族（variational family）が誘導する「接空間（tangent space）」と、事後分布の関数がその接空間に対してどのように直交するかという関係が、バイアスの構造を決定づけることを示しています。

2. 手法と理論的枠組み

2.1 変分射影と残差の幾何学

著者は、事後分布 $\pi$ を変分族 $Q$ への KL 射影 $q^*$ として捉えます。ここで、対数密度残差 $\Delta(\theta) = \log(q^*(\theta)/\pi(\theta))$ を定義し、変分族の接空間 $T_{q^*}Q$ における残差の直交性を示します（Lemma 1）。

接空間直交性: KL 最適化条件より、残差 $\Delta$ は変分族の接空間 $T_{q^*}Q$ に対して $L^2(q^*)$ 内積で直交します（ $E_{q^*}[h \Delta] = 0$ for $h \in T_{q^*}Q$ ）。

2.2 関数バイアスの分解（Functional Bias Decomposition）

事後期待値 $E_\pi[g]$ と変分近似期待値 $E_{q^*}[g]$ の差を、関数 $g$ の接空間への射影を用いて分解します（Theorem 1）。

$g$ を接空間成分 $g_\parallel$ と直交補空間成分 $g_\perp$ に分解します。
主要な結果: 事後関数のバイアスの主要項（leading-order bias）は、接空間に直交する成分 $g_\perp$ と残差 $\Delta$ の内積によって決定されます。
$E_\pi[g] - E_{q^*}[g] = -\langle g_\perp, \Delta \rangle + O(\|\Delta\|^2)$
したがって、 $g$ が接空間内に完全に含まれる場合（ $g_\perp = 0$ ）、バイアスは二次のオーダー（ $O(\|\Delta\|^2)$ ）に抑えられ、一次のバイアスは生じません。

2.3 構造化平均場（Structured Mean-Field）への適用

パラメータをブロック $\theta = (\theta_{B_1}, \dots, \theta_{B_m})$ に分割する構造化平均場モデルにおいて、接空間を明示的に特徴付けます（Theorem 2）。

接空間の構造: 変分族の接空間は、各ブロックに依存する**ブロック加法的関数（block-additive functions）**の集合です。
直交補空間: 複数のブロックをまたぐ**相互作用項（interaction terms）**に対応します。
結論: 平均場近似は、パラメータブロックの加法的要約を正確に表現しますが、ブロック間の依存性（相互作用）に敏感な要約については、一次のバイアスを生じます。

2.4 局所漸近正規性（LAN）下での漸近展開

標準的なパラメトリックモデルにおいて、事後分布が局所的にガウス分布に収束する仮定（Bernstein-von Mises 定理）の下で、バイアスの漸近的な振る舞いを導出します（Theorem 3, Proposition 3）。

事後分布の共分散行列 $\Sigma$ と変分近似の共分散行列 $V$ の不一致がバイアスを生みます。
平均場近似（ $V$ は対角行列）の場合、**クロスブロック共分散（cross-covariance）**のような相互作用に敏感な関数において、バイアスが $O(n^{-1})$ のオーダーで残存し、消失しないことを示します。
$E_{\pi_n}[\theta_i \theta_j] - E_{q^*_n}[\theta_i \theta_j] = \frac{\Sigma_{ij}}{n} + o(n^{-1}) \quad (i \neq j)$

3. 主要な貢献

変分射影の関数バイアス分解の導出: 事後関数のバイアスを、変分接空間の直交補空間の成分として表現する一般論を確立しました。
接空間整合性のバイアス低減効果: 接空間に整合する関数（ブロック加法的関数など）は、変分近似下で二次のバイアスしか持たないことを証明しました。
構造化平均場の接空間の明示的特徴付け: 接空間がブロック加法的関数からなり、相互作用項がバイアスの主要因となることを示しました。
具体例による検証: 事後共分散、線形対比の分散、同時尾部確率などの具体例を通じて、理論の妥当性を示しました。
漸近的バイアス展開の導出: 局所漸近正規性の下で、欠落した相互作用方向がクロスブロック依存性測度に一次の漸近的歪みをもたらすことを示しました。

4. 結果と知見

平均場近似の系統的歪みの幾何学的説明: 平均場近似がクロスブロック依存性（共分散など）を系統的に過小評価する（歪める）現象は、これらの関数が変分接空間の直交補空間（相互作用項）に属しているため、一次のバイアスを免れないという幾何学的な事実によって説明されます。
加法的要約の正確性: 個々のパラメータブロックの期待値や分散など、加法的な要約は接空間内に含まれるため、変分近似によって比較的正確に推定されます。
構造化平均場の優位性: ブロック構造をより細かく分割したり、ブロック内の依存性を許容する構造（structured mean-field）を採用することで、接空間が拡大し、直交補空間の次元が減少します。これにより、一次のバイアスを受ける関数の数が減り、近似精度が向上します。

5. 意義と結論

本論文は、変分推論の性能評価を、従来の大域的な発散尺度（KL 発散など）だけでなく、「どの事後要約を正確に推定できるか」という関数クラスの観点から再定義する重要な枠組みを提供しています。

理論的意義: 半パラメトリック推論における効率推定量の特性（影響関数と接空間の直交性）と変分推論のバイアス構造の間に深い類似性を見出し、変分影響関数（variational influence functions）の概念を導入しました。
実用的意義: 研究者や実務家は、関心のある事後要約が変分族の接空間に属するかどうかを確認することで、その推定値にどの程度のバイアスが期待されるかを予測できます。また、特定の依存構造を正確に捉えたい場合、接空間を拡張する（より複雑な変分族を選ぶ）ことの必要性を幾何学的に裏付けます。

総じて、変分近似のバイアスは「変分族の幾何学（接空間）」と「推定したい関数の幾何学（接空間への射影）」の相互作用によって決定されるという洞察は、変分推論の理論的理解を深め、より適切なモデル設計や診断ツールの開発への道を開くものです。

Functional Bias and Tangent-Space Geometry in Variational Inference