Integrating Out, Twice:The Open-System Case That Neural-Network Ensemble… — やさしい解説

ビッグアイデア：何かを無視する2つの方法

複雑なシステム（混雑した部屋や、ニューラルネットワークのようなAI）を理解しようとしている場面を想像してみてください。時には、システム内のすべての人や、すべての数値を追跡できないことがあります。その場合、自分が関心を持っている部分に集中するために、システムの一部を無視することを決断しなければなりません。

物理学や数学において、システムの一部を「無視する」あるいは「積分して消去する（integrating out）」という行為は、標準的な手法です。著者であるJin Lei氏は、これには2つの全く異なる方法があり、AI研究者は主に一方の手法を用いている一方で、核物理学者はもう一方の手法をマスターしていると主張しています。

1. 「閉じた」方法（AIが行っていること）

比喩： 友人たちのグループの写真を撮っているとします。ただし、あなたは背景をぼかすことに決めました。

何が起きているか： 背景の詳細は失われますが、友人たちの写真は完璧にクリアで「完全な」ままです。ぼかしによって、友人たちの光やエネルギーが奪われることはありません。単に背景のデータが取り除かれただけです。
AIにおいて： AI研究者がニューラルネットワーク内のランダムな数値（パラメータ）を平均化して取り除くとき、得られる結果は「閉じた」ものになります。数学は単純で、実数であり、対称性を保ったままです。これは情報の損失がない要約です。何も「逃げ出し」ません。

2. 「開いた」方法（核物理学が行っていること）

比喩： あなたは、ドアが少し開いた状態の部屋の中にいます。あなたは部屋の中の気圧を追跡しようとしています。

何が起きているか： 空気がドアから漏れ出しています。もしあなたが部屋の「中だけ」の空気を記述しようとするなら、その記述は、空気が外へ漏れているという事実を考慮に入れなければなりません。数学は「漏れやすく（leaky）」、複雑になります。あなたは、どれだけの空気がどこへ逃げたのかを記録する厳格な台帳（レシート）を持ち続けなければなりません。
核物理学において： これは**光学モデル（Optical Model）と呼ばれます。原子核が粒子と相互作用するとき、一部の粒子は「連続体（continuum）」（つまり、宇宙の他の部分）へと逃げていきます。原子核を記述する数学は「非エルミート（non-Hermitian）」になります（これは、複雑で漏れがあることを意味する専門的な言い方です）。決定的なのは、数学には、システムから逃れていった確率を正確に計上する「フラックス台帳（Flux Ledger）」**が含まれていることです。

本論文の主な主張

著者は次のように述べています。「AIは『閉じた』バージョンしか行っていません。AIは『開いた』バージョンを見落としています。」

AI研究者には、「閉じた」数学と核物理学の間を翻訳するための優れた辞書が存在します。例えば：

ニューラル・タンジェント・カーネル（AIがどのように学習するか）は、フィッシャー感度カーネル（核モデルが変化に対してどれほど敏感か）と同じです。
無限幅のAIは、ガウス過程（標準的な統計ツール）と同じです。

しかし、著者は、AIはこの「開いた」側面に対して盲目であると主張しています。AIは、自身が切り捨てた情報（文中の単語を無視したり、ネットワークの一部をカットしたりすること）を、単なるミスや近似誤差として扱います。それを、追跡し保存すべき**「物理的な損失」**としては扱いません。

「フラックス台帳（Flux Ledger）」

核物理学では、粒子が逃げ出すとき、理論は単に「おっと、いくらか失われました」と言うだけではありません。「チャンネルAに0.5ユニット、チャンネルBに0.2ユニットの確率を失いました。ここにその証明となる数学があります」と明示するのです。

著者は、この「フラックス台帳」をAIのために構築しようと試みました。彼はこう問いかけました。もし、AIが「無視している」部分を、漏れのあるドアとして扱ったら、失われた確率を追跡できるだろうか？

驚くべき結果（「ネガティブな」発見）

著者は、この「開いた」数学が実際のAIモデル（大規模言語モデルにおけるアテンション機構や、どのエキスパートを使用するかを選択するルーターなど）に対して機能するかどうか、テストを行いました。

結果： それはほとんどの場合、失敗しました。

なぜか？： 「開いた」数学が機能するためには、無視される部分が、波が永遠に伝わっていける「無限の海」のようなものである必要があります（連続スペクトル）。
問題点： AIモデルは通常、有限であり、「散逸的（dissipative）」（落ち着いて収束していく性質）です。彼らには、あの「無限の海」のような性質はありません。
結論： 著者がこの「開いた」数学をAIに強制しようとしたとき、「フラックス台帳」は存在しないか、あるいはその「損失」は、単にデータを切り取った際に生じたアーティファクト（人工的な現象）に過ぎませんでした。

「ハルシネーション（幻覚）」のひねり

著者はまた、ある人気のあるアイデアについても調査しました。この「漏れ」の数学は、AIがハルシネーション（作り話）をしていることを検知できるか？

答え： いいえ。

理由： AIが自信満々にハルシネーションを起こしているとき、そのAIは実は非常に「閉じて」います。間違った答えに対して強くコミットしているのです。そのため、「漏れ（不確実性）」は低くなります。モデルは確信を持っています。
真の不確実性： 重要な不確実性（エピステミック不確実性――モデルが答えを知っているかどうか）は、「閉じた」数学の側（アンサンブルの分散）に存在しており、「開いた」数学の側には存在しません。

まとめ

地図： 本論文は、AIと核物理学が、何かを「無視する」ための同じ代数学を共有していることを示す地図を描いています。
ギャップ： AIは「閉じた（損失のない）」バージョンのみを使用しています。核物理学には、「開いた（漏れのある）」バージョンに関する完全に発達した理論があり、そこには失われたものに対する厳格な計上が含まれています。
テスト： 著者は、この「開いた」理論をAIに持ち込もうとしました。
判定： それはうまく機能しませんでした。現実のAIモデルは、核物理学が使用するような複雑で波動的な「開いた」数学を支えるには、あまりにも有限で「緩和的（relaxational）」すぎます。著者が期待した「開いた」特徴は、存在しないか、あるいは単なる数学的なアーティファクトでした。

要約すると： この論文は、一種の警告です。核物理学から数学を借りることはできるものの、逃げ出す粒子を追跡するために彼らが使う特定の「漏れ」を伴うツールは、現在のAIのアーキテクチャには自然には適合しないということを、この論文は伝えています。AIにおける「有用な」不確実性は、依然として「開いた」動的な側面ではなく、「閉じた」統計的な側面に存在しているのです。

Integrating Out, Twice:The Open-System Case That Neural-Network Ensemble Theory Is Missing