Wasserstein normalized autoencoder for anomaly detection

概要：干し草の山から針を探す（ただし、その針がどんな形をしているかは知らない）

あなたは巨大な空港のセキュリティガードだと想像してください。毎日、何千人もの人々があなたのチェックポイントを通り過ぎます。あなたは「普通の」旅行者がどのような姿をしているかを知っています。彼らはバックパックを持ち、コートを着て、おそらくコーヒーを持っています。これらが、あなたの扱う**標準模型（Standard Model）**の粒子（背景／バックグラウンド）です。

しかし時折、奇妙なものを持っている人が通り抜けることがあります。例えば、光る箱を持っていたり、透明な布でできたスーツを着ていたりします。これが新しい物理学（New Physics）（信号／シグナル）です。問題は、この「光る箱」が具体的にどのような見た目であるかを、あなたが正確に知らないことです。それはどんなものでもある可能性があります。もし特定の種類の「光る箱」を見つけるようにシステムを教えようとすれば、別の種類の箱を見逃してしまうかもしれません。

そこで、あなたはシステムに対して「普通」とはどういうものかだけを教えることにしました。もし何かが「普通」のパターンに当てはまらない場合、それを異常としてフラグを立てます。これは**異常検知（Anomaly Detection）**と呼ばれます。

問題点：「親切すぎる」ロボット

この論文では、**オートエンコーダ（Autoencoder）**と呼ばれる特定のAIについて論じています。オートエンコーダを、普通の旅行者の写真を記憶し、それを小さなメモに圧縮し、そのメモから写真を描き直そうとするロボットだと考えてください。

目標： ロボットが普通の旅行者を見たら、完璧に描き直すべきです（誤差が低い）。もし奇妙なエイリアンを見たら、描き直しに苦戦するはずです（誤差が高い）。その時に、そのエイリアンを異常としてフラグを立てます。
不具合： 時として、ロボットが「優秀すぎる」ことがあります。もしエイリアンが普通の旅行者よりも単純な構造だった場合（例えば、普通の旅行者は複雑なパターンを持っていますが、エイリアンはただの無地のグレーの塊である場合など）、ロボットは偶然にもエイリアンをも完璧に描き直すことを学習してしまうことがあります。
結果： ロボットは、エイリアンを簡単に描き直せるため、それを「普通」であると判断してしまいます。これにより、セキュリティシステムは失敗します。論文では、これを**「外れ値の再構成（Out-of-distribution Reconstruction）」**と呼んでいます。これは、あまりにも絵画の模倣が上手すぎるため、偽物の傑作を本物だと美術館に信じ込ませてしまう偽造師のようなものです。

最初のアプローチ：「正規化された」ロボット（NAE）

これを修正するために、科学者たちは**正規化オートエンコーダ（Normalized Autoencoder: NAE）**という、より賢いロボットを試みました。

単に絵を描き直すだけでなく、このロボットは「普通の旅行者」がどのようなものかという「確率」を学習しようとします。これは「マルコフ連鎖（Markov Chain）」（ランダムウォークのようなもの）を用いた数学的なトリックを用いて、偽の「負の例」を生成します。ロボットは自問します。「もし私がランダムな旅行者を作り出したとした刻、それは私がこれまで見てきた本物の旅行者に似ているだろうか？」

目標： 「奇妙なもの（確率が低いもの）」は、高い「エラー・スコア」を得るようにします。
新たな不具合： このロボットは不安定です。時として混乱し、「発散（diverging）」してしまいます。例えば、あらゆるものを描き直すのが困難であるように見せかけることが、ゲームに勝つための最善の方法だと判断したり、あるいは、自分の数学的スコアを最小化するために、あらゆるものを完璧に描き直す状態に陥ったりすることがあります。これは、勉強する代わりに、テストを台無しにするような方法で解答集を丸暗記してカンニングしようとする学生のようなものです。

解決策：「ワッサースタイン」ロボット（WNAE）

これがこの論文の主要な貢献です。科学者たちは、**ワッサースタイン正規化オートエンコーダ（Wasserstein Normalized Autoencoder: WNAE）**を導入しました。

これを理解するために、2つの砂の山を想像してください。

砂の山A： 本物の旅行者（あなたの学習データ）。
砂の山B： 旅行者がどのようなものであるかについての、ロボットによる現在の推測（学習された分布）。

従来の方法では、ロボットは単に砂山の「形」を一致させようとしていました。しかし、時としてロボットは、形は似ているが実際には間違った場所に置かれた砂山を作ることで、ズルをすることがありました。

**ワッサースタイン距離（Wasserstein distance）**は、砂の山Bを砂の山Aに変えるために必要な「コスト」を測定する方法です。想像してみてください、あなたは一方の砂の山からもう一方の山へ砂粒を運ばなければなりません。ワッサースタイン距離はこう問いかけます。「私の偽の砂山を本物の砂山に変えるために必要な最小限の労力（距離 × 重さ）はいくらか？」

WNAEの仕組み：

ロボットは単に画像を書き直すのではなく、自分の偽のデータが本物のデータと全く同じに見えるようにするために必要な「労力」を最小化しようとします。
もしロボットがズルをして、奇妙なエイリアンを完璧に描き直そうとしても、そのエイリアンのデータを「通常の」砂山に戻すための「労力（ワッサースタイン距離）」は膨大になります。
これにより、ロボットはズルをやめざるを得なくなります。労力を最小化する唯一の方法は、「通常の」砂山の形を厳格に学習し、「奇妙な」ものはそのままにしておくことだと学ぶのです。

なぜこれが論文において重要なのか

科学者たちは、これをCMS（CERNの巨大粒子検出器、大型ハドロン衝突型加速器内にあるもの）を用いてテストしました。彼らは**半可視ジェット（Semivisible Jets: SVJs）**を探していました。

シナリオ： ジェット（粒子の噴出）が、半分は可視（標準的な粒子）で、半分は不可視（ダークマター）である状況を想像してください。
課題： これらのジェットは、トップクォーク（一般的な背景事象）からの通常のジェットと非常によく似ています。従来のロボットは、これらの奇妙なジェットを「通常の」ものとして再構成してしまうため、両者を区別できませんでした。
結果： WNAEは、学習中に一度も「奇妙な」ジェットを見ることなく、完璧に「通常の」ジェットの分布を学習することができました。そして、不可視のダークマター・ジェットを異常として見事に特定することに成功しました。

まとめ

この論文は、ワッサースタイン距離を教師として用いることで、以下の特性を持つロボットを構築したと主張しています。

ズルをしない： スコアを下げるために、奇妙なものを完璧に描き直すことはできません。
安定している： 前の「正規化された」バージョンのように、混乱したりクラッシュしたりすることがありません。
信号に依存しない（Signal-agnostic）： 「奇妙な」ものがどのようなものであるかを知る必要はありません。ただ「普通」がどのようなものであるかを知っており、その型に当てはまらないものはすべてフラグが立てられます。

要するに、彼らは、不審な人物が群衆からどれほど「離れているか」を測定するより優れた方法を提示することで、壊れたセキュリティシステムを修理したのです。これにより、いかに巧妙に姿を変えた侵入者であっても、確実に捕らえられるようになりました。

技術要約：アノマリー検出のためのワッサースタイン正規化オートエンコーダ

問題提起
教師なし機械学習、特にオートエンコーダ（AE）は、特定の信号仮説に依存することなく、標準模型（SM）の背景事象から潜在的な標準模型超越（BSM）信号を分離することで、大型ハドロン衝突型加速器（LHC）における新しい物理学を特定するための強力なツールである。しかし、標準的なAEは「アウトライヤー再構成（outlier reconstruction）」として知られる決定的な失敗モードに陥ることがある。このシナリオでは、ネットワークが異常データ点（アウトライヤー）を低い誤差で再構成することを学習してしまう。これは、アウトライヤーが訓練データよりも複雑性が低い場合（「複雑性バイアス」と呼ばれる現象）、あるいはネットワークが訓練分布の外側にある位相空間領域において再構成誤差を最小化できる自由度を持っている場合に発生する。その結果、再構成誤差が背景事象と信号を区別できなくなり、識別力が失われる。

これに対し、AEの再構成誤差をボルツマン分布内のエネルギー関数として定式化する正規化オートエンコーダ（NAE）を用いた従来のアプローチも、課題に直面している。NAEの訓練は、損失関数の発散や、ネットワークが信号と大きく重なる確率分布を学習してしまう「モード崩壊（mode collapse）」を含む数値的不安定性を伴うことが多い。これもまた、アノマリー検出性能の低下を招く。さらに、既存のNAE訓練には、過学習やアウトライヤー再構成を防ぐための、堅牢で信号に依存しない停止条件が欠けている。

手法
著者らは、標準的なAEおよびNAEの限界を克服するために設計された、新しい確率モデルである**ワッサースタイン正規化オートエンコーダ（WNAE）**を提案する。その手法は以下の通りである：

確率的枠組み: NAEと同様に、WNAEはAEの再構成誤差 $l_\theta(x)$ をエネルギー関数 $E_\theta(x)$ として扱う。モデルは、ボルツマン分布を用いて正規化された確率分布 $p_\theta(x)$ を定義する： $p_\theta(x) = \frac{1}{\Omega_\theta} \exp(-E_\theta(x))$ 。
マルコフ連鎖モンテカルロ法（MCMC）: 分布 $p_\theta$ を学習するために、モデルは入力特徴量のエネルギー関数の勾配を用いて、「負の」例を $p_\theta$ からサンプリングするランジュバン・モンテカルロ・アルゴリズムを採用する。
ワッサースタイン距離の目的関数: コアとなる革新は、直接的な訓練目的関数として1次ワッサースタイン距離（アースムーバー距離）を使用することである。負の対数尤度を最小化するのではなく（これは計算不可能な分配関数を伴い、不安定性を引き起こす）、WNAEは訓練データの分布 $p_{data}$ $p_{d a t a}$ とモデルの分布 $p_\theta$ $p_{θ}$ の間のワッサースタイン距離 $W(p_{data}, p_\theta)$ $W (p_{d a t a}, p_{θ})$ を最小化する。
- 損失関数は、正のサンプル（ $p_{data}$ から）と負のサンプル（ $p_\theta$ から）の間のワッサースタイン距離として定義される。
- このアプローチは、カントロヴィッチ・ルビンシュタイン双対性を活用しており、他の生成モデルで一般的な勾配消失やモード崩壊の問題に悩まされることなく、安定して微分可能な損失関数を可能にする。
訓練ダイナミクス: 訓練は、モデルが物理データに適応する際にワッサースタイン距離が急激に減少する粗調整フェーズと、微調整フェーズの2段階で行われる。安定性を確保するために学習率スケジューラが採用されている。極めて重要な点として、ワッサースタイン距離は、モード崩壊やアウトライヤー再構成の兆候を示す際に訓練を停止させるための、信号に依存しない停止条件として機能する。

ケーススタディおよびデータ
このアルゴリズムは、ダークセクターの粒子が可視の標準模型粒子と不可視のダークマター状態の両方を含むジェットを生成する「隠れた谷（hidden valley）」モデルのシグネチャである、**セミビジブル・ジェット（SVJ）**の探索に適用される。

背景（Background）: 追加のジェットを伴うトップ・反トップ（ $t\bar{t}$ ）生成のシミュレーション。
信号（Signal）: 様々な不可視分率（ $r_{inv}$ ）およびメディエーター質量（ $m_\Phi$ ）を持つ、二重基本スカラーメディエーターを介して生成されたSVJイベント。
特徴量: 入力は、粒子フロー再構成から導出された8つのジェット部分構造変数（主要軸/副軸、エネルギーフロー多項式、 $N$ -subjettiness、ソフトドロップ質量など）で構成される。

主な結果

標準的AEの失敗: $t\bar{t}$ 背景事象に対して訓練された際、標準的なAEはSVJを背景事象から区別できず、アウトライヤー再構成のためにAUCスコアがランダムな推測に近い0.5付近となる。
NAEの不安定性: NAEは当初、識別能を向上させるものの、損失の発散とモード崩壊に陥る。負のエネルギーが発散するにつれてAUCは低下し、信号依存の停止条件なしには、信号と背景を区別できなくなる。
WNAEの性能: WNAEは安定した収束的な訓練を示す。
- 幅広いSVJ信号仮説に対して強力な分類性能を発揮し、AUCスコアは標準的なAEよりも大幅に高く、最適な時点でのNAEと同等またはそれ以上の性能を示す。
- ワッサースタイン距離はAUCスコアと効果的に相関しており、モデルが信号分布を学習してしまうのを防ぐ信頼できる停止条件を提供する。
- WNAEは複雑性バイアスを軽減する。信号が背景よりも複雑でない場合に苦戦する標準的なAEとは異なり、WNAEはSVJ信号に対して訓練されている場合でも、トップクォーク・ジェットを異常として正常に識別できる。これは、単に再構成誤差を最小化するだけでなく、訓練データの真の確率密度を学習する能力を示している。

意義および主張
本論文は、WNAEがオートエンコーダを用いたアノマリー検出における根本的な失敗モードであるアウトライヤー再構成に直接対処していると主張している。訓練データの分布とモデルが学習した分布の間のワッサースタイン距離を最小化することにより、アルゴリズムは訓練データとは異なる位相空間の領域に高い再構成誤差が割り当てられることを保証する。

著者らは、WNAEが**完全に教師なしであり、信号に依存しない（signal-agnostic）**状態を維持していることを強調している。訓練中に信号仮説を知る必要はなく、またNAEの損失を安定させるためのアドホックな正則化にも依存しない。この手法は、高エネルギー物理学におけるアノマリー検出のための、堅牢で安定した効果的なツールを提供し、複雑な標準模型の背景事象に対する新しい物理学的シグネチャ（セミビジブル・ジェットなど）を特定することを可能にする。論文は、WNAEは検討されたタスクに対しては安定しているものの、信号と背景の分布の重複や訓練データへの異常の混入といった、アノマリー検出モデルに共通する一般的な制限を受ける可能性があるとしつつも、これらに対処するための自己教師あり学習による洗練への道筋を提示している。

概要：干し草の山から針を探す（ただし、その針がどんな形をしているかは知らない）

問題点：「親切すぎる」ロボット

最初のアプローチ：「正規化された」ロボット（NAE）

解決策：「ワッサースタイン」ロボット（WNAE）

なぜこれが論文において重要なのか

まとめ

関連論文