Learning Credal Ensembles via Distributionally Robust Optimization

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI が『わからない』と正直に言えるようになる新しい方法」**について書かれています。

AI（深層学習）は、普段は非常に高い精度で物事を予測しますが、問題が「訓練データと全く違う」場合、AI は自信満々に間違った答えを出してしまいがちです。これを防ぐために、AI に「自分の知識の限界」を認識させる**「不確実性の定量化」**という技術が重要ですが、これまでの方法には少し問題がありました。

この論文では、**「CreDRO（クレドロ）」**という新しい方法を提案しています。

以下に、専門用語を排して、日常の例え話を使って解説します。

1. 従来の方法の「問題点」：同じ教科書で勉強したばかりの学生たち

これまでの AI の不確実性を測る方法（アンサンブル学習）は、**「同じ教科書（訓練データ）を使って、それぞれが少し違うタイミングで勉強した 20 人の学生」**を集めて、彼らの答えを比較するというものでした。

仕組み: 20 人の学生に同じ問題を解かせます。
問題点: もし彼らが全員「同じ教科書」しか持っていなければ、テストで「未知の問題（新しい分野）」が出たとき、全員が同じように自信を持って間違った答えを出してしまう可能性があります。
結果: 「学生たちの答えがバラバラだから、不確実性が高い」と判断できず、AI は危険な状況でも「自信あり！」と誤って判断してしまいます。

2. CreDRO のアイデア：「もしも」を想定したシミュレーション

CreDRO は、この「同じ教科書しか持っていない」という状況をあえて変えます。

「もしも、テスト会場が少し違っていたら？もしも、問題の難しさが変わっていたら？」

という**「もしも（分布のズレ）」**をシミュレーションして、学生たちに勉強させます。

新しいアプローチ:
- 学生 A には「いつもの教科書」で勉強させる。
- 学生 B には「少し難しめの問題集」で勉強させる。
- 学生 C には「全く違う分野の参考書」も混ぜて勉強させる。
- ……と、「試験会場がどう変わっても大丈夫なように」、それぞれ異なる条件で 20 人の学生を育てます。

これを**「分布ロバスト最適化（DRO）」という技術を使って行います。つまり、「最悪のケース（テスト会場がガラッと変わった時）」**を想定して、AI を鍛え直すのです。

3. 結果：「箱」で答えを出す（クレダルセット）

こうして育てられた 20 人の学生にテスト（予測）をさせると、どうなるでしょうか？

いつもの問題（訓練データに近いもの）: 全員がほぼ同じ正解を出します。
未知の問題（訓練データと違うもの）: 学生 A は「これは A だ！」、学生 B は「いや、B かもしれない」、学生 C は「C の可能性も高い」と、意見が割れます。

CreDRO は、この**「意見の割れ方」**をそのまま「箱（クレダルセット）」として表現します。

従来の AI: 「答えは A です（確率 90%）」と一言で言います。
CreDRO の AI: 「答えはA から C の間にある可能性が高いです」と、幅のある箱で答えます。

この「箱」が大きいほど、「AI は本当に自信がない（不確実性が高い）」と判断できます。逆に、箱が小さければ「自信がある」と言えます。

4. なぜこれがすごいのか？（医療や安全な AI への応用）

この方法は、「AI が知らないこと」を正直に教えてくれるので、非常に安全です。

医療の例:
- 従来の AI は、見たこともない病変（訓練データにないもの）を見て、「これは良性です（自信あり）」と誤って診断してしまうかもしれません。
- CreDRO の AI は、「これは訓練データと違うので、答えの箱がすごく大きくなります」。つまり、「私はこれについて自信が持てません。人間医師に相談してください」というサインを出します。
実験結果:
- 画像認識のテストや、医療画像の診断テストで、従来の最高水準の方法よりも、**「未知のものを見分ける力（外れ値検出）」**が圧倒的に優れていることが確認されました。

まとめ：AI に「謙虚さ」を教える方法

この論文の核心は、**「AI に『もしも』を想像させて、多様な視点を持たせること」**です。

昔: 「同じ教科書で勉強した学生たち」→ 未知の問題に弱い。
CreDRO: 「様々なシナリオを想定して勉強した学生たち」→ 未知の問題でも「わからない」と正直に言える。

これにより、AI は安全な分野（自動運転、医療診断など）で、**「自信過剰にならず、必要な時に人間に任せる」**ことができるようになります。AI が「自分の限界」を知ることで、私たちが AI をもっと信頼して使えるようになるのです。

Each language version is independently generated for its own context, not a direct translation.

1. 問題定義と背景

認識的不確実性（EU）の重要性: 機械学習システム、特に安全クリティカルな応用において、モデルが「何を知らないか」を定量化する認識的不確実性（EU）の推定は不可欠です。これは、分布外（OOD）検出や選択的予測（Selective Prediction）などのタスクで重要です。
既存手法の限界: 現在の最先端（SOTA）のクレダル予測器（確率分布の凸集合を出力するモデル）の多くは、ランダムな初期化によるトレーニングのばらつきのみを EU の源として扱っています。
- 具体的には、異なる初期値で訓練されたアンサンブルモデル間の不一致（Disagreement）を EU とみなすアプローチ（Deep Ensembles やその派生）が主流です。
- 課題: このアプローチは、最適化のランダム性への感応性を反映しているに過ぎず、トレーニングデータとテストデータの間に生じる**実質的な分布シフト（Train-Test Distribution Shift）**に起因する不確実性を十分に捉えきれていません。

2. 提案手法：CreDRO

著者らは、EU を「トレーニングデータとテストデータの i.i.d.（独立同一分布）仮定を異なる程度で緩和した条件下で訓練されたモデル間の不一致」として再定義し、これを解決するCreDROを提案しました。

2.1 核心的なアイデア

分布ロバスト最適化（DRO）の活用: 従来の DRO は、最悪ケースの分布に対するロバスト性を高めるために用いられます。CreDRO では、この DRO の枠組みをアンサンブルの多様性を生み出す手段として転用します。
i.i.d. 仮定の緩和: テスト分布がトレーニング分布の近傍にあるという仮定を、異なる「緩和度」で適用します。これにより、潜在的な分布シフトに対する感応性が異なる複数のモデルを学習させます。

2.2 具体的なアルゴリズム

敵対的再重み付け学習（Adversarially Reweighted Learning, ARL）の採用:
- バッチ内のサンプル損失をソートし、損失が大きい上位 $\delta$ 分のサンプルのみをバックプロパゲーションに使用します（ $\delta \in [0.5, 1)$ ）。
- 損失の大きいサンプルは、トレーニングデータ内のマイナーなグループや、テスト時のドメインシフトに対応する「難しい事例」と見なされます。
多様なハイパーパラメータによるアンサンブル学習:
- 各アンサンブルメンバー $i$ に対して、異なるパラメータ $\delta_i$ を割り当てます。
- $\delta_i$ は、ユーザー定義のグローバルパラメータ $\delta_G$ （最悪ケースの想定）に基づき、以下のように計算されます：
  $\delta_i = (1 - \delta_G) \frac{i - 1}{M - 1} + \delta_G$
- これにより、 $\delta_G$ から 1 までの範囲で、i.i.d. 仮定の緩和度が異なる多様なモデル群が生成されます。
クレダル予測の生成:
- 推論時、各モデルの Softmax 確率 $\{p_i\}$ をクラスごとの確率区間 $[\underline{p}_k, \overline{p}_k]$ に変換します（最大値と最小値を使用）。
- これらの区間から**ボックス型クレダルセット（Box Credal Set）**を構成します。
不確実性の定量化:
- クレダルセット上のシャノンエントロピーの上限と下限の差（ $H(\overline{K}_B) - H(\underline{K}_B)$ ）を EU の指標として計算します。

3. 既存手法との主な違い

CreDE（Credal Deep Ensemble）との比較:
- アーキテクチャ: CreDE は最終層の出力ノード数を倍増させて上下界を直接予測する必要がありますが、CreDRO は標準的な NN 構造のまま適用可能で、実装が容易です。
- 学習方針: CreDE は単一の DRO ハイパーパラメータを使用し、メンバー間の不一致は主に初期化のランダム性に依存します。一方、CreDRO はメンバーごとに異なる DRO パラメータを割り当て、分布シフトに対する異なる感応性を意図的に導入します。
- 制約: CreDE は One-hot ラベルに限定されるなどの制約がありますが、CreDRO はそのような制限がありません。

4. 実験結果

著者らは、複数のベンチマークで CreDRO を SOTA のクレダル分類器や Deep Ensemble ベースラインと比較しました。

分布外（OOD）検出:
- CIFAR-10 を ID データ、SVHN, Places365, CIFAR-100, FMNIST, ImageNet を OOD データとして評価。
- 結果: CreDRO は、AUROC においてすべてのベースライン（CreDE, CreWra, CreEns, CreBNN, 標準 DE など）を一貫して上回りました。これは、CreDRO がトレーニングのランダム性だけでなく、分布シフトに起因する有益な不一致を捉えていることを示しています。
選択的分類（医療画像）:
- Camelyon17 データセット（異なるスキャナからのデータによるドメインシフト）を用いた選択的分類タスクで評価。
- 結果: 拒否率（Rejection Rate）を上げても精度が維持される傾向（Accuracy-Rejection 曲線）が CreDRO で最も顕著でした。特に、誤分類されたサンプルに対して高い EU を出力し、信頼性の高い不確実性推定を実現しました。
アブレーション研究:
- アンサンブルサイズ: サイズが大きくなるほど性能が向上。
- ハイパーパラメータ $\delta_G$ : 0.5 から 0.9 の範囲で性能が安定しており、パラメータ選択に対してロバストであることが確認されました。
- クレダルセットの構成: 凸包（Convex Hull）よりもボックス型（Box Credal Set）の方が OOD 検出性能が高く、計算効率も優れていることが示されました。

5. 主要な貢献と意義

EU の新たな定義と定式化:
- 認識的不確実性を「トレーニングのランダム性」だけでなく、「トレーニングとテストの分布間の潜在的なシフトに対するモデルの不一致」として捉え直す新しい視点を提供しました。
実用的で高性能なアルゴリズムの提案:
- 既存の DRO 技術をアンサンブル学習に応用し、アーキテクチャの変更なしに実装可能な CreDRO を提案しました。
- 医療画像のようなドメインシフトが深刻な領域において、既存の手法よりも優れた信頼性を実現しました。
計算効率とスケーラビリティ:
- ボックス型クレダルセットを使用することで、凸包を計算する場合に比べて、不確実性定量化（UQ）の計算コストを大幅に削減しつつ、高い精度を維持しています。

結論

この論文は、深層学習における認識的不確実性の定量化において、単なるモデルのランダム性を超えて、データ分布のシフトに対する頑健性を明示的にモデルに組み込むことの重要性を証明しました。CreDRO は、安全クリティカルなアプリケーションにおいて、より信頼性の高い予測と意思決定を支援する有望な手法です。

Learning Credal Ensembles via Distributionally Robust Optimization

1. 従来の方法の「問題点」：同じ教科書で勉強したばかりの学生たち

2. CreDRO のアイデア：「もしも」を想定したシミュレーション

3. 結果：「箱」で答えを出す（クレダルセット）

4. なぜこれがすごいのか？（医療や安全な AI への応用）

まとめ：AI に「謙虚さ」を教える方法

1. 問題定義と背景

2. 提案手法：CreDRO

2.1 核心的なアイデア

2.2 具体的なアルゴリズム

3. 既存手法との主な違い

4. 実験結果

5. 主要な貢献と意義

結論

関連論文

NS-RGS: Newton-Schulz based Riemannian gradient method for orthogonal group synchronization

Poisson-response Tensor-on-Tensor Regression and Applications

Virtual Dummies: Enabling Scalable FDR-Controlled Variable Selection via Sequential Sampling of Null Features

Eliciting core spatial association from spatial time series: a random matrix approach

Regularized estimation for highly multivariate spatial Gaussian random fields