Each language version is independently generated for its own context, not a direct translation.

論文の解説：「いつ止まるべきかを知る」～AI の「わからない」を上手に使う方法～

この論文は、人工知能（AI）が「自信がないときは答えない」という賢い判断をするための新しい方法を紹介しています。

🎯 背景：AI は「わからない」が言えない

普段、私たちは「わからないこと」があれば、「それは私にはわかりません」と言えます。でも、従来の AI はそうはいきません。どんなに自信がなくても、必ず「答え」を出そうとしてしまいます。これが、AI が間違った答えを自信満々に言ってしまう原因の一つです。

**「選択的分類（Selective Classification）」**とは、AI に「自信があれば答え、なければ『わからない』と答える（棄権する）」という能力を持たせる技術のことです。

🧐 従来の方法の課題

これまでに、AI が「自信があるかどうか」を判断する方法はいくつかありました。

例：「答えの確率が 90% 以上なら OK、80% 以下なら NG」のように、単純な数値の閾値（しきい値）で判断する。
問題点： しかし、AI が普段と違う環境（例：訓練データは「写真」だが、テストは「絵画」や「ノイズの多い画像」）に直面すると、これらの単純な判断基準が機能しなくなることがあります。

💡 新しいアイデア：統計学の「黄金のルール」を使う

この論文の著者たちは、100 年前の統計学の有名な定理**「ネイマン・ピアソンの補題」**というルールを応用しました。

【わかりやすい例え話】
Imagine you are a detective (探偵) trying to solve a case.

Hypothesis 0 (H0): The suspect is innocent (無実).
Hypothesis 1 (H1): The suspect is guilty (有罪).

Normally, you look at evidence. But the "Neyman-Pearson Lemma" says:

"To make the best decision, you should compare two things:

How likely is this evidence if the suspect is innocent?

How likely is this evidence if the suspect is guilty?

If the evidence is much more likely under 'guilty' than 'innocent', you arrest them. Otherwise, you let them go."

In this paper, the "suspect" is the AI's prediction.

H0: The AI is correct.
H1: The AI is wrong.

The authors propose calculating a "Likelihood Ratio" (尤度比):

"Is this input much more likely to be a case where the AI is correct, compared to a case where the AI is wrong?"

If the answer is "Yes, much more likely," the AI answers. If not, it says "I don't know."

🛠️ 彼らが提案した 2 つの新しい「センサー」

この「正しいか間違っているか」の確率を計算するために、彼らは 2 つの新しい方法を考え出しました。

1. 距離の差を使う（∆-MDS と ∆-KNN）

AI は、学習したデータを「特徴量（特徴的な数字の集まり）」として記憶しています。

これまでの方法： 「このデータは、正解のグループに近いか？」だけを見ていた。
彼らの方法： 「このデータは、正解のグループに近いか？」と「間違えたグループに近いか？」を同時に見て、その差を計算する。

【アナロジー】

従来の AI： 「この果物はリンゴに似ているから、リンゴだ！」（でも、実はリンゴに似ているオレンジかもしれない）。
新しい AI： 「この果物はリンゴにすごく近いけど、オレンジ（間違えたパターン）からは遠いな。だから、これは本当にリンゴだ！」
もし「リンゴにもオレンジにも中途半端に似ている」なら、「わからない」と判断して棄権します。

2. 組み合わせの魔法（線形結合）

さらに、彼らは「距離の差」だけでなく、AI が元々持っている「答えの自信度（Logits）」も組み合わせて使うことを提案しました。

例：「距離の差」＋「自信度のスコア」を足し合わせて、より賢い判断を下す。
これにより、どんな種類のデータ（写真、文章、ノイズのある画像など）に対しても、最も強い判断ができるようになります。

📊 実験結果：なぜこれがすごいのか？

彼らは、画像認識（Vision）や言語理解（Language）のテストで、この新しい方法を試しました。

結果： 従来の方法よりも、**「間違えたときに棄権する」**という能力が格段に向上しました。
特に効果的だったこと： AI が普段と違う環境（例：訓練データは写真、テストはスケッチ）に置かれたときでも、この方法は強く機能しました。これは、現代の AI が直面する「現実世界の複雑さ」に非常に適していることを示しています。

🌟 まとめ

この論文の核心は、**「AI に『わからない』と言う勇気を与え、その判断基準を数学的に最適化すること」**です。

従来の AI： 「自信がなくても、とりあえず答える」。
新しい AI： 「正解に近いのか、間違いに近いのか、両方を比べてから答える」。

これにより、医療診断や自動運転など、**「間違えると危険な場面」**で、AI をより安全で信頼性の高いパートナーにすることができます。AI が「わからない」と言えるようになることは、実は AI がもっと賢く、人間に役立つようになる第一歩なのです。

Each language version is independently generated for its own context, not a direct translation.

論文「KNOW WHEN TO ABSTAIN: OPTIMAL SELECTIVE CLASSIFICATION WITH LIKELIHOOD RATIOS」の技術的サマリー

この論文は、ICLR 2026 で発表された研究であり、**選択的分類（Selective Classification）の分野において、特に共変量シフト（Covariate Shift）**の条件下でモデルの信頼性を高めるための新しい枠組みと手法を提案しています。

以下に、問題定義、手法、主要な貢献、実験結果、および意義について詳細にまとめます。

1. 問題定義と背景

選択的分類の課題

機械学習モデルは、不確実な入力に対しても常に予測を出力する傾向があります。しかし、人間は不確実な場合は「わからない」と答える（棄権する）ことができます。選択的分類は、モデルが自信のない入力に対して予測を棄権（Abstain）し、人間の専門家へ委譲することを可能にする技術です。

既存の手法（Softmax 確率、Logit マージン、Dropout など）は、主に独立同一分布（i.i.d.）の仮定のもとで評価されてきました。しかし、実世界のアプリケーションでは、共変量シフト（入力分布 $p(x)$ が変化し、ラベル分布 $p(y)$ は変わらない状況。例：写真から絵画へのドメイン変化）が頻繁に発生します。このシフト条件下での選択的分類は、既存の研究では十分に探求されていません。

既存手法の限界

理論的指針の欠如: 現代の深層学習ネットワークにおいて、効果的な選択関数（Selector Function）を設計するための一般的な原理的な指針が不足しています。
分布シフトへの対応不足: 既存の評価の多くは i.i.d. 環境に依存しており、共変量シフト下でのロバスト性が検証されていません。

2. 提案手法：Neyman-Pearson 補題に基づく枠組み

著者らは、統計学の古典的な結果である**Neyman-Pearson 補題（Neyman-Pearson Lemma）**を選択的分類の設計に応用しました。

理論的基盤

仮説検定の視点: 選択的分類を「正解（ $H_0$ ）」か「誤り（ $H_1$ ）」かを判定する仮説検定問題として定式化します。
尤度比テストの最適性: Neyman-Pearson 補題によれば、与えられた棄却率（Type I error）の下で受容率（Type II error）を最小化する最適な決定ルールは、**尤度比（Likelihood Ratio）**に基づいています。
$s(x) = \frac{p_c(x)}{p_w(x)}$
ここで、 $p_c(x)$ はモデルが正解する入力 $x$ の確率密度、 $p_w(x)$ は誤答する入力 $x$ の確率密度です。
尤度比の近似: 真の尤度比は未知であるため、これを近似するスコア関数を設計します。既存のスコア（MSP, RLog など）もこの尤度比の単調変換として解釈できることを示し、その理論的正当性を裏付けます。

提案する新しい選択スコア

この枠組みに基づき、以下の 2 つの新しい距離ベースのスコアと、それらを組み合わせる手法を提案しました。

A. $\Delta$ -MDS (Mahalanobis Distance)

概念: 特徴空間において、「正解したサンプル」と「誤答したサンプル」の分布をそれぞれ独立にモデル化します。
手法: 各クラスごとに、正解サンプルの平均・共分散 ( $\mu^c, \Sigma^c$ ) と誤答サンプルの平均・共分散 ( $\mu^w, \Sigma^w$ ) を推定します。
スコア: 正解分布からのマハラノビス距離と誤答分布からのマハラノビス距離の差を計算します。
$s_{\Delta\text{-MDS}}(x) = D_{\text{MDS}}(x; \mu^c, \Sigma^c) - D_{\text{MDS}}(x; \mu^w, \Sigma^w)$
理論的保証: 特徴量がガウス分布に従うと仮定すると、このスコアは尤度比の単調変換となり、Neyman-Pearson 最適性を満たします。

B. $\Delta$ -KNN (k-Nearest Neighbors)

概念: 非パラメトリックなアプローチで、正解・誤答のトレーニングサンプル集合からの距離を利用します。
手法: テストサンプルから、正解集合 ( $A_c$ ) と誤答集合 ( $A_w$ ) への k 番目の最近傍距離（または上位 k 個の平均対数距離）を計算し、その差をとります。
理論的保証: 漸近的な条件下（k, $N_c$ , $N_w$ が適切に増加する）で、このスコアは尤度比の単調変換となり、Neyman-Pearson 最適性を満たします。

C. 線形結合戦略 (Linear Combination)

手法: 距離ベースのスコア（ $\Delta$ -MDS や $\Delta$ -KNN）と、Logit ベースのスコア（RLog など）を線形結合します。
$s_{\text{final}}(x) = s_{\text{distance}}(x) + \lambda \cdot s_{\text{logit}}(x)$
効果: 両者の補完的な強み（学習された境界と幾何学的構造）を組み合わせることで、よりロバストな選択を実現します。

3. 主要な貢献

Neyman-Pearson ベースの枠組みの導入: 選択的分類の最適性を尤度比テストを通じて定義する初の枠組みを提示しました。
既存手法の統合と新規手法の提案: 既存の選択スコアを尤度比の近似として統一的に解釈し、 $\Delta$ -MDS と $\Delta$ -KNN という 2 つの新しい選択子と、線形結合アプローチを提案しました。
包括的な評価: 視覚（Vision）および言語（Language）タスクにおいて、共変量シフト（および意味的シフト）の条件下で広範なベンチマーク（ImageNet 変種、Amazon Reviews など）を用いて評価を行いました。CLIP などの視覚言語モデル（VLM）を含む強力なモデル上でも有効性を示しました。

4. 実験結果

評価指標

AURC (Area Under the Risk-Coverage Curve): 選択的リスクとカバレッジのトレードオフを評価。
NAURC (Normalized AURC): ベースモデルの精度を補正した指標。

主な結果

共変量シフト下での性能向上: 提案手法（特に $\Delta$ $Δ$ -KNN-RLog や $\Delta$ $Δ$ -MDS-RLog）は、ImageNet-R, ImageNet-A, ImageNet-C などの共変量シフトデータセットにおいて、既存のベースライン（MSP, MaxLogit, 従来の MDS/KNN など）を一貫して上回りました。
- CLIP モデル上では、平均 AURC が約 50% 削減されました。
- 従来の MDS/KNN から $\Delta$ 版への変更だけで大幅な改善が見られました。
モデル依存性:
- CLIP (VLM): 対照学習で訓練されたモデルには非パラメトリックな $\Delta$ -KNN と RLog の組み合わせが最も効果的でした。
- EVA (Supervised): 教師あり学習モデルには、ガウス仮定と整合性の高い $\Delta$ -MDS と RLog の組み合わせが最も効果的でした。
言語タスク: Amazon Reviews Dataset においても、 $\Delta$ -MDS-MSP や $\Delta$ -KNN-RLog が最良の性能を示しました。
少量データでのロバスト性: 学習データの一部（0.1%〜1%）のみを使用して特徴統計を計算しても、 $\Delta$ -KNN は高い性能を維持することが確認されました。

5. 意義と結論

この研究は、選択的分類の設計において、尤度比という統計的に厳密な最適基準を導入した点で画期的です。

実用性: 事前学習済みモデルを再訓練することなく（Post-hoc）、モデルの棄権判断を最適化できるため、実システムへの導入コストが低いです。
ドメイン適応: 共変量シフトという、実世界で頻繁に発生する困難なシナリオに対して、既存手法よりも頑健な解決策を提供します。
将来展望: この枠組みは分類タスクに限定されず、セマンティックセグメンテーションや時系列予測、さらには生成モデル（LLM）における選択的予測への拡張も期待されます。

要約すると、この論文は「モデルがいつ棄権すべきか」を決定するための、理論的根拠に裏打ちされた実用的で高性能な手法群を提示し、信頼性の高い AI システム構築への重要な一歩となっています。

Know When to Abstain: Optimal Selective Classification with Likelihood Ratios