Know When to Abstain: Optimal Selective Classification with Likelihood Ratios

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种让 AI 变得更“聪明”、更“诚实”的新方法。简单来说，它教 AI 学会**“知之为知之，不知为不知”**。

想象一下，你正在参加一场高难度的考试。

普通的 AI：无论题目多难，它都敢瞎猜一个答案，哪怕心里完全没底。这就像是一个不懂装懂的学生，乱填答案，结果错得离谱。
这篇论文提出的 AI：遇到不会的题，它会举手说：“老师，这道题我实在没把握，我放弃回答（Abstain）。”这样，它只回答那些它有把握的题，整体正确率自然就大大提高了。

这篇论文的核心贡献，就是设计了一套**“如何判断什么时候该放弃”**的聪明规则。

1. 核心思想：像侦探一样找线索（Neyman-Pearson 引理）

以前，AI 判断自己是否自信，通常靠一些“直觉”：

看分数：比如它觉得“猫”的概率是 90%，那就很自信。
看差距：比如“猫”90%，“狗”5%，差距很大，那就很自信。

但这篇论文的作者觉得，这些方法太“表面”了。他们引用了一个经典的统计学原理（Neyman-Pearson 引理），把这个过程比作侦探破案：

侦探的比喻：
侦探手里有两个假设：

假设 A（正确）：这个嫌疑人是好人（AI 预测对了）。

假设 B（错误）：这个嫌疑人是坏人（AI 预测错了）。

侦探的任务是：根据眼前的线索（输入的图片或文字），判断是 A 的可能性大，还是 B 的可能性大。

最聪明的做法是计算一个**“嫌疑比率”**：

如果这个人的特征跟“好人库”里的很像，跟“坏人库”里的很不像，那就接受（AI 自信地回答）。

如果这个人的特征跟“坏人库”里的很像，或者跟两边都模棱两可，那就拒绝（AI 选择放弃）。

论文指出，以前很多 AI 的方法其实是在猜这个比率，而作者提出的新方法，是直接计算这个比率，让 AI 的判断更精准。

2. 新发明的两个“侦探工具”

作者设计了两个新的“侦探工具”（算法），专门用来计算这个“嫌疑比率”：

工具一： $\Delta$ -MDS（马氏距离差）—— “找同类”

原理：想象有一个“正确回答的样本库”和一个“错误回答的样本库”。
做法：当新题目来了，AI 会看它离“正确样本库”有多近，离“错误样本库”有多远。
比喻：就像在一个聚会上，如果你发现新来的人跟“学霸们”坐在一起很自然，但跟“捣蛋鬼们”坐在一起很别扭，那他就是个学霸（AI 可以回答）。如果他在两边都显得格格不入，或者离捣蛋鬼太近，AI 就放弃回答。
特点：这个方法假设数据分布像“云朵”一样（高斯分布），非常适合那些经过严格训练的传统 AI 模型。

工具二： $\Delta$ -KNN（K 近邻差）—— “数邻居”

原理：不假设数据像云朵，而是直接看“邻居”。
做法：在新题目周围找最近的 50 个邻居。如果这 50 个邻居里，大部分是“答对的”，那就自信；如果大部分是“答错的”，或者邻居很杂乱，那就放弃。
比喻：就像在森林里迷路了。如果你周围都是认识路的向导（答对的样本），你就跟着走；如果你周围都是指错路的人（答错的样本），或者你发现周围人都在往悬崖走，你就停下来别动。
特点：这个方法更灵活，不需要假设数据形状，特别适合像 CLIP 这样强大的、基于对比学习的现代大模型。

3. 为什么要这么做？（应对“水土不服”）

论文特别强调了一个场景：协变量偏移（Covariate Shift）。

场景比喻：
- 你训练 AI 的时候，给它看的是高清的、光线好的猫的照片（训练数据）。
- 但在实际使用时，AI 看到的可能是手绘的猫、素描、或者模糊的猫（测试数据，分布变了）。
- 这时候，普通的 AI 可能会因为“没见过这种画风”而胡乱猜，因为它以为只要像猫就行。
- 但我们的新 AI 会想：“等等，这种画风跟我以前见过的‘答对’的猫不太像，反而跟我以前‘答错’的奇怪图片有点像。为了安全起见，我不回答，让人类专家来答吧。”

这就是论文最厉害的地方：它让 AI 在面对没见过的新风格、新环境时，能更敏锐地察觉到自己“可能错了”，从而主动放弃，避免犯错。

4. 实验结果：真的好用吗？

作者在各种任务上测试了这套方法，包括：

看图说话（识别图片里的物体）。
阅读理解（分析亚马逊的商品评论）。
大模型（像 CLIP 这样能理解图文的超级 AI）。

结果非常惊人：

在同样的“放弃率”下（比如都放弃 20% 的难题），使用新方法的 AI，答对剩下的题的准确率比以前的方法高得多。
特别是把“找同类”（ $\Delta$ -MDS）和“看分数”（RLog）结合起来，效果最好。就像是一个既懂统计又懂直觉的超级侦探。

总结

这篇论文就像给 AI 装了一个**“诚实的刹车系统”**。

以前的 AI 是“油门踩到底，撞了再说”；现在的 AI 是“前面路况不明，先减速，如果不确定就停车，让人类来开”。

通过利用统计学中经典的“似然比”原理，作者让 AI 学会了在数据分布发生变化（比如从照片变成素描，从白天变成黑夜）时，如何更聪明地判断自己的信心，从而在保持高准确率的同时，极大地提升了系统的可靠性。这对于医疗诊断、自动驾驶等不能出错的领域来说，意义重大。

Each language version is independently generated for its own context, not a direct translation.

这是一篇发表于 ICLR 2026 的会议论文，题为《KNOW WHEN TO ABSTAIN: OPTIMAL SELECTIVE CLASSIFICATION WITH LIKELIHOOD RATIOS》（知道何时放弃：基于似然比的最优选择性分类）。

以下是对该论文的详细技术总结：

1. 研究问题 (Problem)

选择性分类 (Selective Classification) 旨在让模型在面对不确定输入时能够“放弃”预测（Abstain），从而将模糊案例转交给人类专家，以提高整体系统的可靠性和鲁棒性。

尽管已有大量研究（如基于最大 Softmax 概率 MSP、Logit 间隔、Dropout 等方法），但该领域仍存在两个主要缺口：

缺乏统一的理论指导：现有的选择函数（Selector Functions）设计缺乏基于现代深度网络的通用、原则性指导。
协变量偏移 (Covariate Shift) 研究不足：大多数评估假设测试数据与训练数据同分布（i.i.d.）。然而，在实际部署中（特别是视觉 - 语言模型 VLMs），输入分布发生变化但标签空间保持不变的情况（即协变量偏移）非常普遍且极具挑战性，而现有方法在此场景下的表现往往不佳。

2. 方法论 (Methodology)

作者从统计学中的经典结果——Neyman-Pearson (NP) 引理出发，重新审视了选择性分类的最优性设计。

2.1 核心理论框架

NP 引理视角：将选择性分类视为一个假设检验问题。
- $H_0$ ：分类器预测正确。
- $H_1$ ：分类器预测错误。
- 根据 NP 引理，在控制第一类错误（错误拒绝，即把正确的样本拒掉）的前提下，最小化第二类错误（错误接受，即把错误的样本接受）的最优决策规则是似然比检验 (Likelihood Ratio Test)。
最优分数定义：最优的选择分数 $s(x)$ 应为正确预测概率密度 $p_c(x)$ 与错误预测概率密度 $p_w(x)$ 的似然比：
$s(x) = \frac{p_c(x)}{p_w(x)}$
任何该似然比的单调变换也是 NP 最优的。

2.2 现有方法的统一解释

作者证明了现有的主流方法实际上是上述似然比的近似：

MSP (最大 Softmax 概率)：在分类器校准良好的假设下，是似然比的单调变换。
RLog (Raw Logits, 最大 Logit 与次大 Logit 之差)：在 Softmax 分布集中在前两类且分类器校准的假设下，也是似然比的单调变换。

2.3 提出的新方法

为了克服现有方法对校准的依赖并更好地处理分布偏移，作者提出了两种基于距离的新选择器，以及一种线性组合策略：

$\Delta$ -MDS (Delta Mahalanobis Distance)：
- 原理：不再为每个类别估计单一的高斯分布，而是分别估计正确预测样本和错误预测样本的特征分布（均值 $\mu$ 和协方差 $\Sigma$ ）。
- 分数计算：计算测试样本到“正确类”分布的马氏距离与到“错误类”分布的马氏距离之差。
- 理论保证：在特征服从高斯分布的假设下，该分数是 NP 最优的。
$\Delta$ -KNN (Delta k-Nearest Neighbors)：
- 原理：非参数化方法。分别构建“正确预测样本”和“错误预测样本”的特征库。
- 分数计算：计算测试样本到“正确库”中 $k$ 个最近邻的平均对数距离，减去到“错误库”中 $k$ 个最近邻的平均对数距离。
- 理论保证：在渐近条件下（ $k \to \infty$ 但 $k/N \to 0$ ），该分数是 NP 最优的，且无需参数化假设。
线性组合策略：
- 提出将距离基分数（如 $\Delta$ -MDS 或 $\Delta$ -KNN）与 Logit 基分数（如 RLog）进行线性组合： $s_{comb}(x) = s_{dist}(x) + \lambda \cdot s_{logit}(x)$ 。
- 理论证明表明，在特定假设下，这种组合仍然是似然比的单调变换，从而保持 NP 最优性。

3. 关键贡献 (Key Contributions)

首个基于 NP 引理的选择性分类框架：首次利用似然比检验为选择性分类定义了最优性标准，并统一了现有方法的理论视角。
提出了新型选择器：设计了 $\Delta$ -MDS 和 $\Delta$ -KNN，通过显式建模正确与错误预测的特征分布差异，解决了传统方法在分布偏移下失效的问题。
全面的实验评估：在视觉（ImageNet 及其协变量偏移变体）和语言（Amazon Reviews）任务上进行了广泛评估，涵盖了监督学习模型（EVA, ResNet）和视觉 - 语言模型（CLIP）。

4. 实验结果 (Results)

实验在多种基准测试和分布偏移场景下进行，主要指标为风险 - 覆盖面积 (AURC) 和归一化 AURC (NAURC)。

整体性能：提出的方法（特别是线性组合 $\Delta$ -KNN-RLog 和 $\Delta$ -MDS-RLog）在几乎所有设置下均显著优于现有基线（MSP, MaxLogit, Energy, MDS, KNN, RLog, SIRC 等）。
协变量偏移下的鲁棒性：
- 在 ImageNet 的协变量偏移数据集（如 ImageNet-R, ImageNet-A, ImageNet-C, ObjectNet 等）上，新方法相比传统基线实现了约 50% 的 AURC/NAURC 降低。
- 在 CLIP (VLM) 模型上， $\Delta$ -KNN-RLog 表现最佳；在监督模型 (EVA) 上， $\Delta$ -MDS-RLog 表现最佳。这验证了不同模型架构对距离度量假设的适应性差异。
语言任务：在 Amazon Reviews 数据集上， $\Delta$ -MDS-MSP 和 $\Delta$ -MDS-RLog 取得了最佳效果，证明了该方法在 NLP 领域的通用性。
消融实验：
- 证明了使用“前 $k$ 个最近邻的平均对数距离”优于仅使用第 $k$ 个距离。
- 证明了线性组合策略能有效结合距离和 Logit 信息的优势。
- 在极低标签数据（0.1%）下， $\Delta$ -KNN 仍保持鲁棒性，显示出良好的样本效率。

5. 意义与影响 (Significance)

理论突破：将选择性分类从启发式设计提升到了基于统计最优性（NP 引理）的理论高度，为设计更可靠的 AI 系统提供了坚实的理论基础。
解决现实痛点：特别针对协变量偏移这一被忽视但至关重要的场景，提供了有效的解决方案。这对于视觉 - 语言模型（VLMs）等标签空间大且输入分布易变的现代应用尤为重要。
实用性强：提出的方法属于后处理 (Post-hoc) 方法，无需重新训练模型，即可直接应用于预训练模型，具有极高的部署价值。
开源贡献：代码已公开，推动了该领域的可复现性和进一步发展。

综上所述，该论文通过引入经典的统计理论，成功解决了现代深度学习模型在分布偏移下的选择性分类难题，提出了一套既具有理论保证又在实践中表现卓越的新方法。

Know When to Abstain: Optimal Selective Classification with Likelihood Ratios

1. 核心思想：像侦探一样找线索（Neyman-Pearson 引理）

2. 新发明的两个“侦探工具”

工具一：Δ\DeltaΔ-MDS（马氏距离差）—— “找同类”

工具二：Δ\DeltaΔ-KNN（K 近邻差）—— “数邻居”

3. 为什么要这么做？（应对“水土不服”）

4. 实验结果：真的好用吗？

总结

1. 研究问题 (Problem)

2. 方法论 (Methodology)

2.1 核心理论框架

2.2 现有方法的统一解释

2.3 提出的新方法

3. 关键贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与影响 (Significance)

类似论文

Horseshoe Priors and MDP

Observable Geometry of Singular Statistical Models

Conditional Independence under Infinite Measures and Poisson Point Processes

Sharp Debiasing for Smooth Functional Estimation in Banach Spaces

Opponent-Adjusted Evaluation of NFL Pass Blocking and Pass Rushing Performance

工具一： $\Delta$ -MDS（马氏距离差）—— “找同类”

工具二： $\Delta$ -KNN（K 近邻差）—— “数邻居”