From Misclassifications to Outliers: Joint Reliability Assessment in Classification

Each language version is independently generated for its own context, not a direct translation.

这篇论文主要解决了一个机器学习领域非常实际的问题：如何训练一个既聪明又“诚实”的 AI 模型？

想象一下，你雇佣了一位**超级侦探（AI 模型）**来帮你识别火灾。

1. 现在的困境：侦探的两种“失误”

在现实生活中，这位侦探面临两种挑战：

看不见的敌人（OOD 检测）： 他需要识别出那些根本不是火的东西（比如浓雾、蒸汽、或者别人放的烟花）。如果他把蒸汽当成火，就会误报（False Alarm），导致大家恐慌。
看走眼的火警（失败预测）： 即使面对真正的火，他也不能太自信。如果火很小或者光线很暗，他应该承认“我不确定”，而不是自信满满地乱指一个方向。

以前的做法是“分头行动”：

有的专家专门研究怎么识别“非火”（雾、烟）。
有的专家专门研究怎么判断“火”是不是真的。
问题在于： 这两个专家各管各的。有时候，一个在识别“非火”上很厉害的模型，可能在判断“火”的时候非常盲目自信；反之亦然。这就导致我们在评估模型时，容易得出错误的结论，以为它很可靠，结果一上战场就翻车。

2. 论文的核心创新：给侦探装上“双保险”

这篇论文提出，可靠性必须同时看这两方面。他们设计了一套新的“双评分系统”（Double Scoring），就像给侦探配了两副眼镜：

第一副眼镜（OOD 评分）： 用来判断“这东西是不是我见过的东西？”（是火还是雾？）。
第二副眼镜（ID 评分）： 用来判断“如果是火，我有多大把握？”（是确定的火，还是模棱两可的？）。

以前的系统： 只给侦探一把尺子，让他决定“信还是不信”。
新的系统（双评分）： 侦探先过第一关（是不是雾？），过了再进第二关（是不是确定的火？）。只有两关都过了，他才敢下结论。

3. 新的“考试评分表”：DS-F1 和 DS-AURC

为了公平地给这种“双保险”系统打分，作者发明了新的评分标准：

DS-F1（最佳表现分）： 就像考试中的“最高分”。它寻找在什么情况下，侦探既能抓对真火，又能完美避开假火，达到完美的平衡点。
DS-AURC（稳健性分）： 就像考试中的“平均分”或“稳定性”。它不看侦探偶尔一次蒙对了，而是看他在所有可能的情况下（无论是严格把关还是宽松放行），表现是否一直都很稳。

比喻：
以前的评分表只看侦探在“最理想天气”下的表现。
新的评分表（DS-F1/DS-AURC）会模拟各种天气（大雾、暴雨、强光），看侦探在任何情况下是否都能保持冷静、不瞎指挥。

4. 实验发现：远亲好找，近邻难辨

作者通过大量实验发现了一个有趣的现象：

对付“远房亲戚”（Far-OOD）很有效： 比如把“猫”的图片给训练识别“火”的模型看，模型很容易识别出“这不是火”。这时候，双评分系统大显身手。
对付“近亲”（Near-OOD）很吃力： 比如把“红色的蒸汽”给模型看，它和“红色的火”长得太像了。这时候，现有的技术很难区分，双评分系统虽然比单评分好，但提升有限。这说明区分极度相似的东西仍然是 AI 界的难题。

5. 终极方案：SURE+ 训练法

除了改评分表，作者还重新设计了一套训练侦探的方法，叫 SURE+。

以前的训练（SURE）： 让侦探多做题，多总结，但主要关注“别认错火”。
新的训练（SURE+）：
- 数据增强（RegPixMix）： 故意给侦探看各种变形的、模糊的、被遮挡的“火”和“非火”，让他练就火眼金睛，不管怎么变都能认出来。
- 优化策略（F-SAM）： 训练侦探不要“钻牛角尖”（避免过拟合），让他学会在模糊地带保持谦逊，不盲目自信。
- 模型集成（EMA）： 让多个版本的侦探一起投票，取平均值，减少个人的情绪波动。

结果： 使用 SURE+ 训练出来的侦探，无论是在识别“雾”还是判断“火”的把握上，都表现得比以前的任何方法都要可靠、稳健。

总结

这篇论文告诉我们：

别只盯着一个指标看： 一个 AI 模型好不好，不能只看它认不认识新东西，也不能只看它认不认得老东西，要综合评估。
双管齐下： 用两套标准（双评分）来考核 AI，能更真实地反映它在现实世界中的可靠性。
训练很重要： 通过更科学的训练方法（SURE+），可以让 AI 在面对未知和模糊情况时，学会“知之为知之，不知为不知”，从而避免灾难性的误判。

这就好比我们不再要求侦探“永远猜对”，而是要求他“在不确定时懂得闭嘴”，这才是真正的安全与可靠。

Each language version is independently generated for its own context, not a direct translation.

这是一篇提交给 IEEE TPAMI 的论文《From Misclassifications to Outliers: Joint Reliability Assessment in Classification》（从误分类到异常值：分类中的联合可靠性评估）的技术总结。

1. 研究背景与问题 (Problem)

在将机器学习分类器部署到安全关键领域（如火灾检测）时，系统不仅需要识别分布内（ID）的样本，还需要具备以下两种能力：

分布外（OOD）检测：识别并拒绝与训练数据分布不同的输入（如火灾检测中的雾气或蒸汽）。
失败预测（Failure Prediction）：在分布内样本中，识别模型可能预测错误的样本（即给低置信度）。

现有问题：

割裂的研究视角：现有的研究通常将 OOD 检测和失败预测作为两个独立的问题处理，分别优化和评估。
评估指标的局限性：传统的评估方法（如单阈值下的 F1 或 AURC）往往只关注其中一个方面，或者假设只有一个评分函数。这导致在联合评估 ID 和 OOD 性能时，难以得出公正的结论。例如，一个模型可能在 OOD 检测上表现优异，但在 ID 样本的可靠性上较差，反之亦然，单一指标无法全面反映系统的真实可靠性。
实际部署的困境：在现实场景中，模型必须同时处理 ID 和 OOD 输入。仅优化单一任务可能导致在联合场景下表现不佳，且缺乏统一的评估标准来指导模型选择。

2. 核心方法论 (Methodology)

A. 联合评估框架：双评分机制 (Double Scoring)

作者提出了一种统一的评估框架，不再依赖单一评分函数，而是引入双评分函数：

$s_{OOD}(x)$ ：用于检测输入是否为分布外（OOD）样本。
$s_{ID}(x)$ ：用于评估模型对分布内（ID）样本预测的置信度（即是否可能出错）。

基于这两个分数，系统设定两个阈值 $\tau_{OOD}$ 和 $\tau_{ID}$ ，将样本划分为四类：

True Accept (TA)：ID 样本且被正确分类（通过两个阈值）。
False Accept (FA)：被接受但错误的样本（包括被接受的 OOD 样本和被接受的 ID 误分类样本）。
False Reject (FR)：被拒绝的 ID 样本（包括被拒绝的正确样本和被拒绝的误分类样本）。
True Reject (TR)：被正确拒绝的 OOD 样本。

B. 新提出的评估指标

为了量化双评分机制下的系统性能，作者提出了两个新指标：

DS-F1 (Double Scoring F1)：
- 定义：在所有可能的阈值对 $(\tau_{OOD}, \tau_{ID})$ 中，寻找能最大化 F1 分数的最佳工作点。
- 意义：衡量系统在最优配置下，同时接受正确 ID 样本并拒绝 OOD 及错误 ID 样本的能力。它扩展了传统 F1 分数，从一维阈值搜索扩展到二维阈值空间搜索。
DS-AURC (Double Scoring Area Under Risk-Coverage Curve)：
- 定义：在覆盖度（Coverage，即被接受样本的比例）从 0 到 1 的变化过程中，计算风险（Risk）的积分面积。
- 创新点：在双评分机制下，同一覆盖度可能对应多组阈值对。DS-AURC 在每个覆盖度层级上选取最小风险（即最优阈值组合），从而构建出比传统单评分 AURC 更优（更低）的风险曲线。
- 意义：评估模型在不同选择严格程度下的整体稳健性，而不仅仅是最佳点。

C. 新训练框架：SURE+

为了验证评估框架的有效性，作者扩展了现有的可靠分类器 SURE，提出了 SURE+：

数据增强：结合 RegMixup（特征插值）和 RegPixMix（像素级扰动），增强模型对语义和像素级变化的鲁棒性。
优化策略：采用 F-SAM（锐度感知优化）替代标准 SAM，以获得更平坦的极小值，提升不确定性估计的稳定性。
模型集成：使用指数移动平均（EMA）替代随机权重平均（SWA），并结合重归一化批处理（Re-BN），提高在混合分布下的预测稳定性。
简化设计：移除了 SURE 中复杂的正确性排序损失（CRL）和余弦相似度分类器，专注于核心组件的整合。

3. 主要贡献 (Key Contributions)

理论视角：揭示了 OOD 检测和失败预测是分类器可靠性的两个互补方面，指出单独评估会导致误导性的结论，必须联合评估。
新指标：提出了 DS-F1 和 DS-AURC，这是首个能够同时量化 OOD 检测能力和 ID 失败预测能力的统一评估标准。
新方法：提出了 SURE+，一个统一且简化的训练框架，显著提升了模型在 ID 和 OOD 场景下的综合可靠性。
实证分析：在 OpenOOD 基准上进行了广泛实验，证明了双评分框架优于单评分框架，并揭示了现有方法在“近 OOD"（Near-OOD）场景下的局限性。

4. 实验结果 (Results)

评估指标表现：
- 在 CIFAR-100 和 ImageNet-1K 数据集上，使用双评分（DS-F1/DS-AURC）评估时，模型表现出的可靠性显著优于单评分评估。
- 双评分方法在 Far-OOD（分布差异大）场景下收益明显，但在 Near-OOD（分布差异小，如 CIFAR-10 对 CIFAR-100）场景下，现有 OOD 检测方法的增益有限，表明 Near-OOD 仍是难点。
- 实验表明，DS-F1 总是大于或等于传统 F1，DS-AURC 总是小于或等于传统 AURC，证明了双评分机制至少不会比单评分差，且通常更优。
SURE+ 性能：
- CIFAR-100：SURE+ 在 ResNet-18 上达到了 81.66% 的 ID 准确率，同时在 DS-F1 和 DS-AURC 指标上均优于 SURE 及其他基线（如 Mixup, CutMix, RegMixup 等）。
- ImageNet-1K：在 DINOv3 ViT-L/16 架构上，SURE+ 达到了 88.49% 的 ID 准确率，并在各种后处理评分方法（Post-hoc scores）下均取得了最佳的 DS 指标。
- 消融实验：证明了 RegPixMix、F-SAM、EMA 和 Re-BN 每个组件都对提升可靠性有显著贡献。

5. 意义与影响 (Significance)

重新定义可靠性评估：该论文挑战了将 OOD 检测和失败预测割裂评估的传统范式，提出了更符合实际部署需求的联合评估标准。
指导模型选择：通过 DS-F1 和 DS-AURC，研究人员和工程师可以更准确地识别出真正鲁棒的模型，避免因单一指标优化而导致的“虚假”高性能。
推动安全 AI 发展：SURE+ 提供了一个可复现的、高性能的基准，为在安全关键领域（如自动驾驶、医疗诊断、工业检测）部署高可靠性分类器提供了实用的技术路径。
未来方向：论文指出了当前方法在 Near-OOD 场景下的不足，并建议未来研究应关注更细粒度的特征表示、训练时的异常值暴露（Outlier Exposure）以及基于生成模型的阈值校准。

总结：这篇论文通过引入双评分机制和新的评估指标（DS-F1, DS-AURC），解决了分类器可靠性评估中长期存在的割裂问题，并提出了 SURE+ 这一强有力的训练框架，为构建可信赖的 AI 系统奠定了新的基准。