SphOR: A Representation Learning Perspective on Open-set Recognition for Identifying Unknown Classes in Deep Learning Models

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 SpHOR 的新方法，旨在解决人工智能（特别是深度学习）在现实世界中面临的一个大难题：如何识别“没见过”的东西。

为了让你轻松理解，我们可以把人工智能想象成一个正在学习识别水果的超级厨师。

1. 核心问题：厨师的“熟悉陷阱”

想象一下，这位厨师（AI 模型）在训练时只见过苹果、香蕉和橙子。

闭集识别（传统方法）：厨师认为世界上只有这三种水果。如果端上来一个梨（未知类别），厨师会硬着头皮说：“这肯定是个苹果！”或者“这是个橙子！”。他不敢承认自己没见过，因为他的训练规则就是“必须选一个”。
开集识别（OSR 的目标）：我们希望厨师能诚实地说：“等等，这个梨我从来没见过，它不属于苹果、香蕉或橙子中的任何一种，请把它标记为‘未知’。”

难点在哪里？
论文指出，很多未知的水果（比如梨）长得和已知的水果（比如青苹果）非常像。如果厨师只关注“它们都是圆形的、有皮的”这种共同特征，他就很容易把梨误认成青苹果。这就是论文提到的**“熟悉陷阱”（Familiarity Trap）**：因为太像了，所以自信地认错了。

2. SpHOR 的解决方案：重新设计“大脑”的存储方式

以前的 AI 方法通常是让厨师在“认识水果”和“拒绝陌生水果”这两件事上一起训练，结果往往是顾此失彼。

SpHOR 提出了一种**“两步走”的策略，就像先教厨师如何整理货架**，再教他如何贴标签。

第一步：整理货架（特征学习阶段）

SpHOR 不急着让厨师认水果，而是先教他如何把水果在脑海里摆放得井井有条。它用了三个“魔法”：

正交标签（Orthogonal Label Embeddings）—— 让每个类别住进独立的房间
- 比喻：想象一个巨大的球形仓库。以前的方法可能让苹果和梨的货架挤在一起。SpHOR 强制规定：苹果必须住在“东半球”，香蕉住“西半球”，橙子住“南半球”。
- 作用：通过数学上的“正交”（互相垂直），确保每个类别的特征空间是完全分开的。这样，如果一个新水果（梨）出现，它既不像苹果也不像香蕉，就会落在这些“房间”之外的空地上，很容易被识别出来。
球形约束（Spherical Constraint）—— 把世界变成地球仪
- 比喻：传统的 AI 把特征放在一个无限延伸的平面上，东西可以无限远。SpHOR 把特征强行投影到一个球体表面（就像地球仪）。
- 作用：在球体上，距离更容易计算。它利用一种叫“冯·米塞斯 - 费雪分布”的数学模型，让同类水果紧紧聚在一起（像一群游客围在景点），而不同类水果则均匀地散落在球体各处。
混合与平滑（Mixup & Label Smoothing）—— 制造“模糊”的中间地带
- 比喻：为了训练厨师识别“未知”，SpHOR 故意在训练时把“苹果”和“香蕉”的图片混在一起，做成一张“半苹果半香蕉”的模糊图片，并告诉厨师：“这个既不完全像苹果，也不完全像香蕉，它处于中间地带。”
- 作用：这就像给厨师打了一剂“预防针”。当他在测试时遇到一个真正的“梨”（未知类），他就能意识到：“哦，这个感觉像那个模糊的中间地带，我不该把它强行归为苹果。”这大大减少了“熟悉陷阱”。

第二步：贴标签（分类器训练阶段）

当货架整理得井井有条后，再训练一个简单的分类器。因为“房间”已经分得很清楚了，这个分类器只需要做简单的判断，就能既准确识别已知水果，又敏锐地发现那些落在“空地”上的未知水果。

3. 如何衡量效果？（两个新尺子）

为了证明这种方法真的有效，作者发明了两种新的“尺子”来测量：

角度分离度（Angular Separability）：测量未知水果和已知水果在“球体”上的角度差。角度越大，越容易区分。
范数分离度（Norm Separability）：测量未知水果的“模糊程度”（数学上的模长）。未知水果往往因为不确定，其特征向量会显得更“短”或更“散”，通过这个指标也能把它们抓出来。

4. 成果如何？

SpHOR 在多个测试中（包括识别鸟类、汽车、飞机等精细分类任务）都取得了**世界顶尖（State-of-the-art）**的成绩。

特别是在那些长得非常像的精细分类任务中（比如区分不同品种的鸟），SpHOR 比以前的方法提高了约 5.1% 的准确率。
它不需要昂贵的预训练，甚至从零开始训练也能表现得很强，而且计算速度很快，适合资源有限的设备。

总结

SpHOR 就像是一位聪明的老师，它不强迫学生死记硬背（强行分类），而是先教学生建立清晰的思维框架（正交、球形空间），并让学生练习处理模糊情况（Mixup）。

最终，当面对一个从未见过的“梨”时，这位学生（AI）不再慌张地把它认成“苹果”，而是自信地举手说：“老师，这个我还没学过，它是未知的！”

这就是 SpHOR 的核心贡献：通过重塑特征空间，让 AI 学会如何优雅地承认“我不知道”。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题定义 (Problem)

核心挑战：开放集识别 (Open-Set Recognition, OSR)
传统的深度神经网络（DNN）分类器通常假设测试数据的所有类别在训练阶段都是已知的（闭集假设）。然而，在现实世界的安全关键应用中，测试数据可能包含训练阶段未见过的“未知类”。OSR 的目标是不仅能正确分类已知类，还能将未知类的样本识别为“未知”，而不是错误地将其归类为某个已知类。

现有方法的局限性：

特征表示适应不良： 大多数 OSR 方法将特征提取器和分类器联合训练，导致学习到的特征表示往往是为了优化已知类的分类边界，而非显式地为未知类预留空间（Open-space）。
通用目标函数的不足： 许多方法直接套用监督对比学习（Supervised Contrastive Learning）等通用目标，这些目标并非专门为处理未知类设计。
“熟悉性陷阱” (Familiarity Trap)： 当未知类与已知类在语义上非常相似（细粒度语义偏移）时，如果特征空间未能有效区分类间特异性特征，未知样本会被错误地映射到已知类的特征簇附近，导致高置信度的错误分类。
欧氏空间的缺陷： 传统方法多在欧氏空间建模，特征范数无界，增加了将已知样本误判为未知的风险（Open-space risk）。

2. 方法论 (Methodology)

作者提出了 SpHOR，一种基于解耦训练策略的两阶段开放集识别方法。其核心思想是通过显式的监督表示学习来塑造特征空间，然后再训练分类器。

阶段一：球面表示学习 (Spherical Representation Learning)

该阶段专注于学习具有特定几何结构的特征表示，主要包含三个关键创新：

正交标签嵌入 (Orthogonal Label Embeddings)：
- 引入正交正则化项 ( $R_{Ortho}$ )，强制不同类别的标签嵌入向量（Label Embeddings）在单位超球面上相互正交。
- 目的： 确保每个类别占据独特的线性子空间，减少类间共享特征（如背景纹理），从而缓解“熟悉性陷阱”。
球面约束与 von Mises-Fisher (vMF) 分布建模：
- 对特征进行 $L_2$ 归一化，将其投影到超球面上。
- 假设每个类别的分布服从 von Mises-Fisher (vMF) 分布（高斯分布在球面上的类比）。
- 优势： 球面几何天然适合建模方向性，且能更好地控制开放空间的风险。
Mixup 与标签平滑 (Label Smoothing, LS) 的集成：
- 在表示学习阶段直接引入 Mixup 和标签平滑。
- 机制： 通过混合样本生成具有模糊语义的样本，迫使模型将模糊样本推向已知类中心的“中间地带”或开放空间，而不是强行归类到某个已知类。
- 损失函数 ( $L_{vMFAL}$ )： 基于 vMF 分布的对数似然损失，结合标签相似度（而非硬标签），同时优化对齐 (Alignment)（特征靠近对应标签中心）和均匀性 (Uniformity)（特征在球面上均匀分布）。

阶段二：分类器训练 (Classifier Training)

冻结阶段一训练好的特征提取器（Encoder）。
丢弃投影网络和标签嵌入。
使用标准的交叉熵损失在提取的特征上微调一个线性分类器。

后处理评分规则 (Scoring Rules)

为了判断样本是否属于未知类，论文评估了多种评分规则（如 MaxLogit, KNN, NNGuide 等），将特征表示和分类器输出结合，设定阈值 $\theta$ 来区分已知与未知。

3. 关键贡献 (Key Contributions)

新颖的两阶段解耦训练框架： 提出了 SpHOR，将表示学习与分类器训练解耦。第一阶段显式地通过正交嵌入和 vMF 分布建模来塑造特征空间，第二阶段仅微调分类器。
针对 OSR 的表示学习创新：
- 设计了正交标签嵌入以强制类间子空间分离。
- 利用球面几何和vMF 分布建模，显式鼓励特征的对齐与均匀性。
- 将 Mixup 和 标签平滑 直接整合到表示学习阶段，而非仅作为数据增强，有效缓解“熟悉性陷阱”。
新的评估指标：
- 提出了 角度可分性 (Angular Separability, AS)：衡量未知样本与最近已知样本在角度上的接近程度（越低越好，表示分离度好）。
- 提出了 范数可分性 (Norm Separability, NS)：衡量已知类与未知类样本特征范数的分布差异（越高越好，表示可通过范数阈值检测未知类）。
理论分析： 从数学上证明了损失函数如何诱导特征的对齐与均匀性，并分析了正交正则化对特征分散度（Dispersion）的影响。

4. 实验结果 (Results)

实验在多个基准数据集上进行，包括细粒度的 Semantic Shift Benchmark (SSB)（CUB, Stanford Cars, FGVC-Aircraft）和传统的 Legacy CNN-32 OSR Benchmarks。

细粒度任务 (SSB Benchmark)：
- SpHOR 在 AUROC 和 OSCR (Open Set Classification Rate) 指标上均取得了 State-of-the-Art (SOTA) 结果。
- 在 SSB 的 Hard 分割（语义偏移更细微）上，相比次优方法（如 MLS+Mixup），OSCR 提升了高达 5.1%。
- 鲁棒性： 即使在没有 ImageNet 预训练的情况下（从头训练），SpHOR 依然保持了竞争力，而基线方法（如 SupCon）性能下降显著。
- 评分规则不敏感性： SpHOR 对不同的评分规则（MaxLogit, KNN 等）变化不敏感，表现出极高的稳定性。
粗粒度任务 (Legacy Benchmarks)：
- 在 CIFAR-10/100, SVHN, Tiny-ImageNet 等数据集上，SpHOR 同样取得了最佳或接近最佳的 AUROC 成绩。
- 相比 ConOSR 和 RCSSR 等现有 SOTA 方法，平均 AUROC 有显著提升（例如在 Benchmark A 上提升 0.81%）。
消融研究 (Ablation Study)：
- Mixup + LS： 两者结合能同时优化角度可分性 (AS) 和范数可分性 (NS)，显著提升整体性能。
- 正交正则化 ( $R_{Ortho}$ )： 显著增加了类中心的分散度 (Dispersion)，进一步提升了未知类的检测能力。
- 计算效率： SpHOR 的训练复杂度为 $O(B \cdot C)$ ，远优于对比学习方法的 $O(B^2)$ ，且在极小 Batch Size 下仍能稳定收敛。

5. 意义与影响 (Significance)

重新定义 OSR 范式： 论文有力地证明了，与其依赖复杂的分类器后处理或生成式模型，不如显式地设计特征表示空间。通过解耦训练和几何约束，可以构建出对未知类更鲁棒的特征空间。
解决细粒度开放集难题： 现有的 OSR 方法在处理细粒度语义偏移（如不同种类的鸟或汽车）时往往失效。SpHOR 通过正交子空间和球面几何，成功解决了这一难题，为医疗诊断、自动驾驶等高风险领域的细粒度异常检测提供了新思路。
理论深度： 引入 vMF 分布和新的可分性指标（AS, NS），为理解开放集识别中的几何特性提供了理论工具，解释了为什么某些正则化手段（如 Mixup）在表示学习阶段比在分类阶段更有效。
实用性与效率： 该方法不仅性能卓越，而且计算效率高，无需大规模 Batch 即可训练，适合资源受限的实际应用场景。

总结： SpHOR 通过结合球面几何、正交约束和数据增强策略，在表示学习层面显式地构建了适合开放集识别的特征空间，显著提升了深度神经网络在未知类别检测上的能力，特别是在最具挑战性的细粒度语义偏移场景下。