Semi-Supervised Conformal Prediction With Unlabeled Nonconformity Score

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一种名为 SemiCP 的新方法，旨在解决人工智能（AI）在“做决定”时如何更自信、更稳定的问题。

为了让你轻松理解，我们可以把 AI 模型想象成一位正在备考的“学生”，而我们要解决的问题是：如何给这位学生的考试成绩划定一个“及格线”，让他既能保证不挂科（覆盖真实答案），又不会把及格线定得太高导致他什么都过不了（预测集合太大）？

1. 核心痛点：只有几个“标准答案”怎么办？

在传统的 AI 测试中（叫“分割式共形预测”），我们需要拿出一部分带有标准答案（标签）的试卷作为“校准集”，用来计算这个“及格线”应该定在哪里。

问题所在：在现实世界里，带标准答案的试卷（标注数据）非常昂贵且稀缺。
后果：如果你只拿 20 份试卷来定及格线，就像让一个老师只看了 20 个学生的作业就决定全班及格线。结果会非常不稳定：
- 这次运气好，及格线定得准，大家都能过。
- 下次运气差，及格线定歪了，要么太松（大家都过，但没区分度），要么太严（大家都挂）。
- 这就好比用几颗骰子来决定赌局的输赢，结果波动极大，不可靠。

2. 新方案：SemiCP（半监督共形预测）

作者提出了一个聪明的办法：既然带答案的试卷少，那我们就利用海量的“没答案的试卷”（未标注数据）来帮忙！

这就好比：

老师手里只有 20 份带红笔批改的试卷（标注数据），但教室里还有 4000 份没批改的试卷（未标注数据）。

传统的做法是：只看那 20 份，定及格线。

SemiCP 的做法是：利用那 4000 份没答案的试卷，结合那 20 份已知答案的试卷，一起把及格线定得更稳、更准。

3. 核心技术：NNM（最近邻匹配）——“找替身”的艺术

怎么利用那些“没答案”的试卷呢？直接猜答案肯定不行，猜错了会误导及格线。作者发明了一个叫 NNM（最近邻匹配） 的绝招。

通俗比喻：
想象你要给一个没答案的学生（未标注样本）打分，但你不知道他的真实答案。

先猜一个：让 AI 模型先猜一下这个学生最可能选什么答案（这叫“伪标签”）。
找“替身”：在手里那 20 份已知答案的试卷里，找一个**“长得最像”**（在 AI 的预测分数上最接近）的已知学生。
借经验：既然这两个学生“长得像”，那么那个已知学生的“真实分”和“猜测分”之间的偏差（误差），很可能也适用于这个未知学生。
修正：用这个偏差去修正未知学生的猜测分，得到一个**“修正后的分数”**。

这就好比：

你想估算一个陌生人的身高，但你没有尺子。你发现他和班里一个已知身高的同学（比如 180cm）长得特别像，而且他们穿鞋的款式、站姿都差不多。

于是你推断：这个陌生人的身高应该也接近 180cm，再根据那个同学穿鞋带来的微小误差进行微调。

这样，你就利用“已知同学”的经验，成功估算出了“陌生人”的身高，而且比瞎猜要准得多。

4. 为什么这个方法牛？

更稳（Stability）：以前只用 20 份试卷定线，像走钢丝；现在加上 4000 份“修正后”的试卷，就像在钢丝下加了安全网。无论怎么跑，结果都稳稳地落在目标范围内。
更准（Efficiency）：因为定线更准了，预测出来的“答案集合”就不会太大。
- 例子：以前 AI 预测“这是一只动物”，可能给出 {猫，狗，牛，马} 四个选项（太宽泛，没意义）。
- 现在：AI 能自信地给出 {猫，狗} 甚至 {猫}（更精准，更有用）。
实验数据：在只有 20 个标注样本的情况下，使用 4000 个未标注样本，SemiCP 将预测结果的不稳定性降低了 77%！

5. 总结

这篇论文就像给 AI 模型发了一本**“作弊小抄”（利用未标注数据），但这本小抄不是直接给答案，而是教 AI 如何“举一反三”**。

以前：只有几个标准答案，AI 心里没底，预测结果忽高忽低。
现在：利用海量“没答案”的数据，通过“找替身”（NNM）的方法，把不确定的部分也利用起来。
结果：AI 的预测既靠谱（保证覆盖真实答案），又精炼（给出的选项少而精），而且不管怎么测试，表现都很稳定。

这对于医疗诊断（不能漏诊）、金融风控（不能误判）等高风险领域来说，是一个巨大的进步，让 AI 在数据稀缺的时候也能“稳如泰山”。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文《Semi-Supervised Conformal Prediction With Unlabeled Nonconformity Score》（基于未标记非一致性分数的半监督共形预测）的详细技术总结。

1. 研究背景与问题 (Problem)

共形预测 (Conformal Prediction, CP) 是一种用于不确定性量化的统计框架，能够生成包含真实标签的预测集，并保证覆盖率（Coverage Guarantee）。然而，标准的分割共形预测 (Split Conformal Prediction) 严重依赖校准集（Calibration Set）中的标记数据来计算非一致性分数（Nonconformity Score）的阈值。

在现实场景中，标记数据往往非常有限，这导致了以下核心问题：

覆盖率不稳定 (Instability)： 当校准集中标记样本数量较少时，不同运行之间的覆盖率波动巨大，难以稳定地达到预设的 $1-\alpha$ 覆盖率。
预测集过大 (Inefficiency)： 为了补偿小样本带来的不确定性，标准方法往往倾向于生成过大的预测集，降低了预测的实用性。
现有方法的局限性： 之前的尝试（如插值、修改 p 值或少样本元学习）通常是启发式的，缺乏有限样本保证，或者依赖特定的任务集合，难以在数据稀缺的通用场景下解决不稳定性问题。

2. 核心方法论 (Methodology)

作者提出了 SemiCP（半监督共形预测）框架，旨在利用未标记数据来增强校准过程，从而在标记数据稀缺的情况下提高稳定性和效率。

2.1 核心思想

SemiCP 将未标记数据纳入校准集，通过计算未标记样本的“非一致性分数”来扩充校准池，从而更准确地估计分位数阈值。关键在于如何为没有真实标签的未标记样本定义有效的非一致性分数。

2.2 关键创新：最近邻匹配分数 (Nearest Neighbor Matching, NNM)

为了解决未标记样本缺乏真实标签的问题，作者提出了一种名为 NNM 的非一致性分数估计方法：

伪标签与偏差 (Pseudo-label & Bias)：
- 首先利用预训练模型 $f$ 为未标记样本 $\tilde{x}$ 生成伪标签 $\hat{y}$ 。
- 计算“伪分数” $S(\tilde{x}, \hat{y})$ 。由于 $\hat{y}$ 是模型最自信的类别，伪分数通常系统性地偏低（即低估了真实的不一致性）。
- 定义“偏差” $\Delta(x) = S(x, y_{true}) - S(x, \hat{y})$ ，即真实分数与伪分数之间的差距。
最近邻匹配 (Matching)：
- 对于每个未标记样本 $\tilde{x}$ ，在标记数据集中寻找一个标记样本 $x_j$ ，使得 $x_j$ 的伪分数 $S(x_j, \hat{y}_j)$ 与 $\tilde{x}$ 的伪分数 $S(\tilde{x}, \hat{y})$ 最接近。
- 利用找到的最近邻 $x_j$ 的真实偏差 $\Delta(x_j) = S(x_j, y_j) - S(x_j, \hat{y}_j)$ 来校正 $\tilde{x}$ 的伪分数。
NNM 分数计算公式：
$\tilde{S}_{nnm}(\tilde{x}) = S(\tilde{x}, \hat{y}) + [S(x_j, y_j) - S(x_j, \hat{y}_j)]$
其中 $j = \arg\min_k |S(\tilde{x}, \hat{y}) - S(x_k, \hat{y}_k)|$ 。
校准与预测：
- 将标记样本的真实分数和未标记样本的 NNM 分数合并，计算新的分位数阈值 $\hat{\tau}$ 。
- 使用该阈值构建最终的预测集。

3. 理论贡献 (Theoretical Contributions)

论文提供了严格的理论分析，证明了 SemiCP 的有效性：

覆盖率保证： 证明了在满足一定假设（如 i.i.d. 采样）下，SemiCP 的边际覆盖率满足 $P(y \in C) \ge 1 - \alpha + \epsilon_{n,N}$ ，其中偏差项 $\epsilon$ 取决于未标记分数分布与真实分数分布的差异。
收敛性分析： 证明了随着未标记样本数量 $N$ 的增加，平均覆盖率间隙 (Average Coverage Gap) 以 $O(1/\sqrt{N})$ 的速率显著减小。
NNM 的一致性： 证明了 NNM 分数在分布上渐近收敛于真实的非一致性分数分布。随着标记样本数量 $n$ 的增加，NNM 引入的偏差趋于零，确保了覆盖率的准确性。

4. 实验结果 (Results)

作者在 CIFAR-10, CIFAR-100 和 ImageNet 三个数据集上进行了广泛实验，对比了标准 Split CP、Oracle（假设拥有所有未标记数据的真实标签）和 SemiCP。

显著提升稳定性： 在标记数据极少（如仅 20 个样本）的情况下，SemiCP 将平均覆盖率间隙（CovGap）降低了高达 77%。例如在 CIFAR-10 上，CovGap 从 6.4 降至 1.1。
提高预测效率： 在保持覆盖率稳定的同时，SemiCP 生成的预测集大小（Set Size）更小，更接近 Oracle 的性能。
通用性与鲁棒性：
- 兼容多种评分函数： 适用于 THR, APS, RAPS 等多种现有的非一致性分数。
- 兼容不同模型架构： 在 ResNet, ViT, EfficientNet 等 10 种不同架构上均表现优异。
- 条件共形预测： 在组条件（Group-conditional）和类条件（Class-conditional）设置下同样有效。
- 可组合性： 可以与插值法 (Interpolation) 和 ClusterCP 等现有方法无缝集成，进一步提升性能。
分布偏移鲁棒性： 即使在标记数据来自不同分布（如 ImageNet-R）而测试数据来自目标分布的情况下，SemiCP 仍能通过未标记数据重新校准，显著优于标准方法。

5. 意义与局限性 (Significance & Limitations)

意义：

解决数据稀缺痛点： 首次系统性地提出利用未标记数据来解决共形预测中标记数据不足导致的稳定性问题。
无需额外训练 (Training-free)： 该方法不需要重新训练模型或进行复杂的优化，直接利用现有模型和未标记数据即可实施，计算开销极小（主要是最近邻搜索，复杂度为 $O(N \log n)$ ）。
理论严谨： 提供了关于覆盖率偏差和收敛速率的严格理论证明，填补了半监督共形预测领域的理论空白。

局限性：

假设限制： 理论结果依赖于标记和未标记数据同分布（i.i.d.）的假设，虽然实验显示对分布偏移有一定鲁棒性，但极端分布偏移下可能失效。
任务范围： 目前主要应用于分类任务，尚未扩展到回归任务。
伪标签质量依赖： 方法的效果依赖于预训练模型生成伪标签的质量。如果模型准确率极低，NNM 的偏差校正可能失效。

总结

这篇论文提出了一种名为 SemiCP 的新范式，通过引入 NNM (最近邻匹配) 分数，成功地将未标记数据整合到共形预测的校准过程中。该方法在理论上证实在标记数据稀缺时能显著降低覆盖率的不稳定性，并在多个基准测试中验证了其高效性和鲁棒性，为高风险场景下的机器学习模型不确定性量化提供了一种实用且强大的解决方案。

Semi-Supervised Conformal Prediction With Unlabeled Nonconformity Score

1. 核心痛点：只有几个“标准答案”怎么办？

2. 新方案：SemiCP（半监督共形预测）

3. 核心技术：NNM（最近邻匹配）——“找替身”的艺术

4. 为什么这个方法牛？

5. 总结

1. 研究背景与问题 (Problem)

2. 核心方法论 (Methodology)

2.1 核心思想

2.2 关键创新：最近邻匹配分数 (Nearest Neighbor Matching, NNM)

3. 理论贡献 (Theoretical Contributions)

4. 实验结果 (Results)

5. 意义与局限性 (Significance & Limitations)

总结

类似论文

Equitable Multi-Task Learning for AI-RANs

SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning

The Temporal Markov Transition Field

SoftJAX & SoftTorch: Empowering Automatic Differentiation Libraries with Informative Gradients

Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models