When should we trust the annotation? Selective prediction for molecular structure retrieval from mass spectra

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个非常实际的问题：当我们用人工智能（AI）去分析质谱图（一种像“分子指纹”一样的化学数据）来识别未知分子时，我们什么时候该相信 AI 的判断，什么时候该让它“闭嘴”？

想象一下，你是一位化学侦探，手里有一堆复杂的“分子指纹”（质谱图）。你的任务是找出这些指纹对应的是哪种化学物质。现在，你雇佣了一个超级聪明的AI 助手来帮你破案。

1. 核心问题：AI 也会犯错，而且后果很严重

虽然现在的 AI 技术突飞猛进，但它并不是完美的。在药物研发或环境监测中，如果 AI 错误地指认了一个分子（比如把一种无害物质认成剧毒物质，或者反之），可能会导致严重的后果。

这就好比机场安检：如果安检员（AI）把普通水杯当成炸弹（误报），只是耽误时间；但如果把真正的炸弹当成水杯（漏报），后果不堪设想。因此，我们需要一种机制，让 AI 在**“我不确定”**的时候，敢于说：“这个我看不准，我不猜了”，而不是胡乱猜一个。

2. 解决方案：选择性预测（Selective Prediction）

论文提出了一种**“选择性预测”**的框架。

传统做法：AI 对每一个输入都强行给出一个答案，不管它有多不确定。
新做法：AI 给自己打分。如果分数很高（很有把握），它就给出答案；如果分数很低（心里没底），它就**“弃权”**（Abstain），告诉人类专家：“这个太复杂了，请您亲自处理。”

这样做的代价是：我们得到的答案变少了（覆盖率降低），但剩下的答案准确率极高（风险降低）。

3. 如何判断 AI 是否“心里有底”？（不确定性量化）

这是论文最精彩的部分。作者测试了多种方法来给 AI 的“自信程度”打分，就像给侦探的直觉打分一样。他们比较了三种主要思路：

A. 指纹层面的打分（微观视角）

比喻：就像检查指纹的每一个纹路细节。AI 说：“这个指纹的第 1 条纹路我有 99% 把握，第 2 条有 98% 把握……"
结果：论文发现，这招不管用。即使 AI 对指纹的每一个细节都很有把握，它可能还是认错了人。因为两个长得极像的坏人（结构相似的分子），指纹细节都很清晰，但 AI 还是分不清谁是谁。
结论：盯着细节看，反而会被误导。

B. 检索层面的打分（宏观视角）

比喻：就像看嫌疑人名单的排名。AI 说：“我觉得嫌疑人 A 是罪犯的可能性是 80%，嫌疑人 B 是 79%，嫌疑人 C 是 10%。”
结果：这招很管用！
- 置信度（Confidence）：如果第一名比第二名高出一大截，AI 就很自信。
- 排名方差（Rank Variance）：如果 AI 反复看这个案子，有时候觉得 A 是第一名，有时候觉得 B 是第一名，那说明它很纠结，这时候就应该弃权。
结论：看整体排名的稳定性比看细节更重要。

C. 距离层面的打分（环境视角）

比喻：看这个案子是不是太冷门了。如果这个指纹在 AI 以前学过的所有案例里都找不到相似的，AI 可能会说：“这太陌生了，我不懂。”
结果：效果一般。因为 AI 的“学习空间”可能并没有按照“难不难识别”来排列，所以这种“陌生感”并不总是代表“危险”。

4. 关键发现：不要迷信“知识盲区”

在机器学习里，有一种叫**“认知不确定性”（Epistemic Uncertainty）**的概念，意思是“因为训练数据不够，所以我不知道”。

通俗理解：AI 说：“我没见过这种分子，所以我不知道。”
论文发现：在这个任务里，这种“不知道”并不重要。
真正重要的是“随机性”（Aleatoric Uncertainty）：即数据本身就很模糊（比如两个分子长得太像了，连上帝都难分）。
比喻：与其纠结“我是不是没学过这个案子”，不如关注“这个案子本身是不是太像双胞胎了，导致谁都分不清”。**总体的混乱程度（Total Uncertainty）**比单纯的“知识盲区”更能预测 AI 是否会犯错。

5. 最终成果：给 AI 戴上“紧箍咒”

作者不仅找到了最好的打分方法，还引入了一种数学保证（SGR 算法）。

场景：你可以直接告诉 AI：“我只允许 5% 的错误率，在这个前提下，你能帮我分析多少样本？”
结果：AI 会严格计算，只输出它非常有把握的那部分结果，并保证剩下的错误率真的低于 5%。
意义：这让化学家可以放心地使用 AI。如果 AI 说“这个我敢认”，那就可以直接用于临床诊断或环境监管；如果 AI 说“这个我不确定”，那就转给人工专家。

总结

这篇论文就像给化学界的 AI 助手制定了一套**“职业操守”**：

不要盲目自信：当 AI 拿不准时，必须学会“闭嘴”。
看大局，别看细节：判断 AI 是否靠谱，要看它排名的稳定性，而不是看它预测的微观细节有多清晰。
要有底线：通过数学方法，确保 AI 输出的每一个结果，都符合我们设定的安全标准。

这就把原本黑盒子的 AI 预测，变成了一个透明、可控、可信赖的决策过程。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文《When should we trust the annotation? Selective prediction for molecular structure retrieval from mass spectra》（何时应该信任注释？基于质谱的分子结构检索的选择性预测）的详细技术总结。

1. 研究背景与问题 (Problem)

背景：非靶向代谢组学产生了大量的串联质谱（MS/MS）数据，但仅有约 10% 的特征能被正确注释为分子结构，这被称为代谢组学的“暗物质”。
挑战：尽管机器学习（如 CSI:FingerID, MIST, JESTR 等）在从质谱检索分子结构方面取得了进展，但现有的方法仍存在显著的错误率。
核心问题：在临床代谢组学和环境筛查等高风险应用中，错误的注释可能导致严重后果。目前的模型缺乏一种机制来评估单个预测的可靠性。仅仅追求高准确率是不够的，必须能够识别出“何时可以信任预测”以及“何时应该放弃预测”。
目标：引入**选择性预测（Selective Prediction）**框架，使模型能够在不确定性过高时“拒绝”预测，从而在保持可接受的错误率（风险）的同时，最大化可接受预测的覆盖率。

2. 方法论 (Methodology)

该研究在 MassSpecGym 基准数据集上，构建了一个系统性的选择性预测框架，主要包含以下核心部分：

2.1 任务定义

基于指纹的分子检索：模型将质谱 $x$ 映射为分子指纹概率向量 $\theta$ ，然后计算其与候选库中分子指纹 $c_j$ 的余弦相似度，对候选分子进行排序。
选择性分类器：引入一个选择函数 $g(x)$ ，基于置信度评分 $\kappa(x)$ 和阈值 $\tau$ ，决定是输出预测结果还是“放弃（abstain）”。
风险 - 覆盖率权衡 (Risk-Coverage Tradeoff)：
- 覆盖率 (Coverage)：模型做出预测的样本比例。
- 选择性风险 (Selective Risk)：在被接受的预测中，错误预测的比例（即 $1 - \text{Hit@K}$）。
- 目标是在给定的风险约束下最大化覆盖率。

2.2 不确定性量化策略 (Scoring Functions)

研究在两个粒度级别上评估了多种评分函数，以决定哪些预测值得信任：

指纹级别 (Fingerprint-level)：针对预测的分子指纹位（bits）的不确定性。
- 包括总不确定性、随机不确定性（Aleatoric）和认知不确定性（Epistemic）。
- 通过贝叶斯近似（如深度集成 Deep Ensemble、MC Dropout、Laplace 近似）获得二阶分布。
检索级别 (Retrieval-level)：针对候选分子排序的不确定性。
- 一阶置信度：最大候选概率 ( $\kappa_{conf}$ )、前两名相似度分数之差 ( $\kappa_{gap}$ )。
- 二阶不确定性：候选概率分布的总熵、随机/认知不确定性分解、排名方差 ( $\kappa_{rank}$ ，即 Top-K 候选集在不同样本中的稳定性)。
距离基础 (Distance-based)：
- 基于输入在表征空间中的位置，如深度 k-近邻距离 ( $\kappa_{knn}$ ) 和马氏距离 ( $\kappa_{mah}$ )。

2.3 风险控制 (Risk Control)

使用 SGR (Selection with Guaranteed Risk) 算法。这是一种分布无关（distribution-free）的方法，利用保形预测（Conformal Prediction）思想，在给定目标风险率 $r^*$ 和置信水平 $\delta$ 的情况下，自动选择阈值 $\tau^*$ 。
保证：以高概率（$1-\delta $）确保被接受的预测集合的实际风险不超过$ r^*$。

3. 主要贡献 (Key Contributions)

首次系统性评估：首次对质谱分子结构检索任务中的选择性预测进行了系统性评估。
粒度分析：揭示了不确定性量化的粒度至关重要。**检索级别（Retrieval-level）**的不确定性指标远优于指纹级别（Fingerprint-level）指标。
发现认知不确定性的局限性：证明在检索任务中，单独使用认知不确定性（Epistemic Uncertainty）（即模型因数据不足而缺乏的知识）并不是有效的筛选标准；相反，总预测不确定性或随机不确定性（Aleatoric）（数据固有的噪声/模糊性）表现更好。
低成本高效方案：发现计算成本极低的一阶置信度指标（如最大概率、分数差距）和检索级别的随机不确定性，在风险 - 覆盖率权衡上表现优异，甚至优于复杂的贝叶斯方法。
可证明的可靠性：展示了通过 SGR 算法，实践者可以指定一个可容忍的错误率，并获得满足该约束的注释子集，具有统计保证。

4. 实验结果 (Results)

实验基于 MassSpecGym 数据集（23 万 + 谱图），使用 Deep Ensemble 等模型进行评估：

评分函数性能 (Risk-Coverage Curves)：
- 指纹级别指标：表现极差，接近随机拒绝（Relative AURC $\approx$ 0.9+）。因为即使指纹预测很自信，如果存在结构相似的竞争者，检索仍可能失败。
- 检索级别指标：表现最佳。
  - 对于 Hit@1（精确匹配）：分数差距 ( $\kappa_{gap}$ ) 和 最大概率 ( $\kappa_{conf}$ ) 表现最好。
  - 对于 Hit@K (K>1)（宽松匹配）：排名方差 ( $\kappa_{rank}$ ) 成为最强指标，因为它捕捉了 Top-K 集合的稳定性。
- 认知不确定性：在所有设置中均表现不佳，不如总不确定性或随机不确定性。
- 距离基础指标：表现接近随机，说明表征空间中的距离并不能直接反映检索难度。
候选集大小的影响：候选集大小本身是一个有效的筛选标准（候选越多越难），但在候选集大小固定时，排名方差仍能捕捉到排序的不稳定性。
风险控制效果：
- 在 Hit@20 任务中，在目标风险为 0.5 时，SGR 算法能保留约 87% 的测试谱图。
- 在 Hit@1 任务中，由于基线错误率高，为了保证低风险，必须拒绝大部分样本（覆盖率较低）。
- 实验验证了 SGR 提供的统计保证：在未见过的验证集上，实际风险始终低于目标风险。

5. 意义与结论 (Significance & Conclusion)

范式转变：将分子鉴定从单纯的“预测任务”转变为“不确定性感知的决策过程”。
实用价值：为临床和环境监测提供了安全部署 ML 模型的方法。用户可以根据风险承受能力（如允许 5% 的错误率）来调整系统，自动过滤掉不可靠的预测，从而避免错误的诊断或监管决策。
理论洞察：
- 不确定性指标必须与**任务损失函数（Task Loss）**对齐。指纹级别的不确定性对应指纹重建质量，但不直接对应检索成功率。
- 在检索任务中，总不确定性（包含数据噪声和模型无知）比单纯的认知不确定性更能反映预测的可靠性。
未来方向：建议探索更高效的模型架构、针对稀疏指纹的不确定性估计方法，以及结合假发现率（FDR）控制的更严格标准。

总结：该论文证明了在质谱分子检索中，通过简单的检索级别置信度评分结合分布无关的风险控制算法，可以构建出既高效又可靠的自动化注释系统，有效解决了高错误率带来的信任危机。