以下是用简单语言和日常类比对该论文的解读。

问题：“天气预报”问题

想象你是一位科学家，试图预测哪些分子能制成良药。你为此构建了一个计算机模型。

现在，假设你在一组特定数据上训练了这个模型。它预测分子 A是“赢家”（它将作为药物生效）。

但随后，你决定重新训练该模型。你没有改变规则或数据来源，只是使用了同一组数据中略有不同的随机采样（就像从同一副牌中抽出一手新牌）。

令人震惊的结果：
当你重新训练模型时，它突然说分子 A是“输家”，而分子 B成了新的赢家。

论文将这种现象称为**“跨样本预测波动”**。它指的是模型仅仅因为训练数据被轻微打乱而翻转其决策的速率。

论文的发现： 在 9 项不同的化学测试中，模型的整体准确率仅发生了微小变化（约 1–4%）。但是，针对单个分子的具体决策却在 8% 到 22% 的情况下发生了翻转。
类比： 想象一位整体准确率为 95% 的法官。但如果你请他判决 100 个具体案件，并在让他午休吃不同的午餐后，请他对同样的 100 个案件重新判决，他可能会改变其中 20 个案件的裁决。对于那些最重要的具体案件而言，这种不稳定性太大了。

为什么当前的“修复”方法行不通

科学家们曾尝试使用标准的“不确定性”工具来解决这个问题，例如：

深度集成（Deep Ensembles）： 训练 5 个不同的模型并取它们的平均答案。
MC Dropout： 在测试过程中随机“关闭”模型的部分组件，以观察答案的波动程度。
随机权重平均（Stochastic Weight Averaging）： 平滑模型内部的数学运算。

论文的裁决： 这些工具就像试图通过调整镜头的焦距（模型的内部设置）来修复一台摇晃的相机，而相机却仍然被一只颤抖的手（数据）握着。

这些方法修复了“镜头”，却忽略了“颤抖的手”。
论文发现这些方法并没有减少波动。它们未能阻止模型在数据变化时翻转其决策。

解决方案：两种新方法

作者提出了两种真正有效的方法，因为它们针对的是“颤抖的手”（数据），而不仅仅是“镜头”。

1. K-Bootstrap Bagging（“委员会”方法）

工作原理： 与其训练一个模型，不如训练整个委员会的模型（例如 5 个）。委员会的每个成员都在略有不同的数据随机样本上进行训练。当你需要答案时，询问整个委员会并取平均投票结果。
结果： 这将翻转率降低了40–54%。
代价： 训练 5 个模型而不是 1 个模型，需要 5 倍的计算能力。

2. Twin-Bootstrap（“双胞胎姐妹”方法）

工作原理： 这是论文的主要发明。想象同时训练两个“双胞胎”神经网络。
- 双胞胎 A 从样本 X 中学习。
- 双胞胎 B 从样本 Y 中学习（一个略有不同的样本）。
- 秘密武器： 每次它们学习时，双胞胎都被迫互相交流。如果它们对某个分子的意见不一致，它们就会受到“惩罚”（一致性损失），迫使它们达成一致。
结果：
- 与标准的委员会方法相比，它将翻转率进一步降低了45%。
- 它仅以2 倍的计算能力（训练两个双胞胎而不是五个独立模型）就实现了这一目标。
- 它保持了与原始模型一样高的准确率。

为什么这很重要（“现实世界”的影响）

论文认为，在科学实验室中，决策是逐个分子做出的。

场景： 科学家使用模型挑选前 10 个分子在实验室中进行合成。
风险： 如果模型具有高“波动性”，科学家今天可能会选择分子 #1。但如果他们明天重新训练模型（这在科学中经常发生），模型可能会说：“实际上，分子 #1 不好，让我们试试分子 #10。”
成本： 这会浪费时间和金钱。实验室可能会合成错误的分子，或者浪费精力重新评估同一份清单。

论文建议，科学报告在报告准确率的同时，应始终包含一个“波动分数”。仅仅知道模型“准确率为 90%"是不够的；你需要知道这种准确率是否稳定，或者模型是否每次刷新页面时都在胡乱猜测。

总结

问题： 科学 AI 模型在针对略有不同的数据进行重新训练时，往往会翻转其具体预测，即使其总体得分看起来不错。
旧方法： 测量不确定性的标准技巧（如集成方法）无法解决这个特定问题。
新方法：
1. Bagging： 训练一个庞大的模型委员会（效果好，但昂贵）。
2. Twin-Bootstrap： 同时训练两个模型并迫使它们达成一致（效果更好且更便宜）。
目标： 使科学 AI 足够可靠，让科学家能够信任它推荐的特定分子，并确信该推荐不会仅仅因为再次运行训练代码而改变。

技术摘要：减少科学机器学习中的跨样本预测波动

问题定义：跨样本预测波动

科学机器学习（ML）基准测试通常报告聚合预测性能（如准确率、AUC），但未能报告当模型在来自同一训练人群的不同抽样上重新训练时，单个预测的稳定性。作者将跨样本预测波动定义为：在两个基于同一训练集独立自助抽样（bootstrap）训练的模型之间，测试预测中发生类别标签变化的比例。

尽管聚合准确率通常保持稳定（在重新训练间仅波动 1.3–4.2 个百分点），但作者证明单个预测极不稳定。在九个化学基准测试中，8.0% 至 21.8% 的测试分子在重新训练间翻转了其预测类别。这种“逐预测稳定性差距”对于闭环实验室、贝叶斯优化和虚拟筛选中的工作流程至关重要，因为这些领域的模型输出直接决定实验决策（例如，合成哪个分子）。高波动性意味着被选中用于合成或筛选的特定分子对训练数据的随机抽样非常敏感，从而导致工作流程不可复现。

方法论与 proposed 解决方案

本文评估了标准的参数侧不确定性技术与数据侧方法，以确定哪种方法能够减少这种波动。

1. 参数侧技术的失效

作者测试了三种在固定数据上对模型权重进行采样的标准方法：

深度集成（Deep Ensembles）： 对 $K$ 个具有不同初始化的模型的预测进行平均。
蒙特卡洛（MC）Dropout： 对单个模型的随机前向传递进行平均。
随机权重平均（SWA）： 对单次训练轨迹中的权重进行平均。

结果： 这些方法未能一致地减少跨样本波动。在九个基准测试中，相对于经验风险最小化（ERM），它们将类别翻转率改变了 $-22.3\%$ 至 $+12.5\%$ ，没有显示出一致的改善迹象。作者认为，这是因为这些方法在保持数据轴不变的情况下解决了参数方差问题，而科学机器学习中在小数据集情况下方差的主要来源是数据抽样本身。

2. 数据侧解决方案 A：K-Bootstrap Bagging

经典的Bagging方法（Breiman, 1996）在训练集的 $K$ 个独立自助抽样上训练 $K$ 个模型，并平均它们的预测。

性能： 与 ERM 相比，在所有数据集上将波动减少了 40–54%。
成本： 需要 $K$ 倍于单次 ERM 训练运行的计算量（例如， $K=5$ 时为 $5\times$ ）。
准确率： 在保持聚合准确率无损失的情况下实现了这一减少。

3. 数据侧解决方案 B：Twin-Bootstrap

作者提出了Twin-Bootstrap，一种在训练集的两个独立自助抽样（ $S_A, S_B$ ）上联合训练两个网络（ $\theta_A, \theta_B$ ）的方法。

机制： 网络被训练以最小化组合损失，该损失包括各自自助抽样上的标准交叉熵，以及它们在迷你批次并集上的预测之间的对称 KL 散度一致性损失（ $L_{cons}$ ）。
数据重叠： 由于有放回的自助抽样，这两个自助抽样在期望上共享约 40% 的训练索引。一致性损失作用于这一重叠部分，而交叉熵损失则专注于非共享的剩余部分。
超参数（ $\lambda$ ）： 一致性损失的权重在开发集（BACE）上根据以下规则选择：在保持准确率与 ERM 基线相差 0.02 以内的前提下最大化 $\lambda$ 。对于默认 MLP 架构，选定的值为 $\lambda=300$ 。
性能： 在匹配的 2 $\times$ ERM 计算量（训练两个网络）下，Twin-Bootstrap 在 $K=2$ 的 Bagging 基础上进一步将波动降低了 中位数 45%。它在平均排名上达到了 $K=5$ 的 Bagging（需要 $5\times$ 计算量）的性能。

关键结果

波动的幅度

波动率： 在 9 个化学基准测试（MoleculeNet, TDC ADME/Tox, 材料科学）中，跨样本波动翻转了 8.0–21.8% 的测试预测。
聚合稳定性： 重新训练间聚合准确率仅移动 1.3–4.2 个百分点，掩盖了显著的逐预测不稳定性。
少数类不稳定性： 在不平衡数据集上，少数类预测比多数类预测不稳定 2–4 $\times$ ，影响了最关键的“活性”或“毒性”预测。

比较性能

参数侧 vs. 数据侧： 深度集成、MC Dropout 和 SWA 未能一致地减少波动。Bagging 和 Twin-Bootstrap 是唯一能可靠减少波动的方法。
效率： Twin-Bootstrap 实现了与 $5\times$ 计算量的 Bagging（ $K=5$ ）相当的波动减少，而仅需 2 $\times$ ERM 计算量。
分布一致性： Twin-Bootstrap 将对称 KL 散度（分布不一致性）在 Bagging- $K=5$ 的基础上进一步降低了约 $\sim9\times$ ，表明其对完整概率分布的稳定性优于仅针对 argmax 的稳定性。

下游影响

贝叶斯优化（BO）： 在 BO 模拟中，Twin-Bootstrap 显著增加了重新训练间前 10 个选定分子的 Jaccard 重叠（例如，在 AMES 数据集上从 0.03 增加到 0.68）。在回归任务中，它将最终最佳获取值的跨轨迹标准差降低了 34–100%。
分诊工作流程： 通过估计的波动（使用一次额外的重新训练）对测试样本进行排序，允许从业者识别最脆弱的预测。审查按波动排名的前 30% 预测，可捕获 58–100% 的所有类别翻转，优于预测熵。

泛化性

该方法在架构和任务上具有泛化性：

架构： 适用于 MLP、图同构网络（GIN）和预训练骨干网络（ChemBERTa, ResNet-50）。
超参数调整： 虽然最佳 $\lambda$ 值随架构变化（例如，MLP 为 $\lambda=300$ ，GIN/ChemBERTa 为 $\lambda=10$ ），但选择规则（在开发集上保持小幅度准确率下降的前提下最大化 $\lambda$ ）保持不变地转移。
任务： 方法的排名（Twin-Bootstrap $\approx$ Bagging- $K=5$ > ERM）对分类和回归任务均成立。

意义与主张

本文认为，跨样本预测波动是科学机器学习基准测试中缺失的指标。如果不报告该指标，参数侧不确定性方法（集成、Dropout）和数据侧方法（Bagging、Twin-Bootstrap）在标准准确率指标上看起来无法区分，尽管它们在稳定操作决策的能力上存在根本差异。

作者主张：

波动是操作稳定性指标： 在闭环实验室和虚拟筛选中，特定被选分子的复现性比聚合准确率更为关键。
数据重采样是关键杠杆： 稳定性更多地取决于训练过程如何重采样数据，而非模型类别本身。
Twin-Bootstrap 提供实用方案： 它提供了一种计算高效（2 $\times$ ERM）的方法，在训练时设计跨样本稳定性，无需更改部署流程，只需在开发集上调整单个超参数。

本文结论指出，减少波动具有直接的操作后果，可减少浪费的实验工作并使计算分诊决策可复现，但也指出低波动并不保证正确性（一个稳定错误的模型仍然是错误的）。

Reducing cross-sample prediction churn in scientific machine learning