Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**“如何在有限的预算下，用 AI 挑选最好的科学发现”**的故事。

想象一下，你是一位寻宝队长（科学家），手里有一张藏宝图（海量的化学分子库），但你的探险经费非常有限（只能测试几百个样本）。你的目标是找到真正的“宝藏”（有效的药物分子），同时避免浪费钱在“假宝藏”（无效分子）上，或者因为太犹豫而错过了真正的宝藏。

过去，大家评价寻宝队长的能力，通常只看他“猜得准不准”（比如准确率）。但这篇论文指出，在现实世界中，“猜得准”并不等于“赚得多”。

1. 核心问题：旧尺子量不出新高度

以前的评价标准（如 AUROC、F1 分数）就像是用一把**“万能尺”**去量所有东西。

问题在于：这把尺子假设你有无限的预算，可以测试所有东西。但在现实中，你只能测试前 100 个。
比喻：这就好比评价一个猎人，不看他在前 10 次射击中打中了多少猎物，而是看他如果打 1000 枪的总命中率。如果猎人为了追求总命中率，在前 10 次射击里乱打一气，虽然总命中率可能还行，但你作为老板（预算有限）会亏死。

此外，现在的大语言模型（LLM）（比如 ChatGPT 这类 AI）非常擅长“写文章”和“编故事”，它们能生成看起来很科学的药物分子建议。但问题是：它们是真的懂化学，还是只是在“一本正经地胡说八道”？ 现有的工具很难区分这两者。

2. 新方案：BSDS（带预算敏感度的“寻宝评分”）

作者发明了一套全新的评分系统，叫 BSDS（Budget-Sensitive Discovery Score）。

它是怎么工作的？
它不再只看“命中率”，而是像一位精明的财务总监，同时计算三笔账：
1. 挖到了多少真宝藏？（召回率，Recall）
2. 浪费了多少冤枉钱？（假阳性，False Discovery）：每浪费一次实验机会，都要扣分。
3. 有没有因为太犹豫而没行动？（放弃率，Abstention）：如果 AI 遇到拿不准的分子就“弃权”不选，这也是有成本的，因为你可能错过了宝藏。
形式化验证（Lean 4）：
作者不仅提出了这个公式，还用了数学证明软件（Lean 4）像给软件代码做“安全审计”一样，严格证明了这套评分逻辑在数学上是绝对正确、不会出 bug 的。这就像给评分系统装了一个“防作弊锁”，确保没有任何 AI 能通过钻空子来刷高分。

3. 大实验：39 位“寻宝选手”大比拼

为了测试这套新系统，作者搞了一场盛大的比赛，邀请了 39 位选手（AI 策略）在“药物发现”的赛道上竞技：

选手 A：传统的机器学习模型（随机森林，RF）。
选手 B：各种大语言模型（LLM），有的直接猜，有的参考了传统模型的建议，有的还看了几个例子（少样本学习）。
选手 C：各种混合了“人类专家经验”的改良版 AI。

比赛场地：MoleculeNet HIV 数据集（4 万多个分子，只有 3.5% 是有效的）。

4. 令人惊讶的结局：大模型“翻车”了

比赛结果非常反直觉，就像在赛车比赛中，F1 赛车（大模型）跑不过老式拖拉机（传统模型）：

冠军：一个非常简单、传统的随机森林模型（Greedy-ML）。它就像一位经验丰富的老矿工，虽然不懂什么高科技，但它基于大量数据训练出的直觉，在有限的预算下，挖到的真宝藏最多，浪费最少。
大模型的惨败：
- 直接猜（Zero-shot）：大语言模型直接看分子式猜，表现比随机乱猜还差。它们就像刚毕业的大学生，看着化学式就开始“编故事”，生成的建议大部分是假的。
- 参考建议（Rerank）：即使让大模型去“修改”传统模型的建议，它们也没能做得更好，反而把原本不错的排序搞乱了。
- 看了例子（Few-shot）：即使给了大模型 3 个正确答案作为参考，它们依然无法超越那个简单的老模型。
结论：在目前的药物筛选场景下，大语言模型并没有带来额外的价值。它们生成的“科学提案”虽然读起来很通顺，但在实际的“寻宝”任务中，不仅没帮助，反而可能起反作用。

5. 为什么这个发现很重要？

打破迷信：大家现在很迷信大模型，觉得它能解决所有科学问题。这篇论文用严谨的数据证明：在需要精确决策的领域，简单的、经过充分训练的传统模型往往比“会聊天”的大模型更靠谱。
新的评价标准：作者提出的 BSDS 评分系统，未来可以用于任何需要“在有限资源下做选择”的场景，比如：
- 自动驾驶：在有限算力下，优先检测哪些危险场景？
- 临床试验：在有限预算下，优先筛选哪些病人？
- 材料科学：在有限实验次数下，优先测试哪些新材料？

总结

这就好比在**“有限预算的寻宝游戏”中，作者发明了一把“防作弊、算细账”的新尺子**。用这把尺子一量，发现那些会写诗、会聊天的 AI（大模型），在干“找药”这种苦活累活时，还不如一个老实巴交、只会算数的老会计（传统机器学习模型）。

这篇论文提醒我们：在科学探索中，“看起来聪明”不等于“真的有用”，我们需要更严谨、更贴合实际成本的工具来评估 AI 的表现。

Each language version is independently generated for its own context, not a direct translation.

论文技术总结：基于形式化验证的预算敏感型发现评分框架 (BSDS)

1. 研究背景与问题定义

核心问题：科学发现（如药物筛选、自动驾驶安全测试）日益依赖 AI 系统从海量候选者中选择少量样本进行昂贵的实验验证。然而，现有的评估框架存在显著缺陷：

缺乏预算感知：传统指标（如 AUROC, F1, 富集因子 EF）通常积分所有操作点，无法反映在特定实验预算（Budget）下的实际表现。
忽略非对称成本：未区分假阳性（浪费实验资源）和假阴性（错失发现机会）的不同代价。
缺乏形式化保证：现有指标缺乏数学上的严格验证，难以应对大语言模型（LLM）生成的“看似合理但错误”的科学提案。
LLM 评估缺口：LLM 能生成科学提案，但缺乏 principled（原则性）的指标来评估其是否真正增加了下游实验的边际价值。

研究目标：提出一个形式化验证的评估框架，能够同时惩罚假发现（False Discoveries）和过度放弃（Excessive Abstention），并应用于评估 LLM 在药物发现候选者选择中的实际价值。

2. 方法论：BSDS 与 DQS 框架

2.1 核心指标定义

作者提出了 预算敏感型发现评分 (Budget-Sensitive Discovery Score, BSDS) 及其预算平均形式 发现质量评分 (Discovery Quality Score, DQS)。

BSDS (单预算点)：
$\text{BSDS}(B) = \text{HR@B} - \lambda \cdot \text{FDR@B} - \gamma \cdot (1 - \text{Cov@B})$
其中：
- $\text{HR@B}$ (Hit Rate)：在预算 $B$ 内选中的真实阳性比例（召回率）。
- $\text{FDR@B}$ (False Discovery Rate)：选中样本中的假阳性比例。
- $\text{Cov@B}$ (Coverage)：做出明确决策（选中或明确拒绝，而非放弃）的样本比例。
- $\lambda$ ：假阳性惩罚系数（相对于真阳性的价值）。
- $\gamma$ ：放弃（Abstention）惩罚系数（相对于未筛选样本的机会成本）。
DQS (综合评分)：
$\text{DQS} = \frac{1}{|B|} \sum_{B \in \mathcal{B}} \text{BSDS}(B)$
DQS 是对整个预算谱系（从低预算到高预算）的 BSDS 进行平均，防止提案者通过“挑选”特定预算点来操纵分数。

2.2 形式化验证

该框架的核心优势在于其形式化验证属性：

所有 20 个核心定理（包括有界性、单调性、Oracle 优势、贝叶斯最优放弃等）均使用 Lean 4 证明助手进行了机器检查。
这确保了评估指标本身的数学正确性，即使被评估的 AI 模型（如 LLM）不可靠，评估标准本身也是无懈可击的。

2.3 实验设置

数据集：MoleculeNet HIV（41,127 个化合物，3.5% 活性），Tox21, ClinTox, MUV-466, SIDER-Ear 以及自动驾驶安全数据集 (AV Safety)。
提案者 (Proposers)：共评估 39 种 策略，分为五类：
1. 基线：随机选择、基于随机森林 (RF) 的贪婪选择 (Greedy-ML)。
2. 机制消融：模拟 LLM 推理原语（如先验知识、检索增强 RAG、生成式采样、集成学习）。
3. 直接优化：使用 MLP 直接优化 BSDS 目标 (BSDS-Recursive)。
4. 零样本 LLM：7 种主流 LLM（ChatGPT, Claude, Gemini 等）直接对 SMILES 字符串评分。
5. 少样本 LLM：提供 3 个阳性/3 个阴性示例的 Few-shot 模式。
验证方法：1000 次 Bootstrap 重采样，涵盖随机划分和骨架划分 (Scaffold Split)。

3. 主要研究结果

3.1 基线模型优于复杂模型

RF 基线胜出：简单的基于随机森林 (RF) 的 Greedy-ML 策略取得了最佳的 DQS (-0.046)，优于所有 MLP 变体和所有 LLM 配置。
MLP 重排序无效：在 RF 预测结果之上增加 MLP 重排序层（无论是使用标准交叉熵损失还是 BSDS 损失）反而降低了性能。这表明 MLP 的 10 维特征空间未能提供比 RF 原生排序更强的判别信号。

3.2 LLM 未提供边际价值

零样本表现：所有 7 种 LLM 在零样本模式下表现接近随机（DQS 约 -0.6 至 -0.8），甚至不如随机选择。
重排序表现：即使让 LLM 基于 RF 的预测结果进行重排序 (Rerank)，最佳 LLM (Qwen3-235B) 的 DQS 为 -0.141，仍显著低于 Greedy-ML (-0.046)。
少样本表现：引入 3 个少样本示例 (k=3) 能带来一定提升，但不足以弥补与训练好的分类器之间的差距。
结论：在现有的 ML 管道基础上，LLM（无论是零样本还是少样本）没有提供额外的边际价值。

3.3 机制消融洞察

检索 (Retrieval)：基于结构相似性的检索策略表现第二好，表明“骨架跳跃” (Scaffold Hopping) 是有效的推理原语。
生成式探索：基于温度采样的生成式策略表现最差，证明在固定候选池中，随机扰动 ML 排序会破坏信号。
MLP 变体：所有 MLP 变体（包括递归优化）均表现不佳，且 BSDS-Recursive 甚至不如单轮优化，表明迭代优化导致了过拟合。

3.4 跨数据集与跨领域泛化

数据集泛化：提案者的层级关系在 5 个 MoleculeNet 基准（活性从 0.18% 到 46.2% 不等）上保持稳健。
领域泛化：在自动驾驶安全 (AV Safety) 数据集上，BSDS 框架同样适用，尽管特征类型不同（表格数据 vs 分子指纹），但 Greedy-ML 类策略依然表现优异。
参数鲁棒性：在 9x7 的 $(\lambda, \gamma)$ 参数网格上，提案者的相对排名保持高度一致（Kendall $\tau \ge 0.636$ ）。

3.5 与传统指标的区别

7 种基于 RF 的提案者在传统指标（EF@1%, AUROC）上完全相同，但 BSDS/DQS 能清晰区分它们。
BSDS 揭示了传统指标无法捕捉的“精度 - 召回 - 放弃”权衡 (Precision-Recall-Abstention Tradeoff)。

4. 关键贡献

形式化验证的评估框架：首次提出并机器验证了适用于预算约束和非对称成本场景的 BSDS/DQS 指标，解决了科学发现评估缺乏严格数学保证的问题。
全面的 LLM 评估：对 39 种策略（包括 28 种 LLM 配置）进行了大规模基准测试，提供了关于 LLM 在药物发现中实际价值的实证证据。
揭示 LLM 的局限性：明确证明在当前设置下，LLM 无法超越经过训练的 ML 分类器，且简单的重排序策略无法弥补这一差距。
揭示传统指标的盲区：展示了 BSDS 如何区分具有相同 AUROC/EF 但不同预算表现和放弃策略的模型。
广泛的适用性：验证了该框架在药物发现、材料筛选及自动驾驶安全等多个领域的通用性。

5. 意义与启示

对 AI 科学发现的警示：在缺乏特定领域微调或工具增强（如 RAG、化学工具调用）的情况下，直接应用 LLM 进行科学候选者筛选可能不仅无效，甚至有害（引入噪声）。
评估范式的转变：科学 AI 的评估应从“整体排序能力”转向“特定预算下的决策质量”，必须考虑实验成本和放弃策略。
工程实践指导：在资源受限的筛选任务中，简单的、基于成熟 ML 模型的贪婪策略（Greedy-ML）往往优于复杂的 LLM 流水线。
未来方向：LLM 的潜力可能在于结合链式思维 (CoT)、检索增强生成 (RAG) 以及外部工具（如对接模拟、ADMET 预测器），而非单纯的 SMILES 文本生成或重排序。

总结：本文通过形式化验证的 BSDS 框架，严谨地证明了在当前的药物发现设置中，成熟的机器学习分类器（RF）优于各种 LLM 策略。该研究不仅为 LLM 在科学领域的应用划定了清晰的边界，也为未来构建更可靠的 AI 辅助科学发现系统提供了坚实的评估基准。

Budget-Sensitive Discovery Scoring: A Formally Verified Framework for Evaluating AI-Guided Scientific Selection