原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明
想象你是一位厨师,正使用一本高科技的、由人工智能驱动的食谱来烹饪一道复杂的菜肴。这个人工智能(称为机器学习原子间势,或 MLIP)速度极快且通常美味可口,能够预测原子在新分子中的行为。但有时,人工智能会猜错,导致你端出一盘烧焦的菜肴或含有有毒成分。
核心问题在于:在你真正开始烹饪之前,如何知道何时可以信任人工智能的预测?
旧方法:询问五位厨师
传统上,科学家们试图通过雇佣五位不同的厨师(一个“集成”)来独立烹饪同一道菜来解决这个问题。如果五位厨师意见一致,你就信任结果;如果他们争论不休,你就知道出了问题。
然而,这篇论文指出了这种方法存在的两个主要缺陷:
- 成本过高:运行五个庞大的 AI 模型需要五倍的计算能力和内存。随着这些模型变得更大(例如拥有数百万参数的“基础模型”),雇佣五个这样的模型变得不可能。
- 往往不准确:即使五位厨师意见不一致,他们也可能因为基于相似数据训练而以相同的方式犯错。他们的分歧并不总是意味着预测是糟糕的。
新方法:PROBE(“信任计”)
作者介绍了一种名为 PROBE(源自骨干嵌入的后验可靠性)的新方法。PROBE 不再雇佣五位厨师,而是充当一名智能质检员,查看单一位厨师的内部笔记。
以下是其工作原理,使用简单的类比说明:
1. 冻结的大脑
想象 AI 模型是一个巨大的、已经学会烹饪的冻结大脑。我们无法改变它的大脑或重新训练它(那太难了)。PROBE 是一个微小的、轻量级的“听诊器”,在 AI 工作时倾听其内部思维(即“嵌入”)。
2. 二元问题
PROBE 不询问 AI“你会错多少?”(这就像要求气象预报员预测降雨的精确毫米数,这是一个非常困难的数学问题),而是问一个更简单的问题:“这个预测可靠还是不可靠?”
它将问题转化为一个简单的是/否(或可靠/不可靠)决策。这对 AI 来说要容易得多,也更容易做对。
3. 聚光灯(注意力)
PROBE 使用一种称为“多头自注意力”的技术。想象 AI 正在观察一个分子(原子簇)。PROBE 将聚光灯照在特定的原子上。
- 如果 AI 很有信心,聚光灯就会变暗。
- 如果 AI 感到吃力,聚光灯就会变亮,并聚焦于特定的麻烦点。
- 神奇之处:PROBE 可以确切地告诉你哪些原子导致了问题。例如,它可能会突出显示像碘或溴这样的重卤素,并告诉你:“嘿,我不确定这些重原子;它们看起来和我以前见过的很不一样。”
论文发现
研究人员在两个截然不同且强大的 AI 模型(AIMNet2 和 MACE)上测试了这个“信任计”。
- 优于“五位厨师”:PROBE 在识别糟糕预测方面比传统的要求多个模型意见分歧的方法要好得多。当它非常自信时,它能正确识别出约 93% 的可靠预测。
- 适用于不同模型:它在两种完全不同的 AI 架构上表现同样出色,证明它是一个通用工具。
- 绘制“危险区域”地图:通过查看数据,PROBE 绘制了化学空间的地图。它表明,含有某些稀有元素(如碘)或形状奇怪的分子始终落入“不可靠”区域。这有助于科学家确切地知道他们的数据缺失在哪里。
- 更便宜、更快:PROBE 几乎不增加额外的计算成本。这就像给汽车发动机添加一个微型传感器,而不是购买第二辆车。
结论
论文认为,我们不需要确切知道 AI 会错多少。我们只需要知道何时可以信任它。
PROBE 是一个轻量级的附加组件,可连接到任何现有的 AI 模型。它充当过滤器:
- 绿灯:“这个预测是可靠的;请继续使用。”
- 红灯:“这个预测不稳定;请停止并用更昂贵、更精确的方法(例如运行真实的实验室实验或更慢、更准确的计算)进行双重检查。”
这使得科学家能够安全地使用这些超快的 AI 模型,确切知道何时暂停并验证,而无需运行昂贵且多份的 AI 副本。
您所在领域的论文太多了?
获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。