WTMAD-4: A Fair Weighting Scheme for GMTKN55

本文指出了现有 GMTKN55 基准集 WTMAD-2 加权方案中低估某些化学性质的重大缺陷,并提出了一种基于色散校正泛函典型误差的新 WTMAD-4 指标,以确保对所有基准的公平性能评估。

原作者: Kyle R. Bryenton, Erin R. Johnson

发布于 2026-05-22
📖 1 分钟阅读☕ 轻松阅读

原作者: Kyle R. Bryenton, Erin R. Johnson

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

想象你是一位厨师,正试图创造一份完美的“万能汤”食谱。为此,你需要用 55 种不同的食材对汤进行品尝测试:有些是微小的盐粒(小分子),有些是巨大的奶酪块(大分子),还有些是辛辣的辣椒(反应势垒)。

在计算化学领域,科学家使用一种名为密度泛函理论(DFT)的工具来预测这些食材将如何表现。但他们如何知道哪种计算机食谱最佳呢?他们使用一种名为GMTKN55的评分系统,这是一个包含上述 55 种不同“品尝测试”的巨大集合。

问题:损坏的秤

多年来,科学家使用一种名为WTMAD-2的评分方法来对这些计算机食谱进行评级。将 WTMAD-2 想象成一种根据食材“重量”来称重的秤。

该论文指出,这架秤是损坏的。因为某些食材(如"BH76"测试)天生就“更重”(具有更大的能量值),并且在列表中出现的频率更高,所以这架秤赋予了它们巨大的重要性。与此同时,其他重要的食材(如"IL16"或"DIPCS10")在这架秤上却如此“轻”,以至于几乎被忽视。

类比:
想象你正在给学生的成绩单打分。

  • 旧方法(WTMAD-2): 你决定单次数学考试占其总分的 50%,而其他 20 门学科(艺术、历史、科学)每门仅占 1%。如果该学生是数学天才但在其他方面表现糟糕,他们仍会获得总体"A"。但如果他们数学很差但在其他方面表现出色,他们就会不及格。该系统偏向于数学考试。
  • 现实情况: 在论文中,“数学考试”(BH76)主导了评分,而其他关键的化学测试则被以数量级的方式边缘化。

解决方案:一种新的、更公平的秤(WTMAD-4)

作者 Kyle Bryenton 和 Erin Johnson 提出了一种名为WTMAD-4的新评分系统。

WTMAD-4 不再根据食材的“重量”(能量大小)来称重,而是根据它们有多难被正确计算来称重。

  • 他们考察了一组由 10 个可靠的“专家”计算机食谱(泛函)组成的小群体,这些食谱已知是稳定的且未被过度调整。
  • 他们问道:“平均而言,这些专家在 55 项测试中的每一项上会产生多少误差?”
  • 如果某项测试对专家来说通常很简单(误差低),则赋予其标准权重。如果某项测试 notoriously 困难(误差高),则赋予其更高的权重,以确保其受到认真对待。

结果:
现在,55 种食材中的每一种对最终分数的贡献大致相同。没有单项测试能主导评分,也没有任何测试会被忽视。这就像让成绩单上的每一门学科在最终成绩中都拥有平等的发言权。

当他们重新评级这些食谱时发生了什么?

作者利用这种新的、公平的尺度,对 115 种不同的计算机食谱进行了重新评级。以下是他们的发现:

  1. 排名发生了变化: 一些在旧有的、有偏见的系统下看起来像"A+ 学生”的食谱,在名单上下降了。
  2. “过拟合”陷阱: 他们发现了一种名为XYG8的特定食谱。在旧系统下,它排名第三。在新的、公平的体系下,它跌至第 17 位。
    • 为什么? XYG8 食谱是“过拟合”的。它是专门为了在“数学考试”(BH76)中取得优异成绩而调整的,但在其他 20 门学科上表现不佳。因为旧系统如此重视那一次数学考试,XYG8 看起来很棒。而新系统发现它在其他学科上表现不佳,并据此对其进行了惩罚。
  3. 新的领导者: 其他食谱,如PW6B95-D3(BJ),在排名中上升,因为它们在所有不同的测试中表现一致良好,而不仅仅是在那些以前被过度加权的项目上。

主要启示

该论文向任何创建这些计算机食谱的人(尤其是那些使用人工智能的人)发出了警告:不要仅仅为了优化分数而调整。

如果你调整食谱以在旧的、损坏的尺度上获得最佳分数,你可能会无意中创造出一种仅适用于少数特定情况而在其他地方失败的食谱。作者将此称为古德哈特定律:“当一项指标成为目标时,它就不再是一项好的指标。”

通过使用WTMAD-4,科学家可以确保他们的新化学食谱真正稳健且公平,而不仅仅是那些懂得如何利用损坏评分系统的“作弊者”。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →