WTMAD-4: A Fair Weighting Scheme for GMTKN55

想象你是一位厨师，正试图创造一份完美的“万能汤”食谱。为此，你需要用 55 种不同的食材对汤进行品尝测试：有些是微小的盐粒（小分子），有些是巨大的奶酪块（大分子），还有些是辛辣的辣椒（反应势垒）。

在计算化学领域，科学家使用一种名为密度泛函理论（DFT）的工具来预测这些食材将如何表现。但他们如何知道哪种计算机食谱最佳呢？他们使用一种名为GMTKN55的评分系统，这是一个包含上述 55 种不同“品尝测试”的巨大集合。

问题：损坏的秤

多年来，科学家使用一种名为WTMAD-2的评分方法来对这些计算机食谱进行评级。将 WTMAD-2 想象成一种根据食材“重量”来称重的秤。

该论文指出，这架秤是损坏的。因为某些食材（如"BH76"测试）天生就“更重”（具有更大的能量值），并且在列表中出现的频率更高，所以这架秤赋予了它们巨大的重要性。与此同时，其他重要的食材（如"IL16"或"DIPCS10"）在这架秤上却如此“轻”，以至于几乎被忽视。

类比：
想象你正在给学生的成绩单打分。

旧方法（WTMAD-2）： 你决定单次数学考试占其总分的 50%，而其他 20 门学科（艺术、历史、科学）每门仅占 1%。如果该学生是数学天才但在其他方面表现糟糕，他们仍会获得总体"A"。但如果他们数学很差但在其他方面表现出色，他们就会不及格。该系统偏向于数学考试。
现实情况： 在论文中，“数学考试”（BH76）主导了评分，而其他关键的化学测试则被以数量级的方式边缘化。

解决方案：一种新的、更公平的秤（WTMAD-4）

作者 Kyle Bryenton 和 Erin Johnson 提出了一种名为WTMAD-4的新评分系统。

WTMAD-4 不再根据食材的“重量”（能量大小）来称重，而是根据它们有多难被正确计算来称重。

他们考察了一组由 10 个可靠的“专家”计算机食谱（泛函）组成的小群体，这些食谱已知是稳定的且未被过度调整。
他们问道：“平均而言，这些专家在 55 项测试中的每一项上会产生多少误差？”
如果某项测试对专家来说通常很简单（误差低），则赋予其标准权重。如果某项测试 notoriously 困难（误差高），则赋予其更高的权重，以确保其受到认真对待。

结果：
现在，55 种食材中的每一种对最终分数的贡献大致相同。没有单项测试能主导评分，也没有任何测试会被忽视。这就像让成绩单上的每一门学科在最终成绩中都拥有平等的发言权。

当他们重新评级这些食谱时发生了什么？

作者利用这种新的、公平的尺度，对 115 种不同的计算机食谱进行了重新评级。以下是他们的发现：

排名发生了变化： 一些在旧有的、有偏见的系统下看起来像"A+ 学生”的食谱，在名单上下降了。
“过拟合”陷阱： 他们发现了一种名为XYG8的特定食谱。在旧系统下，它排名第三。在新的、公平的体系下，它跌至第 17 位。
- 为什么？ XYG8 食谱是“过拟合”的。它是专门为了在“数学考试”（BH76）中取得优异成绩而调整的，但在其他 20 门学科上表现不佳。因为旧系统如此重视那一次数学考试，XYG8 看起来很棒。而新系统发现它在其他学科上表现不佳，并据此对其进行了惩罚。
新的领导者： 其他食谱，如PW6B95-D3(BJ)，在排名中上升，因为它们在所有不同的测试中表现一致良好，而不仅仅是在那些以前被过度加权的项目上。

主要启示

该论文向任何创建这些计算机食谱的人（尤其是那些使用人工智能的人）发出了警告：不要仅仅为了优化分数而调整。

如果你调整食谱以在旧的、损坏的尺度上获得最佳分数，你可能会无意中创造出一种仅适用于少数特定情况而在其他地方失败的食谱。作者将此称为古德哈特定律：“当一项指标成为目标时，它就不再是一项好的指标。”

通过使用WTMAD-4，科学家可以确保他们的新化学食谱真正稳健且公平，而不仅仅是那些懂得如何利用损坏评分系统的“作弊者”。

技术摘要：WTMAD-4：一种针对 GMTKN55 的公平加权方案

问题陈述
GMTKN55 数据集是分子量子化学中的标准基准，包含涵盖热化学、反应势垒和非共价相互作用的 55 个子集。为了量化密度泛函近似（DFAs）在这一多样化集合上的性能，需要一种加权平均绝对偏差（WTMAD）。然而，作者指出当前占主导地位的指标 WTMAD-2 和 WTMAD-3 的定义存在关键缺陷。这些方案根据数据点数量（ $N_i$ ）以及平均参考能量与平均绝对偏差的比率来对各个基准进行加权。因此，反应数量庞大（如 BH76）或具有特定能量尺度的基准被不成比例地赋予高权重，而其他基准（如 IL16、DIPCS10）的贡献则微乎其微（相差数个数量级）。这种不平衡导致对 DFAs 的评估产生偏差，可能偏向于在大型子集上表现优异的方法，同时边缘化那些在较小但化学性质迥异的基准上的表现。此前试图修正这一问题的尝试（如 WTMAD-3）虽然减弱了权重，但未能完全消除这种差异。

方法论
作者分析了所有 55 个 GMTKN55 子集对 115 种先前研究过的色散校正密度泛函（DC-DFAs）总体 WTMAD 值的贡献。他们利用更新的参考数据重新计算了 WTMAD-1、WTMAD-2 和 WTMAD-3，以量化加权不平衡的程度。

为了解决这些问题，作者提出了一种新指标 WTMAD-4。与基于能量尺度和数据集大小进行加权的 WTMAD-2 不同，WTMAD-4 采用了 WTMAD-1 的结构形式，但其权重（ $w_i$ ）源于预期误差的大小，而非绝对能量尺度。具体而言，权重计算如下：
$w_i = \frac{100}{N_{bench}} \left( \frac{3.5}{\text{MAD}_i} \right)$
其中， $\text{MAD}_i$ 是基准 $i$ 在一组特定的十个代表性、最小经验化且数值稳定的色散校正杂化泛函（例如 PBE0-D3(BJ)、B3LYP-D3(BJ)）上的平均绝对偏差。这种方法确保了参考泛函集表现良好（ $\text{MAD}_i$ 较低）的基准获得较高权重，而表现较差的基准获得较低权重，从而将每个子集的贡献归一化至总分的大约 1/55（1.82%）。

主要结果

权重分布：对 115 种 DFAs 的分析显示，WTMAD-2 和 WTMAD-3 产生了高度偏斜的分布，其中某些基准贡献约 10%，而其他基准贡献小于 0.1%。相比之下，WTMAD-4 产生了一种快速衰减的偏斜分布，其四分位距（IQR）更窄，且最高权重基准与最低权重基准之间的尺度差异显著减小（WTMAD-4 的中位尺度差异为 11.0 倍，而 WTMAD-2 为 315.6 倍）。
泛函重新排序：应用 WTMAD-4 导致 DFA 性能排名相对于 WTMAD-2 发生了显著重排。
- 杂化泛函：在 WTMAD-4 下，PW6B95-D3(BJ) 的排名从第 7 位提升至第 2 位，而 $\omega$ B97X-V 虽然仍居榜首，但其 WTMAD-2 与 WTMAD-4 得分之间的差距更大。这种重排归因于 WTMAD-4 对"Iso + Large"类别（如 C60ISO、MB16-43）更公平的处理， $\omega$ B97X-V 在这些类别中表现不佳，而 PW6B95-D3(BJ) 则表现优异。
- 双杂化泛函：排名发生了显著变化，WTMAD-4 倾向于 $\omega$ DOD 泛函（省略同自旋相关），而 WTMAD-2 则更青睐自旋分量缩放的 $\omega$ DSD 变体。
- 过拟合案例研究：XYG8 泛函是为最小化 WTMAD-2 而参数化的，但在 WTMAD-4 下其排名从第 3 位跌至第 17 位。这归因于 XYG8 在 DIPCS10、ALKBDE10、C60ISO、MB16-43 和 WATER27 等基准上表现不佳，而这些基准在 WTMAD-2 中被低估权重，在 WTMAD-4 中则得到了合理加权。

意义与主张
该论文声称，WTMAD-4 在所有 GMTKN55 基准上提供了“公平对待”，避免了 WTMAD-2 和 WTMAD-3 中出现的特定化学领域被边缘化的问题。作者认为，目前对 WTMAD-2 的依赖可能导致开发出的泛函过度拟合特定且权重过高的子集（如 BH76），从而以牺牲更广泛的化学精度为代价。

该研究强调了计算化学中“古德哈特定律”（Goodhart's law）的风险：当某个特定指标（如 WTMAD-2）成为参数化的目标时，它就不再是衡量整体性能的良好标准。通过证明针对 WTMAD-2 优化的泛函（如 XYG8）在使用更平衡的指标评估时可能表现显著不佳，作者建议泛函开发者应避免过度拟合单一数值目标。他们主张使用多种统计指标并采用 WTMAD-4，以确保新的 DFAs 在 GMTKN55 所代表的整个化学空间范围内具有稳健性。

问题：损坏的秤

解决方案：一种新的、更公平的秤（WTMAD-4）

当他们重新评级这些食谱时发生了什么？

主要启示

类似论文