WTMAD-4: A Fair Weighting Scheme for GMTKN55

Oorspronkelijke auteurs: Kyle R. Bryenton, Erin R. Johnson

Gepubliceerd 2026-06-18

📖 4 min leestijd☕ Koffiepauze-leesvoer

Oorspronkelijke auteurs: Kyle R. Bryenton, Erin R. Johnson

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je voor dat je een rechter bent bij een enorme kookwedstrijd. Het doel is om de "beste chef" (een computerprogramma genaamd een Density Functional Theory, of DFT-methode) te vinden die kan voorspellen hoe chemische reacties verlopen.

Om dit te doen, heb je een gigantische scorekaart genaamd GMTKN55. Dit is niet slechts één gerecht; het is een verzameling van 55 verschillende uitdagingen, variërend van eenvoudige taken zoals het bakken van een klein koekje (kleine moleculen) tot complexe prestaties zoals het bouwen van een wolkenkrabber (grote moleculen) of het voorspellen van hoe twee magneten aan elkaar plakken (niet-covalente interacties).

Het Probleem: Een Gebroken Scorekaart

Jarenlang gebruikten de rechters een specifieke manier om de eindscore te berekenen, genaamd WTMAD-2. Denk aan dit als een beoordelingssysteem waarbij de score voor elke uitdaging wordt gewogen op basis van hoe "duur" of "groot" de uitdaging is.

Het artikel betoogt dat dit oude systeem fundamenteel onrechtvaardig was. Hier is de analogie:

Stel je voor dat de wedstrijd twee soorten uitdagingen heeft:

De "Grote" Uitdaging: Een enorm banket met 76 gerechten (genaamd BH76).
De "Kleine" Uitdaging: Een piepklein voorgerecht met slechts 16 hapjes (genaamd IL16).

Onder de oude WTMAD-2 regels was het banket (BH76) zoveel meer waard dan het voorgerecht (IL16), dat als een chef een fout maakte met het voorgerecht, dat nauwelijks invloed had op de eindscore. Maar als de chef een fout maakte met het banket, stortte de score volledig in.

In werkelijkheid bleek uit het artikel dat het banket bijna 200 keer meer waard was dan het voorgerecht. Dit betekende dat een chef verschrikkelijk kon zijn in het voorgerecht en toch de hele wedstrijd kon winnen, simpelweg omdat hij goed was in het banket. Het oude systeem gaf de grote uitdagingen te veel gewicht ("over-weighting") en de kleine uitdagingen te weinig gewicht ("under-weighting"), wat de resultaten misleidend maakte.

De Oplossing: WTMAD-4 (De Eerlijke Scorekaart)

De auteurs, Kyle Bryenton en Erin Johnson, stellen een nieuwe manier voor om de wedstrijd te scoren genaamd WTMAD-4.

In plaats van de uitdagingen te wegen op basis van hun grootte of energieverbruik, besloten ze de uitdagingen te wegen op basis van hoe moeilijk ze zijn voor een typische, betrouwbare chef om goed te krijgen.

De Oude Manier: "Deze uitdaging is enorm, dus telt hij voor 50% van je cijfer."
De Nieuwe Manier (WTMAD-4): "We hebben 10 expert-chefs gevraagd hoe moeilijk deze uitdaging normaal gesproken is. Omdat het normaal gesproken moeilijk is, telt het mee voor een eerlijk deel van het cijfer. Omdat die andere uitdaging normaal gesproken makkelijk is, telt die voor een kleiner deel, maar niet voor nul."

Door deze nieuwe WTMAD-4 methode te gebruiken, krijgt elke van de 55 uitdagingen een eerlijke stem. Geen enkele uitdaging kan de eindscore domineren, en geen enkele uitdaging wordt genegeerd.

Wat gebeurde er toen ze de scores opnieuw berekenden?

De auteurs namen 115 verschillende "chefs" (computermethoden) en draaiden de scores opnieuw met het nieuwe WTMAD-4 systeem. De resultaten waren verrassend:

De Ranglijsten Veranderden: Sommige chefs die voorheen bovenaan de lijst stonden, zakten naar beneden. Anderen die in het midden stonden, klommen omhoog.
De "Overfitting" Valstrik: Ze ontdekten een specifieke chef (genaamd XYG8) die onder de oude regels op nummer 3 stond. Waarom? Omdat deze chef ongelooflijk goed was in het "Grote Banket" (BH76), maar verschrikkelijk in de "Kleine Voorgerechten". Onder de oude regels verborg de grootheid van de chef bij het banket zijn tekortkomingen elders. Onder de nieuwe WTMAD-4 regels werden zijn fouten bij de kleine uitdagingen eindelijk meegeteld, en zijn rang zakte aanzienlijk.
De Les: Het artikel waarschuwt dat als je een chef ontwerpt om alleen te winnen op basis van de oude, oneerlijke regels, je aan het "overfitting" doet. De chef wordt een specialist in één type gerecht, maar faalt in alles wat eromheen komt. Het nieuwe WTMAD-4 systeem zorgt ervoor dat een "beste chef" daadwerkelijk goed is in alles, en niet alleen in de grote, luidruchtige uitdagingen.

De Kern van het Verhaal

Het artikel vindt geen nieuwe kookmethode of een nieuw ingrediënt uit. In plaats daarvan repareert het de scorekaart.

Het betoogt dat wetenschappers het al lange tijd over een liniaal hebben gehad die groter of kleiner werd naarmate wat ze maten veranderde. Deze nieuwe WTMAD-4 metriek is een rechte, eerlijke liniaal die elke chemische uitdaging eerlijk behandelt, waardoor gegarandeerd wordt dat de "beste" computermethoden werkelijk de meest betrouwbare zijn voor alle vormen van chemie, en niet alleen voor de grote, indrukwekkende uitdagingen.

Technische Samenvatting: WTMAD-4: Een eerlijk wegingsschema voor GMTKN55

Identificatie van het probleem
De GMTKN55-database is een standaard benchmarkcollectie in de moleculaire kwantumchemie, bestaande uit 55 deelverzamelingen die thermochemie, reactiebarrières en niet-covalente interacties (NCI) bestrijken over kleine en grote moleculen. Om de prestaties over deze chemisch diverse deelverzamelingen te aggregeren, maakt de gemeenschap gebruik van de Weighted Mean Absolute Deviation (WTMAD). Echter, dit artikel identificeert een kritiek gebrek in de veelgebruikte WTMAD-2 en WTMAD-3 metrieken. Deze schema's wegen individuele benchmarks op basis van de ratio van de gemiddelde referentie-energie ( $|\Delta E|_i$ ) tot de gemiddelde referentie-energie van de set, geschaald door het aantal datapunten ( $N_i$ ).

De auteurs tonen aan dat deze aanpak leidt tot een disproportionele weging. Benchmarks met een groot aantal reacties (bijv. BH76 met 76 reacties) of specifieke energieschalen domineren de totale foutmetriek, terwijl benchmarks met minder systemen of andere energieschalen (bijv. IL16, DIPCS10) een verwaarloosbare bijdrage leveren (orders van grootte minder). Bijgevolg kan het optimaliseren van een Density Functional Approximation (DFA) om WTMAD-2 te minimaliseren resulteren in een functioneel dat uitzonderlijk goed presteert op een paar grote deelverzamelingen, maar significant tekortschiet op gemarginaliseerde benchmarks. Dit probleem wordt verergerd door het feit dat updates van referentiedata hebben geleid tot inconsistenties in de gemiddelde energiewaarden die in de literatuur worden gebruikt, wat vergelijkingen verder bemoeilijkt.

Methodologie
Om deze discrepanties aan te pakken, stellen de auteurs een nieuwe metriek voor, WTMAD-4. De methodologie omvat de volgende stappen:

Herbeoordeling van gegevens: De auteurs hebben 115 eerder bestudeerde dispersie-gecorrigeerde DFAs (DC-DFAs) opnieuw geëvalueerd met behulp van bijgewerkte referentiedata uit de herziene GMTKN55-set.
Afleiding van wegingen: In tegen tegenstelling tot WTMAD-2, dat afhankelijk is van referentie-energieschalen, worden de WTMAD-4 wegingen afgeleid van de verwachte prestaties van een representatieve set van tien "minimaal empirische" en goed gedragende hybride functionalen (bijv. PBE0-D3(BJ), B3LYP-D3(BJ)).
Berekening van wegingen: De weging voor elke benchmark $i$ wordt gedefinieerd als:
$w_i^{WTMAD-4} = \frac{100}{N_{bench}} \left( \frac{3.5}{MAD_i} \right)$
waarbij $MAD_i$ de gemiddelde Mean Absolute Deviation is voor benchmark $i$ over de tien referentiefunctionalen. De factor van 3.5 schaalt de metriek zodat deze qua grootte vergelijkbaar is met WTMAD-2.
Rationalisatie: Door het omgekeerde van de gemiddelde fout van robuuste functionalen als weging te gebruiken, krijgen benchmarks waar typische functionalen moeite mee hebben (hoge $MAD_i$ ) een lagere weging, terwijl benchmarks waar ze goed presteren (lage $MAD_i$ ) een hogere weging krijgen. Dit zorgt ervoor dat geen enkele benchmark wordt gemarginaliseerd vanwege zijn grootte of energieschaal, maar in plaats daarvan bijdraagt op basis van de typische moeilijkheidsgraad van het vertegenwoordigde chemische probleem.

Belangrijkste resultaten

Verdeling van bijdragen: Analyse van de 115 DC-DFAs laat zien dat WTMAD-2 en WTMAD-3 zeer scheve verdelingen produceren waarbij sommige benchmarks tot wel ~10% van de totale fout veroorzaken, terwijl anderen minder dan 0,1% bijdragen. In contrast hiermee produceert WTMAD-4 een veel compactere, meer gecentraliseerde verdeling. De interkwartielafstand (IQR) van de bijdragen daalt van ~1,6–1,9% voor eerdere metrieken naar 0,97% voor WTMAD-4.
Herordening van functionalen: De overstap naar WTMAD-4 verandert de rangschikking van DFAs aanzienlijk:
- GGA en Meta-GGA: De rangschikkingen vertonen kleine verschuivingen, hoewel meta-GGAs over het algemeen minder gunstig presteren relatief aan GGAs onder WTMAD-4 vergeleken met WTMAD-2.
- Hybride functionalen: Er vindt een significante herordening plaats. Zo verbetert PW6B95-D3(BJ) van de 7e naar de 2e plaats, terwijl $\omega$ B97X-V, hoewel nog steeds topgerangschikt, een grotere kloof vertoont tussen zijn WTMAD-2 en WTMAD-4 scores. De auteurs schrijven dit toe aan de slechte prestaties van $\omega$ B97X-V op specifieke "Iso + Large" benchmarks (C60ISO, MB16-43) die ondergewogen zijn in WTMAD-2 maar eerlijk vertegenwoordigd zijn in WTMAD-4.
- Double Hybrids: De rangschikkingswijzigingen worden toegeschreven aan de verminderde weging van de BH76 barrière-set en de verhoogde weging van andere deelverzamelingen. Opvallend genoeg daalt XYG8, dat door WTMAD-2 op de 3e plaats stond, naar de 17e plaats door WTMAD-4. De auteurs merken op dat de parameters van XYG8 specifiek zijn aangepast om WTMAD-2 te minimaliseren, wat suggereert dat het overfit is op de BH76-deelverzameling ten koste van andere benchmarks. Daartegenover staan revDH23 en DH24, die onder beide metrieken top-performers blijven, wat duidt op grotere robuustheid.
Uitschieters: De enige significante uitschieters in WTMAD-4 bijdragen zijn voor de ADIM6 benchmark (n-alkaan dimeren), waar specifieke Minnesota-functionalen (MN15L, M06, MN15) systematische overbinding vertonen, wat leidt tot hoge bijdragen. Dit is consistent met bekende beperkingen van deze functionalen met betrekking tot dispersie.

Betekenis en claims
Het artikel beweert dat WTMAD-4 een "eerlijke behandeling over alle benchmarks" biedt door ervoor te zorgen dat elke van de 55 deelverzamelingen betekenisvol bijdraagt aan de totale foutmetriek. De auteurs stellen dat de eerdere afhankelijkheid van WTMAD-2 de mogelijkheid bood om chemisch belangrijke maar numeriek kleinere deelverzamelingen te marginaliseren.

De primaire betekenis van dit werk is de demonstratie dat het minimaliseren van WTMAD-2 kan leiden tot functionalen die overfit zijn op specifieke deelverzamelingen (zoals BH76) terwijl ze onderpresteren op andere. Door WTMAD-4 te gebruiken, kunnen ontwikkelaars functionalen identificeren die robuuster zijn over de gehele chemische ruimte van GMTKN55. De auteurs waarschuwen voor het "Goodhart's law" effect in de ontwikkeling van functionalen, waarbij het optimaliseren voor een enkele, ongebalanceerde metriek ophoudt een goede maat te zijn voor algemene prestaties. Zij pleiten voor het gebruik van WTMAD-4 om de waarschijnlijkheid van dergelijke overfitting te verminderen, met name in de context van AI-gestuurde DFA-ontwikkeling, terwijl zij benadrukken dat er nog steeds meerdere statistische maten moeten worden overwogen in plaats van te vertrouwen op één enkel doelgetal.

Het Probleem: Een Gebroken Scorekaart

De Oplossing: WTMAD-4 (De Eerlijke Scorekaart)

Wat gebeurde er toen ze de scores opnieuw berekenden?

De Kern van het Verhaal

Meer zoals dit