WTMAD-4: A Fair Weighting Scheme for GMTKN55

Dit artikel identificeert een significante tekortkoming in het bestaande WTMAD-2-wegingsschema voor de GMTKN55-benchmarkset die bepaalde componenten ondergewateert, en stelt een nieuwe WTMAD-4-metriek voor gebaseerd op typische fouten van dispersie-gecorrigeerde functionalen om een eerlijke evaluatie over alle benchmarks te waarborgen, wat vervolgens prestatieproblemen onthult in functionalen die voorheen geoptimaliseerd waren met de gebrekkige metriek.

Oorspronkelijke auteurs: Kyle R. Bryenton, Erin R. Johnson

Gepubliceerd 2026-06-18
📖 4 min leestijd☕ Koffiepauze-leesvoer

Oorspronkelijke auteurs: Kyle R. Bryenton, Erin R. Johnson

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je voor dat je een rechter bent bij een enorme kookwedstrijd. Het doel is om de "beste chef" (een computerprogramma genaamd een Density Functional Theory, of DFT-methode) te vinden die kan voorspellen hoe chemische reacties verlopen.

Om dit te doen, heb je een gigantische scorekaart genaamd GMTKN55. Dit is niet slechts één gerecht; het is een verzameling van 55 verschillende uitdagingen, variërend van eenvoudige taken zoals het bakken van een klein koekje (kleine moleculen) tot complexe prestaties zoals het bouwen van een wolkenkrabber (grote moleculen) of het voorspellen van hoe twee magneten aan elkaar plakken (niet-covalente interacties).

Het Probleem: Een Gebroken Scorekaart

Jarenlang gebruikten de rechters een specifieke manier om de eindscore te berekenen, genaamd WTMAD-2. Denk aan dit als een beoordelingssysteem waarbij de score voor elke uitdaging wordt gewogen op basis van hoe "duur" of "groot" de uitdaging is.

Het artikel betoogt dat dit oude systeem fundamenteel onrechtvaardig was. Hier is de analogie:

Stel je voor dat de wedstrijd twee soorten uitdagingen heeft:

  1. De "Grote" Uitdaging: Een enorm banket met 76 gerechten (genaamd BH76).
  2. De "Kleine" Uitdaging: Een piepklein voorgerecht met slechts 16 hapjes (genaamd IL16).

Onder de oude WTMAD-2 regels was het banket (BH76) zoveel meer waard dan het voorgerecht (IL16), dat als een chef een fout maakte met het voorgerecht, dat nauwelijks invloed had op de eindscore. Maar als de chef een fout maakte met het banket, stortte de score volledig in.

In werkelijkheid bleek uit het artikel dat het banket bijna 200 keer meer waard was dan het voorgerecht. Dit betekende dat een chef verschrikkelijk kon zijn in het voorgerecht en toch de hele wedstrijd kon winnen, simpelweg omdat hij goed was in het banket. Het oude systeem gaf de grote uitdagingen te veel gewicht ("over-weighting") en de kleine uitdagingen te weinig gewicht ("under-weighting"), wat de resultaten misleidend maakte.

De Oplossing: WTMAD-4 (De Eerlijke Scorekaart)

De auteurs, Kyle Bryenton en Erin Johnson, stellen een nieuwe manier voor om de wedstrijd te scoren genaamd WTMAD-4.

In plaats van de uitdagingen te wegen op basis van hun grootte of energieverbruik, besloten ze de uitdagingen te wegen op basis van hoe moeilijk ze zijn voor een typische, betrouwbare chef om goed te krijgen.

  • De Oude Manier: "Deze uitdaging is enorm, dus telt hij voor 50% van je cijfer."
  • De Nieuwe Manier (WTMAD-4): "We hebben 10 expert-chefs gevraagd hoe moeilijk deze uitdaging normaal gesproken is. Omdat het normaal gesproken moeilijk is, telt het mee voor een eerlijk deel van het cijfer. Omdat die andere uitdaging normaal gesproken makkelijk is, telt die voor een kleiner deel, maar niet voor nul."

Door deze nieuwe WTMAD-4 methode te gebruiken, krijgt elke van de 55 uitdagingen een eerlijke stem. Geen enkele uitdaging kan de eindscore domineren, en geen enkele uitdaging wordt genegeerd.

Wat gebeurde er toen ze de scores opnieuw berekenden?

De auteurs namen 115 verschillende "chefs" (computermethoden) en draaiden de scores opnieuw met het nieuwe WTMAD-4 systeem. De resultaten waren verrassend:

  1. De Ranglijsten Veranderden: Sommige chefs die voorheen bovenaan de lijst stonden, zakten naar beneden. Anderen die in het midden stonden, klommen omhoog.
  2. De "Overfitting" Valstrik: Ze ontdekten een specifieke chef (genaamd XYG8) die onder de oude regels op nummer 3 stond. Waarom? Omdat deze chef ongelooflijk goed was in het "Grote Banket" (BH76), maar verschrikkelijk in de "Kleine Voorgerechten". Onder de oude regels verborg de grootheid van de chef bij het banket zijn tekortkomingen elders. Onder de nieuwe WTMAD-4 regels werden zijn fouten bij de kleine uitdagingen eindelijk meegeteld, en zijn rang zakte aanzienlijk.
  3. De Les: Het artikel waarschuwt dat als je een chef ontwerpt om alleen te winnen op basis van de oude, oneerlijke regels, je aan het "overfitting" doet. De chef wordt een specialist in één type gerecht, maar faalt in alles wat eromheen komt. Het nieuwe WTMAD-4 systeem zorgt ervoor dat een "beste chef" daadwerkelijk goed is in alles, en niet alleen in de grote, luidruchtige uitdagingen.

De Kern van het Verhaal

Het artikel vindt geen nieuwe kookmethode of een nieuw ingrediënt uit. In plaats daarvan repareert het de scorekaart.

Het betoogt dat wetenschappers het al lange tijd over een liniaal hebben gehad die groter of kleiner werd naarmate wat ze maten veranderde. Deze nieuwe WTMAD-4 metriek is een rechte, eerlijke liniaal die elke chemische uitdaging eerlijk behandelt, waardoor gegarandeerd wordt dat de "beste" computermethoden werkelijk de meest betrouwbare zijn voor alle vormen van chemie, en niet alleen voor de grote, indrukwekkende uitdagingen.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →