Accurate Chemistry Collection: Coupled cluster atomization energies for broad chemical space

Dit artikel introduceert de Microsoft Research Accurate Chemistry Collection (MSR-ACC), een openbaar dataset met 73.040 uiterst nauwkeurige atoomisatie-energieën voor een breed scala aan gesloten-schil moleculen, die de ontwikkeling van data-gedreven methoden in de computationele chemie mogelijk maakt.

Oorspronkelijke auteurs: Sebastian Ehlert, Jan Hermann, Thijs Vogels, Victor Garcia Satorras, Stephanie Lanius, Marwin Segler, Klaas J. H. Giesbertz, Derk P. Kooi, Kenji Takeda, Chin-Wei Huang, Giulia Luise, Rianne van den Be
Gepubliceerd 2026-02-17
📖 4 min leestijd☕ Koffiepauze-leesvoer

Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat chemici als kokken zijn die proberen de perfecte recepten voor nieuwe medicijnen, brandstoffen of materialen te vinden. Maar om te weten of hun recept werkt, moeten ze eerst heel precies weten hoeveel energie er vrijkomt of nodig is wanneer ze ingrediënten (atomen) samenvoegen tot een gerecht (een molecuul).

Vroeger was dit als proberen een recept te gissen met een lepel en een schatting. Soms zat je er heel dichtbij, maar vaak was het net niet goed genoeg. Om echt goede voorspellingen te doen, heb je een "gouden standaard" nodig: een berekening die zo nauwkeurig is dat je er je leven op kunt bouwen.

Wat hebben deze onderzoekers gedaan?

Sebastian Ehlert, Jan Hermann en hun team bij Microsoft Research hebben een enorme, digitale "kookboek-bibliotheek" gecreëerd. Ze noemen het MSR-ACC.

Hier is hoe je het kunt begrijpen:

1. De "Gouden Standaard" Rekenmachine

In de chemie is de "totale atoomisatie-energie" (TAE) eigenlijk het antwoord op de vraag: "Hoeveel energie kost het om dit molecuul volledig uit elkaar te halen in losse atomen?"

  • Het probleem: De meeste computerprogramma's (die we 'theorie' noemen) maken hier kleine fouten in. Soms is die fout zo groot dat je een medicijn denkt dat werkt, maar dat in werkelijkheid giftig is.
  • De oplossing: Deze team heeft een superkrachtige rekenmethode gebruikt (CCSD(T), vaak gezien als de "formule van de goden" in chemie) om 73.040 moleculen te berekenen. Ze hebben dit gedaan met een precisie die binnen 1 kilocalorie per mol ligt van de echte waarheid. Dat is alsof je het gewicht van een vlieg op een weegschaal meet met de precisie van een gouden weegschaal.

2. Het "Supermarkt" Concept

Stel je voor dat je een supermarkt bouwt voor chemische data.

  • De oude supermarkten: Bestonden al, maar ze waren klein (slechts een paar honderd producten) of ze hadden alleen maar "groente" (organische koolstofverbindingen). Ze misten "vis" en "kruiden" (andere elementen zoals natrium, magnesium, aluminium).
  • De nieuwe MSR-ACC supermarkt: Deze is enorm groot (73.040 producten) en bevat van alles: van simpele waterstofmoleculen tot complexe verbindingen met aluminium en zwavel. Ze hebben zelfs gekeken naar moleculen die niet alleen uit koolstof bestaan, maar ook uit de elementen die je vindt in de eerste drie rijen van het periodiek systeem.

3. De "Kwaliteitscontrole" (Het Filter)

Niet elk molecuul is geschikt voor deze superkrachtige rekenmethode. Sommige moleculen zijn als een instabiel huis: ze vallen uit elkaar of gedragen zich zo raar dat de rekenmachine "in de war" raakt (dit noemen ze "multireference character").

  • De analogie: Stel je voor dat je een groep renners selecteert voor een marathon. Je wilt alleen mensen die gezond zijn en niet op het punt staan om flauw te vallen.
  • Wat ze deden: Ze gebruikten slimme filters om alle "ziektes" (moleculen die te chaotisch zijn) eruit te filteren. Ze keken ook of de moleculen in hun rustigste, stabielste staat zaten (singlet-toestand), zodat ze zeker weten dat ze de juiste energie meten.

4. Waarom is dit belangrijk voor de "gewone" mens?

Je vraagt je misschien af: "Wat heb ik hieraan?"
Dit dataset is als een trainingsveld voor kunstmatige intelligentie (AI).

  • Vandaag de dag proberen wetenschappers AI-modellen te bouwen die sneller en goedkoper kunnen rekenen dan die superkrachtige methode. Maar om die AI te leren, heb je duizenden voorbeelden nodig van de "juiste antwoorden".
  • Met deze nieuwe bibliotheek kunnen AI-ontwikkelaars hun modellen trainen op een veel breder scala aan chemie dan ooit tevoren.
  • Het resultaat: In de toekomst kunnen we sneller nieuwe batterijen voor onze auto's vinden, betere zonnepanelen ontwerpen, of medicijnen ontwikkelen die precies op de juiste manier werken, omdat de computers die we gebruiken om ze te ontwerpen, nu veel minder fouten maken.

Samenvattend

Deze paper is het verhaal van een team dat een enorme, ultra-precieze database heeft gebouwd. Het is alsof ze een kaart hebben getekend van een heel nieuw continent in de chemische wereld. Waar andere kaarten alleen de kustlijn toonden, toont deze kaart ook de binnenlanden, de bergen en de valleien.

Dit maakt het mogelijk voor de volgende generatie wetenschappers en AI-systemen om de chemie van de toekomst niet meer te raden, maar met zekerheid te voorspellen. Het is een enorme stap in de richting van "sub-chemische nauwkeurigheid" – wat betekent dat we eindelijk computers kunnen gebruiken die net zo goed zijn als de beste echte chemici in het lab.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →