The Open Molecules 2025 (OMol25) Dataset, Evaluations, and Models

Das Paper stellt den Open Molecules 2025 (OMol25)-Datensatz vor, der über 100 Millionen DFT-Berechnungen mit hoher Genauigkeit und beispielloser chemischer Vielfalt umfasst, um die Entwicklung und Evaluierung leistungsfähigerer maschineller Lernmodelle für die molekulare Chemie zu ermöglichen.

Daniel S. Levine, Muhammed Shuaibi, Evan Walter Clark Spotte-Smith, Michael G. Taylor, Muhammad R. Hasyim, Kyle Michel, Ilyes Batatia, Gábor Csányi, Misko Dzamba, Peter Eastman, Nathan C. Frey, Xiang Fu, Vahe Gharakhanyan, Aditi S. Krishnapriyan, Joshua A. Rackers, Sanjeev Raja, Ammar Rizvi, Andrew S. Rosen, Zachary Ulissi, Santiago Vargas, C. Lawrence Zitnick, Samuel M. Blau, Brandon M. Wood

Veröffentlicht 2026-03-05
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, die Welt der Chemie ist wie ein riesiges, unendliches Universum voller neuer Welten (Moleküle), die wir noch nie gesehen haben. Um diese Welten zu verstehen, brauchen wir eine Landkarte. Früher mussten Wissenschaftler diese Landkarten mit der Hand zeichnen, indem sie riesige, langsame Computer (Quantenchemie) benutzten. Das war so, als würde man versuchen, den gesamten Ozean mit einem Eimer zu vermessen: extrem genau, aber so langsam, dass man nie fertig wird.

Künstliche Intelligenz (KI) verspricht, diese Landkarten blitzschnell zu erstellen. Aber eine KI ist wie ein junger Schüler: Sie kann nur so gut lernen, wie die Lehrbücher (Daten), die sie bekommt, es zulassen. Bisher waren diese Lehrbücher entweder sehr klein (nur ein paar einfache Moleküle) oder sehr ungenau.

Das ist die Geschichte von OMol25: Der "Enzyklopädie der Moleküle".

Hier ist die einfache Erklärung, was die Forscher von Meta FAIR und ihren Partnern getan haben:

1. Das Problem: Der leere Rucksack

Stell dir vor, du willst ein Kochbuch für die ganze Welt schreiben. Bisher hatten wir nur Rezepte für Pizza und Pasta (einfache organische Moleküle). Aber was ist mit Sushi, Curry oder exotischen Früchten? Was ist mit Medikamenten, die Proteine im Körper reparieren, oder Batterien, die Autos antreiben?
Bisher fehlte eine riesige Sammlung von Rezepten für alles. Ohne diese Sammlung konnte die KI nicht lernen, wie komplexe Dinge funktionieren.

2. Die Lösung: Ein gigantisches Kochbuch

Die Forscher haben OMol25 erstellt. Das ist kein gewöhnliches Kochbuch. Es ist eine Bibliothek mit 140 Millionen Rezepten (Berechnungen).

  • Die Qualität: Jedes Rezept wurde mit dem "Goldstandard" der Chemie (einer sehr präzisen Methode namens DFT) geschrieben. Es ist so genau, als würde ein Michelin-Sterne-Koch jedes Gericht persönlich probieren.
  • Die Vielfalt: Es ist nicht nur Pizza. Es enthält:
    • Proteine und DNA: Die Bausteine des Lebens (wie kleine Maschinen im Körper).
    • Metall-Komplexe: Wie Zahnräder in einer Uhr, die aus Metallen bestehen und für Katalysatoren wichtig sind.
    • Elektrolyte: Die "Flüssigkeiten", die in Batterien fließen und Energie speichern.
    • Reaktionen: Szenarien, bei denen Moleküle zerbrechen und sich neu verbinden (wie ein Tanz, bei dem Partner wechseln).

3. Wie haben sie das gemacht? (Der "Roboter-Koch")

Man kann nicht einfach 140 Millionen Rezepte von Hand schreiben. Das würde eine Ewigkeit dauern.
Die Forscher haben einen digitalen Koch (einen Algorithmus) gebaut, der Millionen von Molekülen entwirft.

  • Die Bibliothek: Sie haben aus echten Datenbanken (wie dem Protein Data Bank) Teile von Proteinen ausgeschnitten, wie man ein Foto von einem berühmten Gebäude macht.
  • Die Erfindung: Sie haben Metalle und Liganden (die "Hände", die das Metall halten) wie Lego-Steine zufällig zusammengebaut, um neue, noch nie dagewesene Metall-Komplexe zu erschaffen.
  • Die Simulation: Sie haben Moleküle in virtuellen Flüssigkeiten (wie in einer Batterie) schwimmen lassen und beobachtet, wie sie sich bewegen.
  • Der Aufwand: Das hat so viel Rechenleistung verbraucht, als würde man 6,6 Milliarden CPU-Stunden laufen lassen. Das ist, als würde man einen ganzen Kontinent an Computern für Jahre am Laufen halten.

4. Der Test: Die "Prüfung"

Eine KI ist nur so gut wie ihre Prüfung. Die Forscher haben nicht nur Daten gesammelt, sondern auch eine Prüfungsordnung erstellt.
Stell dir vor, die KI muss jetzt Aufgaben lösen, die sie noch nie gesehen hat:

  • Die "Schmerz-Test": Wie stark verformt sich ein Medikament, wenn es an ein Protein bindet? (Ligand-Spannung).
  • Der "Wetter-Test": Wie verhalten sich Moleküle, wenn sie sehr weit voneinander entfernt sind? (Langreichweitige Wechselwirkungen).
  • Der "Licht-Test": Was passiert, wenn man einem Molekül ein Elektron wegnimmt oder hinzufügt? (Ionisation).

Die Ergebnisse waren beeindruckend: Die besten Modelle, die auf OMol25 trainiert wurden, konnten diese Aufgaben fast so gut lösen wie der langsame, aber genaue "Goldstandard"-Computer, aber millionenfach schneller.

5. Warum ist das wichtig für dich?

Warum sollte dich eine Datenbank mit 140 Millionen Molekülen interessieren?

  • Medizin: In Zukunft könnten wir neue Medikamente in Tagen statt in Jahren finden, indem wir die KI auf diese Daten trainieren, um genau zu wissen, welche Molekül-Form den Krebs angreift.
  • Energie: Wir könnten bessere Batterien für Elektroautos entwickeln, die schneller laden und länger halten, indem wir die perfekten Flüssigkeiten (Elektrolyte) in der Datenbank finden.
  • Klima: Wir könnten neue Materialien finden, die CO2 aus der Luft filtern.

Zusammenfassung in einer Metapher

Vor OMol25 war die KI in der Chemie wie ein Fahrradfahrer, der versucht, einen Berg zu erklimmen, aber nur ein paar Räder und keine Karte hat. Er stolpert herum und fällt oft hin.
Mit OMol25 haben die Forscher dem Fahrer ein Hochleistungs-Rennrad, einen detaillierten GPS-Tracker und eine Landkarte des ganzen Gebirges gegeben. Plötzlich kann er nicht nur den Berg hochfahren, sondern auch neue Pfade entdecken, die niemand vorher gesehen hat.

Der Clou: Die Forscher haben diese Landkarte, die Räder und die Trainingsdaten kostenlos für alle veröffentlicht. Jeder, der an der Zukunft der Chemie arbeiten will, kann jetzt darauf aufbauen. Das ist ein riesiger Sprung für die Wissenschaft.