The Open Molecules 2025 (OMol25) Dataset, Evaluations, and Models

Meta FAIR présente OMol25, un jeu de données à grande échelle de plus de 100 millions de calculs DFT couvrant une diversité chimique et structurelle inédite, accompagné de modèles de référence et d'évaluations pour accélérer le développement de l'apprentissage automatique en chimie moléculaire.

Daniel S. Levine, Muhammed Shuaibi, Evan Walter Clark Spotte-Smith, Michael G. Taylor, Muhammad R. Hasyim, Kyle Michel, Ilyes Batatia, Gábor Csányi, Misko Dzamba, Peter Eastman, Nathan C. Frey, Xiang Fu, Vahe Gharakhanyan, Aditi S. Krishnapriyan, Joshua A. Rackers, Sanjeev Raja, Ammar Rizvi, Andrew S. Rosen, Zachary Ulissi, Santiago Vargas, C. Lawrence Zitnick, Samuel M. Blau, Brandon M. Wood

Publié 2026-03-05
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🧪 OMol25 : La "Grande Bibliothèque" de la Chimie du Futur

Imaginez que vous voulez apprendre à cuisiner les plats les plus complexes du monde. Pour devenir un chef étoilé, vous avez besoin de deux choses :

  1. Des recettes précises (les données).
  2. Un assistant qui goûte tout instantanément (l'intelligence artificielle).

Le problème, c'est que jusqu'à présent, nous avions très peu de recettes, et celles que nous avions étaient soit trop simples (juste des pâtes), soit trop compliquées à lire (des livres entiers de physique quantique).

OMol25, c'est la réponse de Meta FAIR à ce problème. C'est une bibliothèque gigantesque contenant plus de 140 millions de "recettes" (des calculs chimiques) pour aider les ordinateurs à comprendre comment les atomes interagissent.

1. Le Problème : La Chimie est trop lente et trop chère

Pour comprendre comment une nouvelle molécule (comme un médicament ou un matériau de batterie) va se comporter, les scientifiques utilisent une méthode très précise appelée DFT (Théorie de la Fonctionnelle de la Densité).

  • L'analogie : C'est comme si vous vouliez prédire le temps qu'il fera dans chaque pièce d'une maison. Pour être précis, vous devriez mesurer chaque atome d'air, chaque goutte d'humidité. C'est d'une précision incroyable, mais cela prendrait des années de calcul pour une seule molécule.
  • Le résultat : On ne peut pas tester des millions de nouvelles idées de médicaments ou de batteries parce que c'est trop lent.

2. La Solution : Un "Super-Assistant" (IA)

L'idée est d'entraîner une Intelligence Artificielle (IA) pour qu'elle imite ce calcul ultra-précis, mais en une fraction de seconde.

  • L'analogie : Imaginez un apprenti cuisinier qui a lu des millions de livres de cuisine. Il ne fait pas le calcul chimique à chaque fois ; il se souvient de l'expérience. Il peut vous dire : "Si vous mélangez cet ingrédient avec celui-là, ça va exploser (ou créer un super-médicament)" en une seconde.
  • Le défi : Pour que cet apprenti soit bon, il faut lui donner tous les types de situations possibles. Pas juste des pâtes, mais aussi des sushis, des plats épicés, des desserts, des aliments avariés, etc.

3. Ce qu'est OMol25 (Le "Menu" Ultime)

Avant OMol25, les bases de données étaient comme des menus de cantine scolaire : toujours les mêmes ingrédients (Carbone, Hydrogène, Oxygène) et des structures simples.
OMol25 est un buffet international géant qui contient :

  • 83 éléments différents (presque tout le tableau périodique, y compris les métaux rares).
  • Des molécules de toutes tailles : De minuscules atomes jusqu'à des géants de 350 atomes (comme de petites protéines).
  • Des situations réalistes : Des molécules chargées (comme dans les batteries), des molécules dans l'eau (solvant), des molécules qui réagissent (chimie explosive), et même des structures biologiques (ADN, protéines).

L'analogie : Si les anciennes bases de données étaient un jeu de Lego avec seulement des briques rouges et bleues, OMol25 est une boîte de 10 millions de briques de toutes les couleurs, formes et tailles, incluant des pièces spéciales pour construire des châteaux, des vaisseaux spatiaux et des robots.

4. Comment ont-ils fait ? (Le Marathon de Calcul)

Pour créer cette bibliothèque, les chercheurs ont utilisé des millions d'heures de calcul (l'équivalent de 6,6 milliards d'heures de processeur !).

  • L'analogie : Imaginez qu'ils ont engagé une armée de millions de robots pour lire chaque page de chaque livre de chimie existant, vérifier les calculs, et les écrire dans un nouveau livre géant. Ils ont utilisé des serveurs informatiques qui étaient normalement inactifs (comme des voitures de location qui attendent dans un parking) pour faire ce travail.

5. Pourquoi c'est révolutionnaire ?

Avec OMol25, les scientifiques peuvent maintenant :

  • Découvrir de nouveaux médicaments beaucoup plus vite en testant virtuellement des millions de molécules.
  • Créer de meilleures batteries pour les voitures électriques et les téléphones.
  • Comprendre la biologie (comment les protéines fonctionnent) avec une précision de laboratoire, mais à la vitesse de l'éclair.

6. Les Résultats (L'Entraînement)

L'équipe a aussi entraîné plusieurs modèles d'IA (des "apprenants") sur ces données.

  • Le verdict : Ces IA sont devenues incroyablement douées. Elles peuvent prédire l'énergie et la force des molécules avec une précision proche de la réalité, même pour des choses très complexes comme les interactions entre un médicament et une protéine du corps humain.
  • La limite : Elles sont encore un peu moins bonnes pour prédire les réactions chimiques très rapides ou les états magnétiques complexes, mais c'est un énorme pas en avant.

En résumé 🌟

OMol25, c'est comme donner à l'humanité une carte au trésor complète de l'univers moléculaire. Au lieu de chercher une aiguille dans une botte de foin en aveugle, nous avons maintenant une carte détaillée qui nous dit exactement où se trouvent les trésors (les nouvelles molécules utiles).

C'est une ressource gratuite et publique que n'importe qui peut utiliser pour accélérer la science, la médecine et la technologie. C'est le début d'une nouvelle ère où l'ordinateur nous aide à inventer le monde de demain, molécule par molécule.