The Open Molecules 2025 (OMol25) Dataset, Evaluations, and Models

Meta FAIR は、83 元素にわたる 1 億件以上の高精度 DFT 計算データを含む大規模データセット「Open Molecules 2025 (OMol25)」と、それを活用するための基準モデルおよび評価手法を発表し、分子化学における機械学習モデルの発展を促進しました。

Daniel S. Levine, Muhammed Shuaibi, Evan Walter Clark Spotte-Smith, Michael G. Taylor, Muhammad R. Hasyim, Kyle Michel, Ilyes Batatia, Gábor Csányi, Misko Dzamba, Peter Eastman, Nathan C. Frey, Xiang Fu, Vahe Gharakhanyan, Aditi S. Krishnapriyan, Joshua A. Rackers, Sanjeev Raja, Ammar Rizvi, Andrew S. Rosen, Zachary Ulissi, Santiago Vargas, C. Lawrence Zitnick, Samuel M. Blau, Brandon M. Wood

公開日 2026-03-05
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

分子の世界を「AI 地図」でナビゲートする:Open Molecules 2025 (OMol25) の解説

この論文は、**「Open Molecules 2025 (OMol25)」**という、非常に壮大で画期的なプロジェクトについて報告しています。

一言で言うと、**「化学の全領域をカバーする、史上最大級の『分子の地図』と、それを読み解くための『AI 指南書』を公開した」**という話です。

これを一般の方にもわかりやすく、いくつかの比喩を使って説明します。


1. 従来の問題点:「暗闇での手探り」と「高価な計算」

これまでに、新しい薬や電池、素材を見つけるには、コンピューター上で「密度汎関数理論(DFT)」という非常に正確だが、計算に莫大な時間とコストがかかる方法で分子の動きをシミュレーションしていました。

  • 比喩: これは、**「新しい料理のレシピを開発するために、毎回高級な食材を買い、一流のシェフに 1 週間かけて味見をさせる」**ようなものです。正確ですが、一度に 100 万種類の料理を試すのは不可能です。
  • 課題: 従来のデータセットは、小さな分子(炭素や水素だけなど)しか扱えず、複雑なタンパク質や金属を含む分子、あるいは電気を帯びた状態の分子など、化学の「広大な世界」の大部分をカバーできていませんでした。

2. OMol25 の登場:「1 億 4 千万枚の『分子写真』」

Meta の研究チーム(FAIR)は、この課題を解決するために、1 億 4 千万件以上の DFT 計算を行いました。これは、**「90 億時間(CPU コア時間)」**に相当する膨大な計算資源を投入したプロジェクトです。

  • 比喩: これまで「料理のレシピ」を 1 万種類しか持っていなかったのが、**「1 億 4 千万種類もの料理写真と味見データ」**を揃えた巨大な図書館を作ったようなものです。
  • 何がすごい?
    • 広さ: 周期表の最初の 83 元素すべてをカバー。
    • 深さ: 小さな分子から、タンパク質(生体分子)、金属複合体(触媒など)、電解質(電池の中身)まで、化学のあらゆる分野を網羅。
    • 多様性: 電気を帯びた状態(イオン)、スピン(電子の向き)が変化する状態、反応中の分子など、通常は難しいシチュエーションも含まれています。
    • サイズ: 最大で 350 個の原子からなる巨大な分子も扱えます(従来のデータセットでは 50 個程度が限界でした)。

3. どのようにして作ったのか?「6 つの異なるアプローチ」

この巨大なデータセットは、単一の方法で作られたわけではありません。化学の異なる分野ごとに、最適な「写真の撮り方(サンプリング手法)」を 6 つ用意しました。

  1. バイオ分子(生体): 薬がタンパク質にどう結合するかを調べるため、実験室のデータから「ポケット(結合部位)」を切り取って撮影しました。
  2. 金属複合体: 触媒に使われる金属の周りに、さまざまな「リガンド(配位子)」をランダムに組み合わせて、何百万通りもの組み合わせを生成しました。
  3. 電解質(電池): 液体の中でイオンがどう動き回るかを見るため、分子ダイナミクス(MD)シミュレーションで「液体の揺らぎ」を撮影し、その瞬間を切り取りました。
  4. 主族分子: 有機化学や反応経路など、一般的な化学反応のデータを網羅しました。
  5. 既存データの再計算: 以前あった有名なデータセットも、OMol25 の統一された高品質な基準で「リマスター(再編集)」しました。
  6. AI による探索: 既存の AI モデルを使って、人間が思いつかないような「奇妙な分子の形」をシミュレーションし、そのデータを追加しました。

4. 評価とモデル:「地図の使い方を教えるガイド」

ただ地図(データ)を公開するだけでは不十分です。そこで、このデータを使って**「AI モデル(機械学習)」を訓練し、その性能をテストする基準**も作りました。

  • ベースラインモデル: 最先端の AI モデル(eSEN, GemNet-OC, UMA など)を OMol25 で訓練し、どれくらい正確に分子のエネルギーや力を予測できるかを測定しました。
  • テスト項目(例):
    • タンパク質と薬の結合: 薬がタンパク質にどのくらい強くくっつくか?
    • イオン化エネルギー: 電子を奪うのにどれくらいエネルギーがいるか?
    • スピンギャップ: 電子の向きが変わるとエネルギーがどう変わるか?
    • 距離スケーリング: 分子同士を遠ざけたとき、力がどう減衰するか?

結果、新しい AI モデルは、従来の手法に匹敵する精度(化学の「化学精度」と呼ばれる 1 kcal/mol 以内)で、非常に高速に予測できるようになりました。

5. なぜこれが重要なのか?「未来の発見を加速する」

OMol25 が公開されたことで、以下のようなことが可能になります。

  • 薬の発見: がん治療薬など、複雑なタンパク質と結合する新しい分子を、実験室で試す前にコンピューターで高速にスクリーニングできる。
  • 電池の革新: 次世代のバッテリーに使われる電解質の設計を、より効率的に行える。
  • 触媒の設計: 環境に優しい化学反応を促進する金属触媒を、安価に設計できる。

まとめ

この論文は、**「化学の全領域を網羅する、史上最大かつ最高品質の『分子のデータベース』と、それを使うための『AI の教科書』を、世界中の研究者に無料で公開した」**というニュースです。

これにより、研究者たちは「高価な計算」や「限られたデータ」に縛られず、「化学の広大な宇宙」を自由に探検し、新しい素材や薬を素早く見つけることができるようになります。まるで、暗闇で手探りで歩いていた化学者が、突然、**「全貌がわかる巨大な星図」**を手に入れたようなものです。


参考リンク:

  • データセットとモデル:Hugging Face (Facebook/OMol25)
  • コード:GitHub (facebookresearch/fairchem)