Each language version is independently generated for its own context, not a direct translation.

分子の世界を「AI 地図」でナビゲートする：Open Molecules 2025 (OMol25) の解説

この論文は、**「Open Molecules 2025 (OMol25)」**という、非常に壮大で画期的なプロジェクトについて報告しています。

一言で言うと、**「化学の全領域をカバーする、史上最大級の『分子の地図』と、それを読み解くための『AI 指南書』を公開した」**という話です。

これを一般の方にもわかりやすく、いくつかの比喩を使って説明します。

1. 従来の問題点：「暗闇での手探り」と「高価な計算」

これまでに、新しい薬や電池、素材を見つけるには、コンピューター上で「密度汎関数理論（DFT）」という非常に正確だが、計算に莫大な時間とコストがかかる方法で分子の動きをシミュレーションしていました。

比喩： これは、**「新しい料理のレシピを開発するために、毎回高級な食材を買い、一流のシェフに 1 週間かけて味見をさせる」**ようなものです。正確ですが、一度に 100 万種類の料理を試すのは不可能です。
課題： 従来のデータセットは、小さな分子（炭素や水素だけなど）しか扱えず、複雑なタンパク質や金属を含む分子、あるいは電気を帯びた状態の分子など、化学の「広大な世界」の大部分をカバーできていませんでした。

2. OMol25 の登場：「1 億 4 千万枚の『分子写真』」

Meta の研究チーム（FAIR）は、この課題を解決するために、1 億 4 千万件以上の DFT 計算を行いました。これは、**「90 億時間（CPU コア時間）」**に相当する膨大な計算資源を投入したプロジェクトです。

比喩： これまで「料理のレシピ」を 1 万種類しか持っていなかったのが、**「1 億 4 千万種類もの料理写真と味見データ」**を揃えた巨大な図書館を作ったようなものです。
何がすごい？
- 広さ： 周期表の最初の 83 元素すべてをカバー。
- 深さ： 小さな分子から、タンパク質（生体分子）、金属複合体（触媒など）、電解質（電池の中身）まで、化学のあらゆる分野を網羅。
- 多様性： 電気を帯びた状態（イオン）、スピン（電子の向き）が変化する状態、反応中の分子など、通常は難しいシチュエーションも含まれています。
- サイズ： 最大で 350 個の原子からなる巨大な分子も扱えます（従来のデータセットでは 50 個程度が限界でした）。

3. どのようにして作ったのか？「6 つの異なるアプローチ」

この巨大なデータセットは、単一の方法で作られたわけではありません。化学の異なる分野ごとに、最適な「写真の撮り方（サンプリング手法）」を 6 つ用意しました。

バイオ分子（生体）： 薬がタンパク質にどう結合するかを調べるため、実験室のデータから「ポケット（結合部位）」を切り取って撮影しました。
金属複合体： 触媒に使われる金属の周りに、さまざまな「リガンド（配位子）」をランダムに組み合わせて、何百万通りもの組み合わせを生成しました。
電解質（電池）： 液体の中でイオンがどう動き回るかを見るため、分子ダイナミクス（MD）シミュレーションで「液体の揺らぎ」を撮影し、その瞬間を切り取りました。
主族分子： 有機化学や反応経路など、一般的な化学反応のデータを網羅しました。
既存データの再計算： 以前あった有名なデータセットも、OMol25 の統一された高品質な基準で「リマスター（再編集）」しました。
AI による探索： 既存の AI モデルを使って、人間が思いつかないような「奇妙な分子の形」をシミュレーションし、そのデータを追加しました。

4. 評価とモデル：「地図の使い方を教えるガイド」

ただ地図（データ）を公開するだけでは不十分です。そこで、このデータを使って**「AI モデル（機械学習）」を訓練し、その性能をテストする基準**も作りました。

ベースラインモデル： 最先端の AI モデル（eSEN, GemNet-OC, UMA など）を OMol25 で訓練し、どれくらい正確に分子のエネルギーや力を予測できるかを測定しました。
テスト項目（例）：
- タンパク質と薬の結合： 薬がタンパク質にどのくらい強くくっつくか？
- イオン化エネルギー： 電子を奪うのにどれくらいエネルギーがいるか？
- スピンギャップ： 電子の向きが変わるとエネルギーがどう変わるか？
- 距離スケーリング： 分子同士を遠ざけたとき、力がどう減衰するか？

結果、新しい AI モデルは、従来の手法に匹敵する精度（化学の「化学精度」と呼ばれる 1 kcal/mol 以内）で、非常に高速に予測できるようになりました。

5. なぜこれが重要なのか？「未来の発見を加速する」

OMol25 が公開されたことで、以下のようなことが可能になります。

薬の発見： がん治療薬など、複雑なタンパク質と結合する新しい分子を、実験室で試す前にコンピューターで高速にスクリーニングできる。
電池の革新： 次世代のバッテリーに使われる電解質の設計を、より効率的に行える。
触媒の設計： 環境に優しい化学反応を促進する金属触媒を、安価に設計できる。

まとめ

この論文は、**「化学の全領域を網羅する、史上最大かつ最高品質の『分子のデータベース』と、それを使うための『AI の教科書』を、世界中の研究者に無料で公開した」**というニュースです。

これにより、研究者たちは「高価な計算」や「限られたデータ」に縛られず、「化学の広大な宇宙」を自由に探検し、新しい素材や薬を素早く見つけることができるようになります。まるで、暗闇で手探りで歩いていた化学者が、突然、**「全貌がわかる巨大な星図」**を手に入れたようなものです。

参考リンク：

データセットとモデル：Hugging Face (Facebook/OMol25)
コード：GitHub (facebookresearch/fairchem)

Each language version is independently generated for its own context, not a direct translation.

Open Molecules 2025 (OMol25) データセット、評価、およびモデルに関する技術的サマリー

本論文は、メタ FAIR が発表した大規模な分子化学向け機械学習（ML）データセット「Open Molecules 2025 (OMol25)」と、それに基づくモデル評価、および基盤モデルの導入について報告するものです。分子シミュレーションの分野において、量子化学計算の精度を維持しつつ計算コストを劇的に削減する ML 間原子ポテンシャル（MLIP）の開発を加速させることを目的としています。

以下に、問題定義、手法、主要な貢献、結果、そして意義について詳細にまとめます。

1. 背景と問題定義

計算コストの限界: 密度汎関数理論（DFT）は分子設計に不可欠ですが、電子数に対してほぼ 3 乗の計算コストがかかるため、大規模な高スループット・スクリーニングや長時間・大規模なシミュレーションには適用が困難です。
既存データセットの限界: 従来の MLIP 開発に用いられてきたデータセット（QM9, MD-17, ANI-2x など）は、原子種が限定的（C, H, O, N, F など）であり、化学的多様性や電荷・スピン状態、溶媒和、反応性などの重要な化学現象を網羅的にカバーしていませんでした。
課題: 広範な化学空間（有機、無機、生体分子、金属錯体など）で高精度に動作する ML モデルを構築するには、高品質かつ多様性に富んだ大規模なトレーニングデータが不可欠ですが、そのようなデータセットは存在しませんでした。

2. 手法と OMol25 データセットの構築

OMol25 は、DFT 計算レベルを統一し、化学的多様性を最大化するために設計された大規模データセットです。

計算レベル:
- 理論関数： $\omega$ B97M-V（範囲分離ハイブリッド・メタ GGA）。
- 基底関数：def2-TZVPD（拡散関数を含む）。
- 計算コード：ORCA 6.0.0。
- 総計算量：約 66 億 CPU コア時間。
データ規模:
- 単点計算数：1 億 4000 万超（約 8300 万のユニークな分子システム）。
- 原子数範囲：2〜350 原子（平均 50 原子）。
- 元素網羅性：周期表の最初の 83 元素すべてをカバー。
ドメインとサンプリング戦略:
1. 生体分子 (Biomolecules): タンパク質 - リガンド、タンパク質 - タンパク質、核酸相互作用。BioLiP2 や PDB 構造から抽出し、MD による構造多様性を付与。
2. 金属錯体 (Metal Complexes): Architector パッケージを用いて、遷移金属、ランタノイド、主族金属と多様なリガンドの組み合わせを生成。酸化状態、スピン状態、配位数を多様にサンプリング。
3. 電解質 (Electrolytes): バッテリーや生体プロセスに関連するイオン・溶媒系。古典的 MD、リングポリマー MD（核量子効果を含む）、界面（液滴）シミュレーションから溶媒和シェルを抽出。
4. 主族分子 (Main-group Molecules): 反応経路（遷移状態を含む）、重い主族元素、ナノクラスター、貴ガス化合物など。
5. コミュニティ (Community): ANI-2x, SPICE2, GEOM などの既存データセットを統一された高レベルの DFT 理論で再計算。
データ分割:
- 学習用、検証用、テスト用へ分割。
- 組成（分子式）に基づいたアウト・オブ・ディストリビューション（OOD）分割を実施し、一般化性能を厳密に評価。
- 金属 - リガンド結合、タンパク質中の金属構造、反応性、結晶構造（COD）など、特定の OOD タスク用分割も用意。

3. 主要な貢献

OMol25 データセットの公開:
- 化学的・構造的・電荷・スピン状態の多様性を兼ね備えた、史上最大規模かつ高品質な分子 DFT データセット。
- CC BY 4.0 ライセンスで公開。
包括的な評価タスクの定義:
- 単なるエネルギー/力の誤差だけでなく、実用的な化学タスクへの適応性を評価する指標を導入：
  - タンパク質 - リガンド相互作用エネルギー・力。
  - リガンドの歪みエネルギーとコンフォマー最適化。
  - 陽子化エネルギー（pKa 予測の代理タスク）。
  - 電離エネルギー（IE）/電子親和力（EA）およびスピンギャップ。
  - 距離スケーリング（短距離・長距離相互作用の捕捉能力）。
基盤モデルのベンチマーク:
- eSEN, GemNet-OC, MACE, UMA などの最先端モデルを OMol25 で学習・評価。
- 電荷とスピンを明示的に入力として扱うためのアーキテクチャ修正（埋め込み）を提案。
- 学習データセットの規模（All vs 4M サブセット）がモデル性能に与える影響を分析。

4. 結果

精度:
- 全体的なテストセットにおいて、最大モデル（UMA-M-1.1）はエネルギー誤差 1.38 kcal/mol、力誤差 0.13 kcal/mol/Å を達成。これは多くの化学領域で「化学的精度（~1 kcal/mol）」に到達または接近するレベル。
- 学習データ量を増やす（4M から All へ）ことで、性能が 50〜100% 向上した。
ドメイン別性能:
- 生体分子や中性有機分子では高い精度を示したが、金属錯体や電解質、特に電荷・スピン状態が変化する系（IE/EA、スピンギャップ）では誤差が大きかった（4〜9 kcal/mol）。
- 長距離相互作用（距離スケーリング）の捕捉には、既存のモデル（カットオフ半径依存）に限界があり、不連続性が観測された。
評価タスクの結果:
- コンフォマーランキングやリガンド歪みエネルギーでは高い精度を達成。
- 電離エネルギーやスピンギャップの予測は依然として課題であり、モデルのスケーリングだけでなく、電荷・スピンを扱うアーキテクチャの改善が必要であることを示唆。

5. 意義と将来展望

科学への影響: OMol25 は、創薬、エネルギー貯蔵（バッテリー）、触媒設計など、多岐にわたる分野での ML 駆動型分子設計を可能にする基盤となります。
コミュニティへの貢献: 公開されたリーダーボードと評価タスクにより、世界中の研究者が MLIP の開発競争に参加し、現在のモデルの限界（特に反応性や長距離相互作用、スピン状態の扱い）を克服するための指針を提供しています。
今後の課題:
- 長距離相互作用の正確なモデリング（長距離補正の導入など）。
- 電荷・スピン状態の局在化をより適切に表現するアーキテクチャの開発。
- 自由エネルギーや反応経路最適化（ヘッシアン計算）など、より高度な化学タスクへの評価拡張。

OMol25 は、単なるデータセットの提供にとどまらず、分子化学における機械学習の次の段階（General Foundation Models for Chemistry）への移行を促す重要なマイルストーンです。

The Open Molecules 2025 (OMol25) Dataset, Evaluations, and Models

分子の世界を「AI 地図」でナビゲートする：Open Molecules 2025 (OMol25) の解説

1. 従来の問題点：「暗闇での手探り」と「高価な計算」

2. OMol25 の登場：「1 億 4 千万枚の『分子写真』」

3. どのようにして作ったのか？「6 つの異なるアプローチ」

4. 評価とモデル：「地図の使い方を教えるガイド」

5. なぜこれが重要なのか？「未来の発見を加速する」

まとめ

Open Molecules 2025 (OMol25) データセット、評価、およびモデルに関する技術的サマリー

1. 背景と問題定義

2. 手法と OMol25 データセットの構築

3. 主要な貢献

4. 結果

5. 意義と将来展望

関連論文

An introduction to the Zakharov equation for modelling deep water waves

Modulational instability of nonuniformly damped, broad-banded waves: applications to waves in sea-ice

Synchrotron radiation-based tomography of an entire mouse brain with sub-micron voxels: augmenting interactive brain atlases with terabyte data

A transformational approach to collective behavior

Control of pedestal-top electron density using RMP and gas puff at KSTAR