Pushing the limits of one-dimensional NMR spectroscopy for automated… — やさしい解説

原著者： Frank Hu, Jonathan M. Tubb, Dimitris Argyropoulos, Sergey Golotvin, Mikhail Elyashberg, Grant M. Rotskoff, Matthew W. Kanan, Thomas E. Markland

公開日 2026-06-10

📖 1 分で読めます☕ さくっと読める

閲覧： arXiv ↗PDF ↗

CC BY 4.0

原著者： Frank Hu, Jonathan M. Tubb, Dimitris Argyropoulos, Sergey Golotvin, Mikhail Elyashberg, Grant M. Rotskoff, Matthew W. Kanan, Thomas E. Markland

原論文は CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) でライセンスされています。 ✨ これは以下の論文のAI生成解説です。著者が執筆または承認したものではありません。技術的な正確性については原論文を参照してください。免責事項の全文を読む

あなたは、あるミステリーを解決しようとしている探偵だと想像してください。しかし、あなたには指紋も目撃者もありません。手元にあるのは、容疑者の影を写した、たった一枚のぼやけた写真だけです。あなたの任務は、その影一つから、容疑者の顔、体、そして衣服のすべてを復元することです。

これは、化学者が1D NMR分光法のみを用いて新しい分子の構造を解明しようとする際に直面する状況を、まさに言い表しています。

不可能なパズル

化学の世界において、分子は複雑なレゴ構造のようなものです。中規模の分子（炭素、窒素、酸素といった「ヘビー」な原子が36〜40個程度あるもの）の場合、それらのレゴを組み立てる方法は、地球上のすべてのビーチにある砂粒の数よりも多くの組み合わせが存在します。論文の推定によれば、その数は $10^{20}$ から $10^{60}$ に及びます。

従来、単純な1D NMRという「影」（スペクトル）だけを使って、どの特定のレゴ構造を手に入れたのかを突き止めることは不可能だと考えられてきました。それは、何十億ものレゴブロックの正確な配置を、たった一つの平面的で薄っぺらな影を見るだけで当てようとするようなものです。通常、化学者は、より多くの手がかり、例えば2D NMR（3Dマップを与えるもの）や、正確な成分リスト（分子式）を必要とします。

AI探偵

研究者たちは、このパズルを解くことができる非常にスマートなAI探偵（現代の多くのチャットボットの背後にある技術である「Transformer」モデル）を構築しました。

彼らは、以下の巧妙な2段階のプロセスを用いて、このAIを訓練しました。

ステップ1：形の言語を学ぶ（事前学習）
AIがNMRの影を見る前に、彼らは別のゲームを教え込みました。彼らはAIに「モルガン・フィンガープリント」（分子の小さな断片を記述するデジタル・バーコードのようなもの）を与え、それらのバーコードから完全なレゴ構造を組み立てるよう求めました。

比喩： 子供に窓、ドア、壁といった「レンガのリスト」を見せながら、家を組み立てるよう教える場面を想像してください。
結果： AIは熟練のビルダーとなりました。断片のリストを見て、完全な家を97.8%の確率で正しく再構築することができたのです。

ステップ2：真のテスト（スペクトルから構造へ）
AIが熟練のビルダーになったところで、彼らは本当の課題、つまりNMRの「影」を見て、直接レゴ構造を推測させるという課題を教えました。

彼らは成分リスト（分子式）を与えませんでした。
彼らは3Dマップも与えませんでした。
彼らはただ、1D NMRスペクトルだけを与えました。

結果：不可能を可能にする

AIはこの不可能なタスクにおいて奇跡を起こしました。

精度： 原子数が40個までの分子において、AIはトップ15の推測の中に正しい構造を約**60%**の確率で含めることができました。
「影」対「マップ」： AIが正確な正解に辿り着けなかったとしても、提案した構造は非常に近いものでした。もし推測が外れたとしても、示された構造は実際の分子と82%の類似性を持っていました。それは、探偵が「容疑者は赤い帽子を被っている」と間違えたとしても、服装の他の部分は正しく言い当てているようなものです。
片方の目があれば十分： 驚くべきことに、AIは炭素（ $^{13}$ C）のデータを使わず、水素（ $^1$ H）のNMRスペクトルのみを使用して、この作業の大部分を行うことができました。それでも、トップ15の推測の中に正解が含まれる確率は46.6%でした。
実世界への適応力： このAIはコンピュータ・シミュレーションを用いて訓練されましたが、研究者たちは、わずか50個の実世界の実験スペクトルを用いて、これを「微調整（ファインチューニング）」できることを示しました。この極めて少ない実データを用いても、実データに対する精度は0%から21.5%へと跳ね上がりました。

なぜこれが重要なのか

化学的な空間を、 $10^{60}$ 冊の本がある図書館だと考えてみてください。本の表紙（1D NMRスペクトル）を読むだけで、あなたが必要な特定の1冊を見つけ出すことは、不可能だと考えられてきました。このAIは単に本を見つけるだけでなく、検索範囲を15冊程度の小さな束まで絞り込み、そのうちの6冊が、おそらくあなたが求めている本であるというところまで導いてくれます。

この論文は、このツールによって、科学者がより複雑なデータを取得するという、高価で時間のかかるステップをスキップできることを結論付けています。これは強力なフィルターとして機能し、化学実験室で利用可能な最も基本的で一般的なデータに基づき、無限に存在する化学構造の可能性を、管理可能な数へと迅速に絞り込むのです。

技術要約：人工知能を用いた自動構造解析のための、一次元NMR分光法の限界への挑戦

問題提起
一次元（1D）NMR分光法は有機化合物の特性評価における主要なツールであるが、¹Hおよび/または¹³C NMRスペクトルのみから分子の完全な構造（組成式および結合性）を決定すること、すなわち「de novo（新規）」構造生成は、数個の原子を持つ分子を除いて、伝統的に困難であると考えられてきた。これは、最大36個の非水素原子を持つ分子における化学空間の組み合わせ爆発（最大 $10^{20}$ から $10^{60}$ の範囲）に起因する。既存のコンピュータ支援構造解析（CASE）手法は、通常、追加のデータ（例：2D NMR、HR-MS、分子式）を必要とするか、あるいは候補ライブラリとの照合に依存しており、これが新規化合物やそのようなコンテキストが利用不可能な状況における適用性を制限している。現在の機械学習手法は、中間ステップや広範な条件付け情報なしに、スペクトルから構造へのフルスペクトラム・タスクに対処することに失敗することが多い。

手法
著者らは、分子式やその他のコンテキストデータ（背景情報）を必要とせず、¹Hおよび¹³C NMRスペクトルのみを使用して、スペクトル・トゥ・ストラクチャー（スペクトルから構造へ）およびスペクトル・トゥ・サブストラクチャー（スペクトルから部分構造へ）のタスクを解決するための、トランスフォーマー・アーキテクチャに基づいたエンドツーエンドのディープラーニング・フレームワークを提案している。

事前学習（部分構造から構造へ）: このフレームワークは、トランスフォーマー・モデルがMorganフィンガープリント（分子の部分構造を表すバイナリベクトル）からSMILES文字列を再構成することを学習する事前学習フェーズを利用している。このタスクにより、モデルは分子表現のセマンティクス（意味論）と構文の妥当性に条件付けられる。モデルは、最大40個の重原子（C, N, O, H, B, P, S, Si, F, Br, Cl, I）を含むPubChem（2025年2月時点）から抽出された8,800万個の一意なSMILES文字列を用いて学習された。
マルチタスク・アーキテクチャ: 事前学習された重みは、マルチタスクモデルの構造解析ブランチの初期化に転移される。
- 入力: モデルは、CNN（畳み込みニューラルネットワーク）によってエンコードされた1D ¹H NMRスペクトルと、埋め込み表現化された¹³C NMR化学シフトを受け取る。
- 処理: 統合された潜在表現は、2つの並行するブランチに送られる：
  - 部分構造解析ブランチ（4層のトランスフォーマー・エンコーダ）は、特定の分子断片が存在する確率を予測する。
  - 構造予測ブランチ（8層のエンコーダ・デコーダ・トランスフォーマー）は、SMILES文字列を自己回帰的に生成する。
学習データ: マルチタスクモデルは、多様性を確保しデータ漏洩を防ぐために（8,800万個のプールから選別された）200万個の分子を用いて学習された。これらのスペクトルは、ACD/Labsの予測器を用いて生成されたフォワード・シミュレーションによる¹Hおよび¹³C NMRスペクトルである。

主な結果

部分構造から構造への性能: 事前学習モデルは、最大40個の重原子を持つ分子に対して、MorganフィンガープリントからSMILES文字列を再構成する際のTop-15精度で**97.8%**を達成した。最大サイズの分子（重原子40個）においても精度は高く（88.8%）、誤った予測であってもターゲットとのTanimoto類似性が高かった（平均MTSは0.82）。これは、モデルが正確な再構成に失敗した場合でも、実質的な構造情報を回収できていることを示している。
スペクトルから構造への性能: マルチタスク・フレームワークは、¹Hおよび¹³C NMRスペクトルのみを使用した場合、テストセットにおいて**Top-15構造精度60.4%**を達成した。この性能は、この範囲内で化学空間が30桁以上増大しているにもかかわらず、全範囲の分子サイズ（重原子10〜40個）にわたって維持された。
- ¹H NMRスペクトルのみを使用した場合、Top-15精度は46.6%であった。
- ¹³C NMRスペクトルのみを使用した場合、Top-15精度は19.4%であった。
- 事前学習により、ランダムな初期化からの学習と比較して、Top-15構造精度が22パーセントポイント向上した。
元素のカバレッジ: モデルは、C, N, O, Hを超えて、P, S, Si, B, およびハロゲンを含む元素へと汎化することに成功した。精度は元素によって変動したものの（例：Sについては高いが、原子価の多様性によりPについては低い）、モデルは希少元素（例：B, I）を含む構造を20%を超える精度で予測する能力を示した。
部分構造予測: モデルは部分構造予測においてF1スコア0.84を達成した。予測は非常に確信度が高く、98.1%の確率が0.1〜0.9の範囲外であった。
実験的検証: BMRBの50個の実験スペクトルを用いてファインチューニングを行った際、モデルは実験データに対してTop-15構造精度**21.5%**を達成した。これは、ゼロショット精度が0.0%であったことからの大幅な改善であり、同時にシミュレーションデータに対する性能も維持した。
候補生成: 正確な構造が予測されなかった場合でも、モデルによる最良の誤予測は、8,500万個のPubChem学習セット内のどの分子よりもターゲットに近いことが多かった（40重原子システムにおける失敗事例の32.2%において、Top-1位がターゲットに近い）。

意義と主張
本論文は、このフレームワークが化学空間の組み合わせ的なスケーリングを克服し、日常的な1D NMRデータのみを用いた自動的なde novo構造生成を可能にすると主張している。自然言語処理とトランスフォーマー・アーキテクチャの知見を活用することで、著者らは、最大40個の重原子を持つ系に対して、最初の15個の予測の中に正しい分子が含まれる確率が60.4%であることを実証した。

著者らは、この研究を完全自動化された構造解析に向けた基礎的なステップとして位置づけている。彼らは、このフレームワークが以下の特性を持つと主張している：

初期構造生成のために複雑な2D NMRや分子式を必要とするボトルネックを取り除く。
ブルートフォース探索や反復的な遺伝的アルゴリズムに代わる、計算効率の高い選択肢を提供する。
大規模なデータセットでの事前学習により、小規模な実験データセットへの効果的なファインチューニングを可能にする「基盤モデル」としての能力を提供する。
正確な構造が即座に特定されない場合でも、化学的探索空間を制約する高品質な候補分子を生成できるため、より徹底的な探索ベースの手法やCASEツールのシード（種）として機能する可能性がある。

著者らは、立体化学の決定や、シミュレーションデータと実験データの間のギャップといった残された課題を認めているが、本アプローチが、創薬に類似した化学空間全体にわたって自動解析をスケールさせるための強固な基盤を提供すると断言している。

Pushing the limits of one-dimensional NMR spectroscopy for automated structure elucidation using artificial intelligence

不可能なパズル

AI探偵

結果：不可能を可能にする

なぜこれが重要なのか

関連論文