原論文は CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) でライセンスされています。 これは以下の論文のAI生成解説です。著者が執筆または承認したものではありません。技術的な正確性については原論文を参照してください。 免責事項の全文を読む
群衆がどのように動き、互いにぶつかり合い、突然の突き飛ばしにどう反応するかを予測することを想像してみてください。原子の世界では、科学者は「原子間ポテンシャル」を用いてまさにこれを行っています。つまり、原子が互いにどのように押し合い、引き合っているかを計算することで、材料がどのように振る舞うかを予測するのです。
数十年の間、科学者はあらゆる種類の材料(金専用のルールブック、水の専用のルールブック、鋼鉄の専用のルールブックといった具合に)に対して、カスタムの「ルールブック」を構築しなければなりませんでした。これらのルールブックは正確でしたが、作成には数年を要し、他のものには転用できませんでした。
最近、**機械学習による原子間ポテンシャル(MLIPs)という新しいタイプのAIが登場しました。さらに優れたことに、現在は「基盤モデル(Foundation Models)」**が存在します。これらは、図書館にあるすべての化学の教科書を読み終えた「スーパーグランドマスター(超達人)」AIのようなものです。このAIは単に一つのルールブックを暗記しただけではありません。物質の一般的な「言語」を学んだのです。そのため、見たこともない新しい材料について尋ねたとしても、わずかな追加学習だけでそのルールを推測することができます。
しかし、この論文の著者たちは、この技術は刺激的ではあるものの、私たちはまだ間違った問いを投げかけているか、あるいは適切な問いを投げかけていないと主張しています。彼らは、これらのAIモデルが真に科学に革命をもたらす前に、科学者が解決すべき6つの大きな未解決問題を特定しました。
以下に、それらの6つの問いを、簡単な比喩を用いて説明します。
1. 原子における「基盤モデル」とは、実際には何を指すのか?
比喩: 完璧なステーキを焼くことができるシェフを想像してください。それは「専門家」です。次に、ステーキを焼き、ケーキを焼き、コーヒーを淹れ、魚をグリルすることさえ、新しいレシピ本を必要とせずにできるシェフを想像してください。それが「基盤モデル」です。
問い: 私たちは最低限の要件に合意する必要があります。AIは単に多くのことに長けていればよいのでしょうか? それとも、新しいタスクを即座に学習できる必要があるのでしょうか? 論文では、単に優れたAIを「基盤モデル」と呼ぶのではなく、それが実は単なる「限定的な専門家」である場合を見分けるために、明確な定義が必要であると示唆しています。
2. 我々に必要なのは、より多くのデータか、より良いデータか、それともより賢いモデルか?
比喩: 子供に犬の認識を教える場面を想像してください。
- より多くのデータ: 子供に100万枚の犬の画像を見せること。
- より良いデータ: あらゆる角度、あらゆる天候、ぼやけた写真が一切ない、1,000枚の「完璧な」犬の画像を見せること。
- より賢いモデル: 子供に「より優れた脳(あるいはより優れた思考法)」を与え、より少ない画像から学習できるようにすること。
問い: 論文は問いかけています。単に大量のデータをAIに投入すべきでしょうか? それとも「完璧な」データを精査することに時間を費やすべきでしょうか? あるいは、より少ないデータから学習できる、より賢いAIの「脳」を構築すべきでしょうか? 答えは単純ではなく、おそらくこれら3つの混合物ですが、私たちはまだ完璧なレシピを知りません。
3. これらのAIは「遠距離」の関係を扱えるのか?
比喩: 混雑した部屋を想像してください。誰かがあなたを突き飛ばすと、すぐ隣にいる人もそれを即座に感じます。では、部屋の反対側にいる人はどうでしょうか? 物理学において、原子は距離を超えて互いを感じ合うことができます(磁石や静電気のように)。
現在のほとんどのAIモデルは、すぐ隣の人としか会話できない人々のようです。彼らは身近なゴシップには非常に長けていますが、部屋全体の雰囲気(バイブス)を理解することには極めて劣っています。
問い: これらのモデルは、部屋の向こう側からの「ささやき声」を聞き取ることができるのでしょうか? 論文は、電荷を持つ結晶のような一部の材料において、遠距離のさやけきを無視することが誤った答えにつながることを指摘しています。私たちは、モデルが使い物にならないほど低速になることなく、どのようにしてこの問題を解決できるかを知る必要があります。
4. AIは「新しい物理学」を発見できるのか、それとも単に推測しているだけなのか?
比喩: すべての過去の試験問題を勉強してきた学生を想像してください。もし過去の問題と全く同じに見える新しい問題を与えられたら、彼らは満点を取るでしょう。しかし、もし本の中に一度も出てこなかった概念に関する質問をしたとき、彼らは論理的な推測をするでしょうか、それとも偽の答えを「ハルシネーション(幻覚)」として作り出すでしょうか?
問い: これらのAIは、未知の高圧状態(例えば惑星の中心部のような状況)を見たときに、「これは見たことがないが、学んだ物理法則に基づけば、おそらくこうなるはずだ」と言えるのでしょうか? それとも、単にパターンを暗記しているだけなのでしょうか? 論文は懐疑的です。現在、彼らは主に「補間(空白を埋めること)」には非常に優れていますが、「真の発見」には不向きです。
5. 実用的なシミュレーションを行うためにスケールアップできるのか?
比例: 超高速のスポーツカーは、短いコースでは素晴らしいものです。しかし、もし大陸横断のトラックを走らせたいのであれば、燃料切れを起こさずに重い荷物を運べるものが必要です。
問い: 最も正確なAIモデルは、しばしば非常に重く低速であるため、微小な塵の粒を、ごくわずかな時間だけシミュレートすることしかできません。論文は問いかけます。これらのモデルを、ウイルスや電池、あるいは金属の塊を長時間シミュレートできるほど高速にすることはできるのでしょうか? もしAIを実行するのに、それが動いているスーパーコンピュータよりも長い時間がかかるのであれば、それは役に立ちません。
6. AIが本当に優れているかどうか、どうやって判断するのか?
比喩: ビデオゲームのリーダーボード(順位表)を想像してください。もし全員が最高スコアを得るために同じレベルを何度も繰り返しプレイしているなら、そのリーダーボードは、誰が本当に最高のプレイヤーであるかを教えてくれなくなります。彼らは単に特定のテストに対して「ズル」をしているだけかもしれません。
問い: 現在、これらのAIモデルをランク付けするための一般的な「テスト」(Matbench Discoveryと呼ばれます)があります。しかし、論文は、もし全員がその一つのテストに合格するためにAIを訓練してしまうと、スコアが上限で停滞してしまい、モデルが実際に現実世界で改善されているのかどうかが分からなくなると警告しています。私たちは、AIがズルをしようとしたり、現実世界のシナリオで失敗したりする場面を捉えられるような、より多様なテストを必要としています。
結論
論文は、この技術が「ゴールドラッシュ」の瞬間にあると結論づけています。私たちは、新しい薬や電池、材料をゼロから設計することを可能にする強力な新しいツール(基盤モデル)を手にしています。しかし、興奮する前に、立ち止まって問う必要があります。「これらのツールは、本当に準備ができているのか?」
著者たちは、この技術が悪いと言っているわけではありません。あまりにも新しく、動きが速すぎるのだと言っています。私たちは、それが何であるかを定義し、弱点(遠距離相互作用など)を修正し、より高速化し、AIが単に答えを暗記しているのではなく、自然の法則を実際に学んでいることを確認するための、より優れたテストを作成する必要があります。
自分の分野の論文に埋もれていませんか?
研究キーワードに一致する最新の論文のダイジェストを毎日受け取りましょう——技術要約付き、あなたの言語で。