🔬 materials science

SCALAR: Quantifying Structural Hallucination, Consistency, and Reasoning Gaps in Materials Foundation Models

本論文は、多様なナノ粒子構造における幾何学的スケールの汎化および構造的推論を材料基盤モデルがどのように扱うかを評価するために設計されたベンチマークであるSCALARを紹介し、明示的な物理学に基づいた推論はハルシネーションやエラーを減少させ得る一方で、出力の一貫性と妥当性をしばしば損なうことを明らかにしている。

原著者： Can Polat, Erchin Serpedin, Mustafa Kurban, Hasan Kurban

公開日 2026-02-02

📖 1 分で読めます☕ さくっと読める

CC BY 4.0

原著者： Can Polat, Erchin Serpedin, Mustafa Kurban, Hasan Kurban

原論文は CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) でライセンスされています。 ✨ これは以下の論文のAI生成解説です。著者が執筆または承認したものではありません。技術的な正確性については原論文を参照してください。免責事項の全文を読む

想像してみてください。あなたには、完璧で無限に続く超高層ビルの設計図を読み解くことに天才的な才能を持つ、あるマスター・アーキテクト（建築家）がいます。この建築家（「基盤モデル」と呼ばれる一種のAI）は、設計図を見るだけで、そのビルの材料、強度、デザインに関するあらゆることを語ることができます。

しかし、ここには落とし穴があります。その建築家は、その超高層ビルの「レゴで作られた小さな模型」を設計するように命じられたこともなければ、手元にある「たった一つのレゴブロック」から、元の超高層ビルがどのような姿をしているかを推測するように命じられたこともありません。

この論文は、これらのAI建築家たちが、スケールが「無限の超高層ビル」から「小さなレゴ模型」へと変化した際に、正気を失わずに対応できるかどうかを検証するための、SCALARという新しいテストを紹介しています。

コアとなる問題：「ハルシネーション（幻覚）」の罠

AIの世界において、「ハルシネーション」とは単に何かをでっち上げることではありません。それは、もっともらしく聞こえるが、物理法則を無視したことを自信満々に述べてしまうことを指します。

次のように考えてみてください。もし人間に「水で作られた完璧な球体」を想像するように頼んだら、その人はそれが丸いことを理解しています。しかし、「水の立方体」を想像するように頼んだら、水は自然には立方体にならないため、躊躇するでしょう。ところが、もしAIに「立方体の水の結晶」を想像させ、AIが「はい、角は鋭く、密度は高いです」と自信たっぷりに答えたとしたら、それはハルシネーションを起こしています。AIは、水分子がそのような仕組みではないという事実を無視してしまったのです。

この論文は、現在のAIモデルは材料の「無限」の状態（バルク結晶）を記述することには長けているものの、「有限」の状態（微小なナノ粒子）を記述させると、しばしば無残に失敗することを指摘しています。彼らは数値こそ正しく出せても、原子がどのように結合するかという根本的なルールに違反してしまうことがあるのです。

テストの方法（3つの挑戦）

研究者たちは、数個の原子から18,000個以上の原子に至るまで、10万個の構造物を含む膨大なデータセットを作成しました。そして、以下の3つの特定のテストを通じてAIを検証しました。

「ズームアウト」テスト (CIF to Property):
- 設定: 完璧な結晶の設計図（「単位格子」）をAIに与えます。
- タスク: その結晶から切り出された小さな破片（「ナノ粒子」）の特性を予測させます。
- ひねり: パーツが大きくなったり小さくなったりするにつれて、特性がどのように変化するかをAIに理解させる必要があります。
- 結果: 多くのAIは基本的な計算は正解しましたが、「傾向」を理解することには失敗しました。彼らは、「パーツが大きくなるにつれて密度は一定に保たれるべきである」とか、「小さくなるにつれて表面積が変化する」といった一貫した説明をすることができませんでした。
「思考のプロセス」テスト (Chain-of-Thought):
- 設定: 研究者はAIに対し、「単に答えを出すだけでなく、物理学を用いてステップ・バイ・ステップで理由を説明してください」と指示しました。
- 結果: これは諸刃の剣でした。強制的に「考えさせる」ことで精度が向上する場合もありましたが、多くの場合、逆に一貫性を損なわせる結果となりました。同じ質問に対しても、ある時は素晴らしい説明を行い、別の試行では全く異なる、間違った説明を行うことがあったのです。これは、数学の問題を解くときは完璧なのに、なぜその解法を選んだのかを説明させようとすると混乱してしまう学生のような状態ですです。
「逆転の探偵」テスト (Inverse Retrieval):
- 設定: AIに一連の特性（例：「この材料は重く、特定の体積を持ち、非常に高密度である」）を与えます。
- タスク: AIは、候補となる設計図の中から正しいものを選択しなければなりません。
- 結果: 一部のAIは驚くほど優秀で、探偵のように振る舞いました。しかし、他のAIは、材料の記述が物理的に妥当であるにもかかわらず、間違った設計図を選んでしまいました。彼らは、もっともらしく聞こえるものの、実際には異なる材料である「惜しい間違い」を選んでしまったのです。

大いなる発見：精度は嘘をつく

この論文の最も重要な発見は、**「正しい数字を出したからといって、そのAIを信頼してはいけない」**ということです。

ある学生がテストを受けている場面を想像してください。

学生Aは、90%の正解を出しますが、同じ質問をするたびに答えが変わります。
学生Bは、85%の正解ですが、その回答は常に一貫しており、論理的なパターンに従っています。

現在のベンチマークは通常、スコア（90%対85%）だけを見ます。しかし、この論文はこう言います。「待ってください！学生Aは、毎回答えが変わってしまうため、信頼できません。」

研究者たちは、AIを「分布外（Out-of-Distribution）」のデータ（AIが見たことのないサイズ）でテストした際、たとえ生の精度数値が良好に見えても、AIの一貫性や物理法則に従う能力が崩壊することを発見しました。

まとめ

この論文は、科学におけるAIの測定方法には新しい基準が必要であると結論付けています。単に「答えは合っているか？」と問うのではなく、次のように問わなければなりません。

「答えは一貫しているか？」
「物理法則に従っているか？」
「オブジェクトのサイズが変わったときに、ハルシネーションを起こしていないか？」

SCALARベンチマークは、これらのAIモデルをバッテリーや医薬品などの実世界の材料設計に信頼して任せる前に、これら「賢いが、狂っている」瞬間を捉えるために設計されたツールです。これは、AIが原子について語るとき、それが本当に原子について語っているのか、それとも単に科学的に聞こえるだけの物語を作っているだけなのかを確認するための、現実的なチェック機能なのです。

技術要約: 材料科学基盤モデルのための SCALAR ベンチマーク

問題提起

大規模言語モデル（LLM）や基盤モデルは、材料科学的な推論への応用が進んでいる。しかし、物理的に構造化された分布シフト、特に「構造的スケール」の変化下における彼らの振る舞いは、依然として十分に理解されていない。モデルは完全なバルク結晶（単位格子で表される）に対しては特性を正確に予測できる可能性があるが、並進対称性を破る派生した有限構造（ナノ粒子）に関する推論を求められると、しばしば失敗する。

現在の評価は通常、タスクの精度やフォーマットの正確性に焦点を当てており、**クロススケールの一貫性（cross-scale consistency）**を評価することは稀である。このような見落としにより、モデルが局所的には妥当に見えるものの、グローバルな物理的不変量（例：結晶学的対称性、保存制約、およびスケール依存の幾何学的関係）を破る出力を生成することを許してしまっている。このような違反は、**構造的ハルシネーション（structural hallucination）**という、原理に基づいた形態の失敗である。これは、分布シフト下で基礎となる不変量を破ることによって生じる、自信に満ちた物理的に誤った予測を指す。構造的な分布シフト下での失敗を診断するための、同一のオブジェクトを複数のスケールにわたってペアリングした表現と、制御されたアウトオブディストリビューション（OOD）分割を提供するデータセットが不足している。

手法: SCALAR フレームワーク

著者らは、幾何学的スケールの汎化性能と、それが構造的ハルシネーション、一貫性、および推論にどのように結びついているかを評価するために設計されたベンチマーク、SCALAR（Structural Consistency And Logic Across Regimes）を導入する。

1. データセット構築

本データセットは、化学的に多様な結晶材料（水素に富むエネルギー貯蔵システムを含む41種類の元素）のDFT緩和済み単位格子から派生している。

フェーズI（ナノ粒子の構築）: 原単位格子から出発し、 $20 \times 20 \times 20$ のスーパーセルを生成する。有限のナノ粒子は、「球状カービング（spherical carving）」によって作成され、原点を中心とした半径 $R$ 内の原子を保持する。半径は $10 $から$ 30 $Å の範囲であり、数個の原子から18,000個以上の原子（合計$ \approx 100,000$ 構造）に及ぶ構造を作成する。
フェーズII（回転サンプリング）: 向きのバイアスを軽減するため、構造は単位クォータニオンを用いて $SO(3)$ 上でサンプリングされた剛体回転によって拡張される。貪欲なサンプラー（greedy sampler）により、回転間の最小測地線間隔を確保する。
フェーズIII（分割を意識したパーティショニング）: データセットは、トレーニング、インディストリビューション（ID）テスト、およびアウトオブディストリビューション（OOD）テストセットに分割される。
- ID/OOD の分離: ID および OOD セットにおける回転は、排除マージン（ $\epsilon_{ID} = 8^\circ, \epsilon_{OOD} = 8^\circ$ ）および特定のスペーシングパラメータによって、トレーニングセットから厳密に分離されている。
- 半径によるパーティショニング: トレーニングには半径 $\{12, 14, 16, 18, 21, 23, 25, 26, 28\}$ を含み、ID テストには $\{13, 15, 17, 20, 24, 27\}$ を用い、OOD テストではスケール外挿を調査するために極端な半径 $\{10, 11, 29, 30\}$ を使用する。

2. 評価タスク

SCALAR は、モデルの能力の異なる側面を調査するために 3 つのタスクを定義している。

CIF からの特性予測: モデルは、結晶情報ファイル（CIF）が与えられた際に、ナノ粒子の特性（密度、体積、最近接距離）を予測する。
思考の連鎖（CoT）推論: タスク1の変種であり、最終的な予測の前に、明示的かつ物理に基づいた推論ステップを要求する。
逆検索（Inverse Retrieval）: 目標とする特性が与えられたとき、モデルは候補の中から正しい結晶構造を特定しなければならない。

3. 指標

出力は、以下の構造化された指標を通じて評価される。

ハルシネーション率: 物理的制約（例：負の密度）に違反する予測や、自己一貫性の失敗の頻度。
一貫性: $N=5$ 回の独立したクエリにおける数値予測の標準偏差。
推論の質: 半径の変化に伴う予測特性の変化と、真値のデルタとの間のスピアマン順位相関係数。
精度: 数値予測の平均絶対誤差（MAE）。
物理的距離および後悔（Regret）: 逆検索において、目標特性ベクトルと提案された特性ベクトルの正規化された $L_2$ 距離、および選択された候補の劣等性。

主要な結果

多様な基盤モデル（GPT-5 Mini, o3-mini, Grok, Claude, LLaMA 変種を含む）を用いた実験により、重要な知見が得られた。

スケール依存の崩壊: 幾何学的スケールのシフトは、集計された精度からは明らかにならない、物理的推論とクロススケールの一貫性における系統的な失敗を露呈させる。ハルシネーション率と不一致は、数値誤差が緩やかに悪化する場合であっても、OOD スケール下で急激に上昇する。
モデル依存の変動性: パフォーマンスはモデルに強く依存する。例えば、逆検索において、Grok 4.1 Fast は高い Top-1 精度（ID $0.808$, OOD $0.793$）を達成したが、Claude 3 Haiku のような他のモデルは顕著な物理的距離エラーを示した。
材料特異的な感度: エラーは一様ではなく、構造に強く依存する。一部の材料（例： $LiCaH_3$ ）は、OOD レジームにおいて膨大な相対誤差の増加（ $>30\%$ ）や符号の反転を示すが、他の材料は安定している。
思考の連鎖（CoT）のトレードオフ: CoT プロンプティングは異質な結果をもたらす。CoT は多くの場合、数値誤差とハルシネーション率を減少させるが、特定のモデルにおいては一貫性を不安定にしたり、推論の質を低下させたりすることが頻繁にある。中間的な説明の向上が、より安定した、あるいは物理的に一貫した予測へと確実に結びつくわけではない。
逆検索の限界: 正しい候補を選択する高い精度は、物理的な忠実度を保証しない。一部のモデルは、中程度の検索精度にもかかわらず、低い物理的距離（ニアミス・エラー）を維持する一方で、他のモデルは物理的特性と全く一致しない。
ベースライン比較: テキストベースの LLM と、幾何学ネイティブなグラフニューラルネットワーク（例：SchNet, E(3)NN）の両方が、大幅なスケール依存の劣化を示す。GNN は、OOD レジームにおいて MAPE が $\approx 100\%$ から $>300\%$ へと増加することを示した。体積スケーリング則に基づく解析的ベースラインは、強度的特性については良好に機能するが、拡大的特性については失敗する。

意義と主張

本論文は、幾何学的スケールの汎化性能は、精度のみから推論することはできないと主張している。

原理的なハルシネーション: 著者らは、構造的スケールシフト下でのグローバルな物理的不変量を破るエラーは、ターゲットを絞った診断を必要とする、特定の原理に基づいた形態のハルシネーションであると論じている。
診断的価値: SCALAR は、モデル平均の精度指標からは見えない、幾何学的汎化の失敗を診断するための「原理的なレンズ」を提供する。これは、表面的なエラー指標が、構造的および物理的な推論における失敗を系統的に過小評価していることを浮き彫りにしている。
現在のプロンプトの限界: 本研究は、CoT プロンプティングが単調または普遍的に有益な介入ではないことを示している。それは、推論の向上が一貫性の犠牲となるというトレードオフを導入する。
将来の方向性: ハルシネーションを幾何学的および化学的な不一致の結果として捉えることで、SCALAR は、現実的な構造分布シフト下での失敗を診断し、軽減するための設定を提供し、より信頼性の高い材料科学向け基盤モデルの展開への道を開くものである。

著者らは、決定論的なスーパーセル拡張への焦点（無秩序や欠陥の無視）、古典的な幾何学的計算の使用（量子観測量ではないこと）、および CoT フォーマットの不安定性が属性の帰属を困難にする可能性など、制限事項についても明記している。