🔬 materials science

SCALAR: Quantifying Structural Hallucination, Consistency, and Reasoning Gaps in Materials Foundation Models

本文介绍了 SCALAR，这是一个旨在评估材料基础模型如何处理多样化纳米颗粒结构中的几何尺度泛化与结构推理能力的基准测试，研究揭示了虽然显式的基于物理原理的推理可以减少幻觉和错误，但往往会损害输出的一致性与有效性。

原作者： Can Polat, Erchin Serpedin, Mustafa Kurban, Hasan Kurban

发布于 2026-02-02

📖 1 分钟阅读☕ 轻松阅读

原作者： Can Polat, Erchin Serpedin, Mustafa Kurban, Hasan Kurban

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性，请参阅原始论文。阅读完整免责声明

想象一下，你拥有一位大师级建筑师，他极其擅长阅读完美、无限高层建筑的蓝图。这位建筑师（一种被称为“基础模型”的 AI）仅通过观察蓝图，就能告诉你关于这座建筑材料、强度和设计的一切。

但问题在于，从未有人要求这位建筑师去设计一个用乐高积木搭建的该高层建筑的微缩模型，也从未要求他仅通过手持一块乐高积木来推断出原始高层建筑的长相。

这篇论文引入了一项名为 SCALAR 的新测试，旨在观察这些 AI 建筑师在从“无限高层建筑”跨越到“微型乐高模型”的过程中，是否会由于逻辑断层而“发疯”。

核心问题：“幻觉”陷 될 (The "Hallucination" Trap)

在 AI 世界中，“幻觉”不仅仅是编造事实，而是自信地陈述一些听起来合理但违反物理定律的内容。

可以这样理解：如果你要求人类想象一个由水组成的完美球体，他们知道它是圆的。但如果你要求他们想象一个立方体的水，他们可能会犹豫，因为水不会自然形成立方体。然而，如果一个 AI 被要求想象一个“立方体水晶”，并自信地回答说：“是的，它的棱角分明且密度很高”，那么它就产生了幻觉。它忽略了水分子的运作方式并不支持这种形态。

论文指出，目前的 AI 模型在描述材料的“无限”版本（体相晶体）时表现出色，但在被要求描述“有限”版本（纳米颗粒）时却往往表现糟糕。它们可能数值算对了，但却违反了原子如何结合的底层规则。

测试机制（三大挑战）

研究人员构建了一个包含 10 万种结构的庞大数据集，涵盖了从几个原子到超过 18,000 个原子的各种规模。随后，他们让 AI 通过了三项特定测试：

“缩小视角”测试 (CIF to Property)：
- 设定： 你给 AI 一个完美晶体（“晶胞”）的蓝图。
- 任务： AI 必须预测该晶体被切下的一个微小碎片（“纳米颗粒”）的性质。
- 转折点： AI 必须找出性质是如何随着碎片变大或变小而变化的。
- 结果： 许多 AI 虽然掌握了基础数学，但在理解“趋势”方面失败了。它们无法一致地得出结论，例如：“随着碎片变大，密度应保持不变，”或者“随着碎片变小，表面积会发生变化。”
“出声思考”测试 (Chain-of-Thought)：
- 设定： 研究人员告诉 AI：“不要只给我答案；请使用物理学原理逐步解释你的推理过程。”
- 结果： 这是一把双刃剑。有时，强制 AI “思考”会提高其准确性；但通常情况下，这会让 AI 变得更不一致。它可能在一次尝试中给出完美的解释，但在下一次面对完全相同的问题时，却给出一个截然不同且错误的解释。这就像一个学生，如果让他写下解题步骤，他能完美解决数学题，但如果让他解释“为什么”这么做，他就会陷入混乱。
“反向侦探”测试 (Inverse Retrieval)：
- 设定： 你给出一组属性（例如：“这种材料很重，具有特定的体积，且密度很高”）。
- 任务： AI 必须从一组候选者中选出正确的蓝图。
- 结果： 一些 AI 在这方面表现得非常出色，像侦探一样敏锐。然而，另一些 AI 即使在描述的材料在物理上是合理的，也会选错蓝图。它们找到了一个“看似接近”的选项，虽然听起来没错，但实际上是错误的材料。

重大发现：准确率是一种谎言

这篇论文最重要的发现是：你不能仅仅因为 AI 得到了正确的数字就信任它。

想象一名正在参加考试的学生：

学生 A 做对了 90% 的题目，但每次你问同一个问题时，他的答案都会改变。
学生 B 做对了 85% 的题目，但他的答案始终保持一致，并遵循逻辑模式。

目前的基准测试通常只看分数（90% 对比 85%）。但这篇论文指出：“等等！学生 A 是不可靠的，因为他无法自圆其说。”

研究人员发现，当他们在“分布外”（Out-of-Distribution）数据（即 AI 未曾见过的尺寸规模）上测试 AI 时，即便其原始准确率看起来还不错，其保持一致性和遵循物理定律的能力也会崩溃。

总结

论文的结论是，我们需要一种全新的方式来衡量科学领域的 AI。我们不能只问：“答案对吗？”我们必须问：

“答案是否一致？”
“它是否符合物理定律？”
“当物体尺寸发生变化时，它是否产生了幻觉？”

SCALAR 基准测试是一个旨在捕捉这些“聪明但疯狂”时刻的工具，防止我们在将这些 AI 模型用于设计电池或药物等现实世界材料之前，盲目信任它们。它是一个现实检查，以确保当 AI 谈论原子时，它谈论的是真正的原子，而不是在编造一个听起来很科学的故事。

技术摘要：用于材料基础模型的 SCALAR 基准测试

问题陈述

大语言模型（LLMs）和基础模型正越来越多地应用于材料科学推理。然而，它们在具有物理结构分布偏移（特别是结构尺度变化）下的行为仍难以理解。虽然模型可能能够准确预测完美体相晶体（由晶胞表示）的性质，但当被要求对破坏了平移不变性的衍生有限结构（如纳米颗粒）进行推理时，它们往往会失败。

目前的评估通常侧重于任务准确性或格式正确性，很少评估跨尺度一致性。这种忽视使得模型可能会产生看似局部合理、但违反全局物理不变性（例如晶体对称性、守恒约束和尺度相关几何关系）的输出。此类违规构成了一种原则性的结构幻觉：即由于在分布偏移下违反了底层不变性，导致产生了在物理上错误但看起来自信的预测。目前缺乏能够提供同一对象在多个尺度下的配对表示，并具有受控分布外（OOD）划分的数据集，以诊断这些失效问题。

方法论：SCALAR 框架

作者引入了 SCALAR（Structural Consistency And Logic Across Regimes，跨体制结构一致性与逻辑），这是一个旨在评估几何尺度泛化能力及其与结构幻觉、一致性和推理之间联系的基准测试。

1. 数据集构建

该数据集源自化学多样性丰富的结晶材料（包含 41 种独特元素，包括用于储能的富氢系统）的 DFT 松弛晶胞。

第一阶段（纳米颗粒构建）： 从原胞出发，生成一个 $20 \times 20 \times 20$ 的超晶胞。通过“球形切割”创建有限的纳米颗粒，保留位于以原点为中心、半径为 $R$ 的球体内的原子。半径范围从 $10 $到$ 30 $Å，构建的结构涵盖了从几个原子到超过 18,000 个原子（总计约$ 100,000$ 个结构）。
第二阶段（旋转采样）： 为了减轻方向偏差，使用单位四元数在 $SO(3)$ 上进行刚性旋转增强。贪婪采样器确保旋转之间具有最小的测地距离。
第三阶段（划分感知分区）： 数据集分为训练集、分布内（ID）测试集和分布外（OOD）测试集。
- ID/OOD 分离： ID 和 OOD 集中的旋转通过排除边际（ $\epsilon_{ID} = 8^\circ, \epsilon_{OOD} = 8^\circ$ ）和特定的间距参数，与训练集严格分离。
- 半径分区： 训练集包含半径 $\{12, 14, 16, 18, 21, 23, 25, 26, 28\}$ ；ID 测试集使用 $\{13, 15, 17, 20, 24, 27\}$ ；而 OOD 测试集使用极端半径 $\{10, 11, 29, 30\}$ 以探测尺度外推能力。

2. 评估任务

SCALAR 定义了三个任务来探测模型能力的各个方面：

从 CIF 到性质预测： 模型在给定晶体信息文件（CIF）的情况下，预测纳米颗粒的性质（密度、体积、最近邻距离）。
思维链（CoT）推理： 任务 1 的变体，要求在最终预测之前进行显式的、基于物理原理的推理步骤。
逆向检索： 给定目标性质，模型必须从一组候选结构中识别出正确的晶体结构。

3. 指标

输出通过捕捉以下内容的结构化指标进行评估：

幻觉率： 违反物理约束（例如负密度）或自我一致性失效的预测频率。
一致性： 在 $N=5$ 次独立查询中数值预测的标准差。
推理质量： 预测的性质随半径变化的增量与地面真值增量之间的 Spearman 秩相关系数。
准确度： 数值预测的平均绝对误差（MAE）。
物理距离与遗憾值： 对于逆向检索，目标与提议的性质向量之间的归一化 $L_2$ 距离，以及所选候选者的次优性。

关键结果

对多种基础模型（包括 GPT-5 Mini, o3-mini, Grok, Claude, 以及 LLaMA 变体）的实验揭示了重要发现：

尺度依赖性崩溃： 几何尺度偏移暴露了物理推理和跨尺度一致性方面的系统性失效，这些失效在仅看聚合准确率时是无法察觉的。即使数值误差仅轻微下降，在 OOD 尺度下，幻觉率和不一致性也会急剧增加。
模型依赖性差异： 性能具有高度的模型依赖性。例如，在逆向检索中，Grok 4.1 Fast 实现了高 Top-1 准确率（ID 为 $0.808$，OOD 为 $0.793$），而像 Claude 3 Haiku 这样的模型则表现出显著的物理距离误差。
材料特异性敏感度： 误差并非均匀分布；它们具有强烈的结构依赖性。某些材料（如 $LiCaH_3$ ）在 OOD 状态下表现出巨大的相对误差增加（ $>30\%$ ）或符号反转，而其他材料则保持稳定。
思维链（CoT）权衡： CoT 提示词产生了异质性的结果。虽然它通常能降低数值误差和幻觉率，但它经常会破坏一致性或降低特定模型的推理质量。中间解释的提升并不一定能可靠地转化为更稳定或更符合物理规律的预测。
逆向检索局限性： 高精度的候选者选择并不保证物理保真度。尽管某些模型具有中等的检索准确率，但仍表现出低物理距离（近失误差），而另一些模型则完全无法与物理性质对齐。
基准对比： 基于文本的 LLM 和基于几何的原生图神经网络（如 SchNet, E(3)NN）都表现出显著的尺度依赖性退化，其中 GNN 在 OOD 状态下的 MAPE 从 $\approx 100\%$ 增加到 $>300\%$ 。基于体积缩放律的解析基准在处理强度性质时表现良好，但在处理广延性质时则会失败。

意义与主张

论文声称，几何尺度泛化能力无法仅通过准确率来推断。

原则性幻觉： 作者认为，在结构尺度偏移下违反全局物理不变性的错误构成了特定且有原则的幻觉形式，需要进行针对性的诊断。
诊断价值： SCALAR 提供了一个“原则性的视角”，用于诊断那些在模型平均准确率指标中不可见的几何泛化失败。它强调了表面上的误差指标系统性地低估了结构和物理推理方面的失效。
当前提示词的局限性： 研究表明，CoT 提示词并非单调或普遍有益的干预手段；它引入了权衡，即改进的推理可能会以牺牲一致性为代价。
未来方向： 通过将幻觉定义为几何和化学不一致性的后果，SCALAR 提供了一个诊断和缓解在现实结构分布偏移下失效的方法，为实现更可靠的材料科学基础模型部署铺平了道路。

作者明确指出了局限性，包括其数据集专注于确定性的超晶胞扩展（忽略了无序/缺陷）、使用经典几何计算而非量子可观测量，以及 CoT 格式不稳定可能导致归因困难。