以下是用通俗语言和日常类比对该论文的解读。

全景图：绘制隐藏的形状

想象你试图绘制一座神秘、看不见的岛屿的地图。你知道岛屿存在，但看不见它。你只知道：如果你踩在某些地方，就会沉入水中（塑性变形）；如果你踩在其他地方，就能留在干燥的陆地上（弹性行为）。水与陆地的交界线被称为屈服面。

在材料科学领域，这个“岛屿”存在于一个复杂的六维空间中（人类无法直观想象）。为了了解这座岛屿的模样，科学家通常必须派出“侦察兵”去测试特定点。然而，逐个派遣侦察兵速度很慢，随机派遣则效率低下——你可能在平坦的沙滩上测试十次，却错过了崎岖的悬崖。

本文提出了一种更聪明的派遣侦察兵的方法。

问题：“再训练”瓶颈

研究人员使用计算机程序（机器学习模型）来推测岛屿的形状。

旧方法（顺序式）：计算机选择一个点，派遣一名侦察兵，获得答案，更新地图，再选下一个点，再次更新地图，如此循环。
- 类比：想象一位老师每当学生提问就停下来重写整个教学计划。虽然准确，但耗时极长，因为老师不断停下来重写。
问题：在这个特定领域，“更新地图”（重新训练计算机模型）非常昂贵且耗时。如果你需要这样做 200 次，项目就会拖沓不堪。

解决方案：“多样性感知”小队

作者提出了一种名为批量主动学习的新策略。他们不再一次挑选一名侦察兵，而是挑选一整队（一个“批次”）侦察兵同时派出。

然而，这里有一个陷阱：如果你只挑选 5 个最让人困惑的点，你的队伍可能会全部站在同一个小水坑里，给你五次相同的答案。这被称为冗余。

为了解决这个问题，作者创建了一个**“多样性感知”**系统。这就像一位团队队长，在挑选小队时遵循两条规则：

规则 1（不确定性）：“挑选我们当前地图最困惑的地方。”（这就是“委员会查询”部分：想象一群专家在争论岛屿的位置；如果他们意见不一，那里就是值得探索的地方）。
规则 2（多样性）：“确保这支小队中的侦察兵分布均匀。”（这就是“余弦相似度”部分：如果侦察兵 A 向北走，就不要派侦察兵 B 去北北东方向。派他们向东或向南走）。

实际运作方式

研究人员在一种模拟材料上测试了这种方法（使用称为希尔准则的数学公式作为“真理讲述者”）。

设置：他们从一个小的随机地图开始。
过程：
- 他们要求计算机挑选 2、3 或 4 个新的测试方向。
- 计算机确保这些方向彼此相距甚远（具有多样性），但仍位于计算机不确定的区域（具有信息量）。
- 他们同时派出所有这些侦察兵。
- 一旦答案返回，他们就为整个批次一次性更新地图。

结果：更快的地图，同样的精度

该论文发现了三个主要结论：

质量无损：派遣一支侦察兵小队并没有使地图变差。最终结果与逐个派遣侦察兵一样准确。
巨大的时间节省：因为他们每 2、3 或 4 名侦察兵只需“重写一次教学计划”（重新训练模型），所以过程快得多。
- 类比：如果老师为 100 名学生重写 100 次教学计划，需要很长时间。但如果老师为每组 4 名学生重写 25 次，班级完成时间缩短为四分之一，而学生学得一样好。
无聚集：“多样性”规则完美奏效。侦察兵没有挤在同一个地方；他们均匀地探索了整个岛屿。

为何这很重要

在现实世界中，获取“地面真实”数据（来自侦察兵的答案）通常需要运行昂贵的高科技计算机模拟，耗时数小时甚至数天。

顺序式：运行 1 次模拟 -> 等待 -> 更新模型 -> 运行 1 次模拟 -> 等待……（非常慢）。
批量模式：同时运行 4 次模拟（在不同计算机上） -> 等待 -> 一次性更新模型。

通过使用这种“多样性感知”的批量策略，科学家可以更快地建立准确的材料行为模型，而无需浪费时间反复测试相同的内容。论文结论指出，这是一种高效采样复杂应力空间的方法，特别是缩短了求解这些问题所需的时间。

技术摘要：面向本构建模的多样性感知批量模式主动学习

问题陈述

在数据驱动的本构建模中，特别是针对弹塑性材料，其目标是学习屈服函数——即在通常六维的高维应力空间中分隔弹性与塑性区域的流形。传统的静态采样策略（例如均匀采样或固定加载方向）在高维空间中往往效率低下，导致在已充分解析的区域出现冗余评估，而在复杂区域覆盖不足。

虽然主动学习（AL）通过自适应选择信息丰富的数据点解决了这一问题，但标准的 AL 方法通常是串行的：查询单个点后立即重新训练模型。当模型重新训练成本高昂时，这种串行性质会带来巨大的计算开销。尽管批量模式 AL（每轮迭代选择多个点）在更广泛的机器学习中存在，但其在本构建模中的应用却寥寥无几。现有的批量方法往往缺乏确保所选批次内多样性的机制，导致查询在特定区域聚集，从而产生冗余的信息增益。

方法论

作者提出了一种**多样性感知的批量模式委员会查询（QBC）**主动学习策略，旨在以最低成本生成最大信息量。该方法整合了以下组件：

代理模型（机器学习屈服函数）：
- 使用带有径向基函数（RBF）核的**支持向量分类器（SVC）**来近似屈服面。
- 该问题被构建为二分类任务：将应力状态分类为弹性（ $f(\sigma) < 0$ ）或塑性（ $f(\sigma) \geq 0$ ）。
- 真实标签使用希尔各向异性屈服准则作为参考神谕生成。对于给定的加载方向，神谕确定屈服起始点，并根据相对于该起始点的径向缩放对点进行标记。
基于委员会的不确定性（QBC）：
- 在当前的数据集上训练一个包含 $N$ 个 SVC 模型的委员会。
- 委员会内部的多样性是通过让每个成员在不同的随机 80% 数据划分上进行训练来诱导的。
- 不确定性通过在候选加载方向上固定的探测应力水平处，量化委员会预测结果的方差来衡量。高方差表明模型不确定的区域（即屈服面附近）。
多样性感知的批量选择：
- 为了每轮迭代选择 $b$ $b$ 个方向，作者引入了一种平衡不确定性和多样性的两步选择过程：
  - 第一个方向： 通过最大化委员会方差（标准 QBC）进行选择。
  - 后续方向（ $i = 2 \dots b$ ）： 通过最小化组合目标函数 $\text{Var}(\hat{\sigma}) \times D_i(\hat{\sigma})$ 进行选择。
- 多样性项（ $D_i$ ）基于余弦相似度。它惩罚那些与当前批次中已选方向在角度上相似的候选方向。具体而言， $D_i(\hat{\sigma}) = -1 + \sum_{j=1}^{i-1} (\hat{\sigma} \cdot \hat{\sigma}_j^*)$ 。
- 该机制确保了虽然批次针对高不确定性区域，但批次内选定的点在几何上是 distinct 的，从而防止冗余。

主要贡献

新颖的选择标准： 本文引入了一种基于余弦相似度的指标，作为 QBC 中不确定性标准的补充。这使得每轮迭代能够选择多个信息丰富且非冗余的查询。
高效的批量模式实现： 该策略能够并发生成信息丰富的数据集，并减少机器学习重新训练的周期数，这在重新训练计算成本高昂时至关重要。
本构建模中的基准测试： 该方法在数据驱动本构建模的应力空间采样中经过了严格的基准测试，证明了在不同批量大小（ $b=2, 3, 4$ ）下的鲁棒性。

结果

所提出的方法在保留的测试集上使用 Matthew 相关系数（MCC）与仅基于方差的串行基线进行了评估。

批次内多样性： 该策略成功保持了高批次内多样性。对于批量大小 $b=2$ ，选定方向之间的平均余弦距离显著高于随机对（均值 $\approx 1.62$ ）。对于 $b=3$ 和 $b=4$ 也保持了类似的多样性，尽管几何约束自然降低了批次中后续选择的边际多样性。
不确定性降低： 该方法在早期迭代中迅速降低了委员会方差（不确定性），随着屈服面被学习，方差稳定在接近零的水平。这种降低并未牺牲方向探索。
查询效率与更新效率：
- 查询效率： 批量模式采样保留了串行 AL 的样本效率。对于固定数量的神谕查询，批量模式和串行方法实现了可比的 MCC 值。
- 更新效率： 当以重新训练周期（迭代次数）衡量时，批量模式采样显著优于串行 AL。较大的批次（ $b=3, 4$ ）在相同数量的重新训练周期下实现了更高的 MCC，有效地使每次昂贵的模型更新所获得的信息量翻倍或翻三倍。
冗余分析： 全局冗余检查（附录 A）证实，即使对于较大的批量大小，选定的方向也不会坍缩为重复查询。近重复对（余弦相似度 $\geq 0.90$ ）的比例保持在较低水平（ $< 2.7\%$ ）。

意义与主张

本文主张，所提出的多样性感知批量模式 QBC 策略是数据驱动本构建模中应力空间采样的高效策略。其主要意义在于：

缩短求解时间： 通过减少昂贵的重新训练周期，该方法显著降低了墙钟时间，特别是在模型重新训练主导计算成本的设置中。
实现并行化： 在由仿真驱动的设定中，真实值评估（例如高保真仿真）成本高昂且可以并行化，该方法允许在每个迭代内并发收集数据，提供了进一步节省时间的潜力。
鲁棒性： 该方法对不同批量大小具有鲁棒性，在保持与串行主动学习相当的高预测精度的同时，避免了朴素批量选择的冗余陷阱。

作者指出，虽然基准测试使用了廉价的解析神谕（希尔准则），但该方法是为真实值生成成本高昂的场景设计的。在此类实际应用中，减少重新训练周期以及并行化神谕查询的能力代表了主要的效率提升。研究建议 $b=4$ 为实用的上限，因为更大的批次会增加冗余风险，并可能延迟模型偏差的修正。

Diversity-Aware Batch-Mode Active Learning for Efficient Sampling in Data-Driven Constitutive Modeling