想象你是一名侦探，试图破解某款游戏的规则，但你只能看到最终的得分，而且这些得分杂乱无章。这些得分由两部分混合而成：一是游戏的实际结果（取决于隐藏规则），二是大量随机干扰或“噪声”，它们是由有故障的麦克风添加的。

通常，如果你不知道这些干扰（噪声）听起来像什么，你就无法推断出游戏规则。本文提出了一种巧妙的全新方法，能够同时解决这一“双重谜团”。

以下是他们方法的分解，使用了简单的类比：

1. 核心难题：“盲”侦探

在现实世界中，科学家经常构建计算机模型来预测诸如水流经土壤的方式、桥梁的振动或大气的运动等现象。为了让这些模型发挥作用，他们需要设定“旋钮”（参数）。

目标：他们希望确定这些参数的分布。与其猜测单一的设置，他们更想知道一个系统群体（例如成千上万座不同的桥梁或土壤样本）可能拥有的完整设置范围。
障碍：他们收集的数据是“受损”的。这就像通过一台充满不良干扰的收音机听歌。如果不知道干扰（噪声）听起来像什么，就无法分辨歌曲中的怪异声音是音乐的一部分，还是仅仅是干扰。这被称为盲反卷积。

2. 解决方案：“群体侦探”

作者们意识到，如果你拥有来自群体（大量相似系统的集合）的数据，你就可以同时解决这两个谜团。

想象你有 10,000 个不同的人试图解开一个谜题，但他们每个人都拥有略微不同的拼图块（参数），并且每个人都戴着略微扭曲他们视线的不同眼镜（噪声）。

旧方法：你尝试猜测某一个人的拼图块，同时假设你确切知道他们眼镜扭曲视线的方式。
新方法：你将这 10,000 个人放在一起观察。通过比较他们错误的模式，你可以在数学上“剥离”眼镜的扭曲，从而看清真实的拼图块，同时也能推断出眼镜的样子。

3. 三个关键技巧

本文引入了三个具体技巧，以高效地实现这一目标：

A. “截断梯度”技巧（智能计算器）
为了找到正确答案，计算机通常会尝试一个猜测，检查误差，然后进行调整。但是，当你拥有的数据量有限时（这在现实中总是如此），计算机会被随机波动所迷惑。

比喻：想象在雾中寻找山谷的底部。标准方法可能会因为过于关注眼前的坡度而卡在一个小土包上。
改进：作者发明了一种“截断梯度”方法。这就像计算机说：“我会查看拼图块的坡度，但在计算该坡度时，我会暂时假设噪声设置是冻结的。”这防止了计算机被噪声迷惑，帮助它即使在数据量较小的情况下，也能更快、更可靠地找到山谷的真正底部。

B. “智能导师”（代理模型）
他们试图调优的计算机模型极其缓慢。运行一次模拟可能需要数小时。为了学习规则，通常需要运行数百万次。

比喻：想象一位大师级厨师（真实模型），做一道菜需要 4 小时。你想学习他的食谱，但你无法要求他烹饪 10,000 次。
改进：作者训练了一个“智能导师”（代理模型）。这是一个快速、简单的 AI，它学习模仿这位厨师。
转折：通常，你会用随机食材来训练导师。但在这里，导师是主动训练的。随着侦探越来越接近正确的拼图块，导师将其学习精力仅集中在这些特定的食材上。它忽略那些无关紧要的东西。这使得学习过程变得极其快速。

C. “黑盒”兼容性
许多现实世界的模拟都是“黑盒”——你输入数字，输出数字，但你无法看到内部的数学原理。你无法轻易使用标准数学工具来调整它们。

比喻：厨师的厨房是锁着的。你看不到炉灶或烤箱。
改进：由于“智能导师”是现代 AI（神经网络），它是可微分的（数学上平滑的）。作者可以利用这个快速的导师来承担推断规则的重任，即使原始的“黑盒”厨师过于复杂而无法直接触碰。

4. 测试领域

作者通过在三个截然不同的物理世界中应用该方法，证明了其有效性：

土壤中的水：即使水压读数充满噪声，也能确定土壤的孔隙度。
振动梁：即使传感器接收到相关的静态噪声（随时间和空间变化的噪声），也能确定金属梁的材料属性及其振动方式。
天气模型：仅利用长期平均值，确定混沌天气模型（如 Lorenz 96 模型）的设置，其中的“噪声”源于天气本身的混沌和不可预测性。

总结

简而言之，这篇论文为科学家提供了一套新工具，使他们能够审视来自许多相似系统的杂乱数据集合，并宣称：“我们现在可以同时分离信号与噪声，并推断出系统的隐藏规则。”他们通过发明一种更聪明的梯度计算方法（“截断梯度”）、一种训练专注于关键内容的快速 AI 助手的方法（主动学习），以及一种即使原始计算机代码是“黑盒”也能生效的方法，实现了这一目标。

技术摘要：种群逆问题中的高效反卷积

1. 问题陈述

本文解决了种群逆问题，其目标在于推断支配物理系统的模型参数分布（ $\mu^\dagger$ ），而非单一参数值。这种情况出现在从 $N$ 个不同物理系统（例如制造资产或大气实现）收集数据时，每个系统均由从同一族中抽取的不同参数设置所支配。

该领域的一个关键挑战是盲反卷积：观测噪声分布（ $\eta^\dagger$ ）通常是未知的。传统的逆问题假设噪声特性已知；然而，在种群设置中，噪声会污染参数分布的推前（pushforward），使得参数分布与噪声分布的分离变得困难。该问题因以下因素而加剧：

计算成本：评估前向模型（例如偏微分方程求解器）及其导数的代价高得令人望而却步。
黑盒约束：从业者通常拥有不可微或无法访问自动微分工具的遗留数值代码。
不连续性：在某些系统（例如混沌动力学）中，参数到解的映射可能是不连续的。

目标是利用大量观测数据集，同时学习模型参数的分布和观测噪声的分布。

2. 方法论

作者提出了一个统一框架，结合了反卷积、分布反演和主动学习代理建模。

2.1. 数学表述

数据生成过程建模为：
$y^{(n)} = g \circ F^\dagger(z^{(n)}) + \xi^{(n)}$
其中 $z^{(n)} \sim \mu^\dagger$ （未知参数分布）， $\xi^{(n)} \sim \eta^\dagger$ （未知噪声，假设为高斯分布 $N(0, \Gamma^\dagger)$ ），且 $g \circ F^\dagger$ 为前向算子。观测数据分布 $\nu$ 是噪声与参数分布推前的卷积：
$\nu = \eta^\dagger * (g \circ F^\dagger)^\# \mu^\dagger$

2.2. 损失函数与优化（贡献 C1 与 C2）

为求解未知量，作者定义了基于经验数据测度与生成模型测度之间切片 - 沃瑟斯坦（Sliced-Wasserstein, SW）距离的损失函数。目标是最小化：
$J(\alpha, \Gamma) = \frac{d_y}{2} SW^2_{2, \Gamma}(\nu_N, \eta(\Gamma) * (g \circ F^\dagger)^\# \mu(\alpha)) + h(\alpha) + r(\Gamma)$
其中 $\alpha$ 参数化 $\mu(\alpha)$ ， $\Gamma$ 参数化 $\eta(\Gamma)$ 。

一个关键的理论贡献是引入了**截断梯度（Cut-Gradient）**优化方案。

标准梯度下降：同时计算关于参数分布和噪声协方差的梯度。
截断梯度下降：一种修改后的算法，在计算关于噪声协方差 $\Gamma$ 的梯度时，“截断”（停止）通过距离度量计算中所用噪声项的梯度流（具体而言，在梯度步骤中将度量的预处理矩阵视为固定）。
理论结果：在无限数据极限下（ $N \to \infty$ ），两种方法收敛至相同的全局极小值。然而，在有限数据设置下（ $N < \infty$ ），截断梯度方法被证明对经验化误差（采样噪声）更具鲁棒性，避免了困扰标准梯度方法的缩放依赖性。

2.3. 代理建模（贡献 C3）

为解决计算成本和黑盒约束，前向算子 $F^\dagger$ 被可训练的代理模型 $F^\phi$ （例如傅里叶神经算子或 MLP）所取代。

并发学习：代理参数 $\phi$ 与逆问题参数 $(\alpha, \Gamma)$ 同时学习。
主动学习方案：代理模型在自适应经验测度 $P_t^{z,u}$ 上进行训练。该测度将训练数据获取集中在当前估计 $\mu(\alpha_t)$ 下具有高概率的参数区域。这确保了代理模型在对于当前推断步骤最重要的区域是准确的，从而加速收敛，并使得即使原始代码是黑盒，也能在代理模型上使用自动微分。

3. 主要贡献

本文概述了六项具体贡献：

公式化：一种用于联合反卷积噪声和识别偏微分方程参数分布的正则化概率损失函数。
优化算法：一种修改后的梯度下降（截断梯度），在无限数据极限下理论上等价于标准梯度下降，但在有限样本经验化方面表现出更优越的鲁棒性。
代理训练：一种主动学习方案，专门针对由演化分布估计定义的兴趣参数区域训练代理模型。
多孔介质流（达西）：证明了该算法在不相关和相关噪声场景下对经验化的鲁棒性。
弹性动力学：应用于阻尼弹性动力学，包含三种噪声场景：不相关（稀疏空间/密集时间）、相关（稀疏空间/时间作为不相关学习）和相关（密集空间/时间）。
混沌系统：将该方法适应于混沌系统的时间平均统计量（Lorenz 96 模型），同时学习参数分布和由有限时间平均引起的中心极限定理（CLT）误差的协方差。

4. 实验结果

该方法在三个不同的物理领域进行了测试：

多孔介质流（达西模型）：
- 截断梯度算法在估计噪声方差方面始终优于标准梯度算法，特别是在小数据集（ $N < 1000$ ）的情况下。
- 该方法成功恢复了不相关（缩放单位矩阵）和相关（Whittle-Matérn）噪声的参数，包括噪声幅度、长度尺度和渗透率分布参数的联合估计。
弹性动力学：
- 案例 1（不相关噪声）：成功从高频加速度数据中推断出噪声标准差和材料属性分布参数（幅度和长度尺度）。
- 案例 2（误设噪声）：通过学习不相关噪声模型来近似真实的相干噪声场，展示了鲁棒性，并准确恢复了边缘标准差。
- 案例 3（密集相关噪声）：利用密集时空观测，成功恢复了相关噪声场的幅度和长度尺度以及材料参数。
- 在所有情况下，并发代理学习（使用傅里叶神经算子）使得尽管偏微分方程求解器复杂，仍能进行高效训练。
大气动力学（Lorenz 96）：
- 应用于使用时间平均统计量的单尺度和多尺度混沌模型。
- 该方法成功学习了强迫参数（ $F, h, b$ ）的分布以及由有限时间平均的 CLT 近似产生的噪声协方差矩阵。
- 主动学习方案有效地将训练集中在参数空间的高密度区域，且学习到的协方差矩阵与真实系统的经验协方差高度吻合。

5. 意义与主张

本文声称，这项工作为数据源自物理系统集合的场景提供了一种灵活且广泛适用的推断方案。其主要意义在于：

同时反卷积：能够在无需先验噪声结构知识的情况下，同时学习物理参数分布和未知噪声分布。
鲁棒性：截断梯度算法为有限数据下分布反演中常见的不稳定性提供了实用解决方案。
效率：主动学习代理模型的集成使得该方法能够处理计算昂贵、黑盒或不可微的前向模型，使其适用于现实世界的工程和科学问题（例如制造资产的质量控制、部署系统的监测以及全球环流模型的校准）。

作者总结道，虽然该方法行之有效，但未来的工作可以探索随机微分方程、非高斯噪声模型，以及关于参数可识别性和有限样本性能的更强理论保证。

Efficient Deconvolution in Populational Inverse Problems