Robust Physics-Guided Diffusion for Full-Waveform Inversion

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种利用人工智能（AI）和物理定律相结合的新方法，用来给地球内部“拍 CT"。

想象一下，地球是一个巨大的、黑乎乎的洋葱。地质学家想知道洋葱每一层的结构（比如哪里是坚硬的岩石，哪里是松软的泥土，哪里有石油或矿藏），但他们不能把洋葱切开，只能从表面往里面扔石头（地震波），然后听回声。

传统的“听回声”方法（全波形反演，FWI）就像是一个极其挑剔但容易犯错的侦探：

太敏感：如果回声稍微晚了一点点（哪怕是因为石头扔歪了一点点），侦探就会完全搞错方向，以为回声来自完全不同的地方（这叫“周跳”现象）。
太势利：回声里如果有一个特别大的响声（比如浅层的强反射），侦探就会忽略后面那些微弱但重要的声音（深层的弱反射），导致只能看清表面，看不清深处。
容易迷路：因为地球内部太复杂，侦探很容易走进死胡同（陷入局部最优解），以为找到了答案，其实离真相还很远。

这篇论文提出的新方法，就像给这位侦探配了一位经验丰富的“老向导”（AI 先验），并给侦探换了一副更聪明的眼镜（物理引导的扩散模型）。

核心创意：三个关键改进

1. 给回声“降噪”和“平衡音量”（基于最优传输的势函数）

旧问题：就像在嘈杂的房间里听人说话，如果旁边有人大喊大叫，你就听不清别人在说什么。传统方法会被巨大的回声（强振幅）带偏。
新办法：作者设计了一种**“智能音量调节器”**。
- 它会自动把那些震耳欲聋的大声音调小，把那些细若游丝的小声音调大，让所有声音在一个公平的音量下被比较。
- 它不再纠结于“回声是不是早了 0.01 秒”，而是看“回声的整体形状和节奏对不对”。这就像比较两首曲子，不再死扣每一个音符的精确时间，而是看旋律的走向是否一致。
- 比喻：以前是拿着放大镜死扣每一个字有没有写错；现在是拿着望远镜看整幅画的构图对不对。

2. 让 AI 向导“边走边看”（预条件引导扩散）

旧问题：传统的 AI 方法（扩散模型）在还原图像时，就像是一个人在黑暗中慢慢摸索。刚开始摸索时，它脑子里全是杂乱的噪点（像雪花屏），这时候如果强行让它根据回声去修正，它可能会因为太乱而越改越错。
新办法：作者发明了一种**“自适应步伐”**。
- 起步时（画面很乱时）：向导会非常谨慎，步子迈得很小，主要靠 AI 脑子里的“常识”（先验知识）来构建大概的轮廓，不敢乱动。
- 后期（画面清晰时）：当轮廓出来后，向导会加大步伐，根据回声数据强力修正细节。
- 空间自适应：地球不同地方的“回声”清晰度不一样。有些地方（浅层）回声很清晰，向导可以大胆修正；有些地方（深层）回声很模糊，向导就会小心翼翼，避免把模糊的地方改错。
- 比喻：就像画素描。刚开始画草图时，手要轻，主要定大结构；等轮廓出来了，再用力去刻画细节。而且，画清晰的地方用力大，画模糊的地方用力轻。

3. 一个模型走天下（混合模型）

旧问题：以前的 AI 模型通常只见过一种类型的地质结构（比如只见过弯曲的层，没见过断裂的层）。如果遇到了没见过的结构，它就傻眼了。
新办法：作者训练了一个**“博学家”模型**，让它同时学习各种各样的地质结构（弯曲的、断裂的、平坦的）。
- 结果：即使遇到从未见过的复杂地质（比如著名的 Marmousi2 模型），这个“博学家”也能凭借学到的广泛经验，画出不错的图。
- 比喻：以前是只教学生认“苹果”，学生看到“梨”就认不出来了；现在是教学生认“所有的水果”，他看到没见过的“梨”也能猜出个八九不离十。

总结：这有什么用？

简单来说，这篇论文做了一件**“让 AI 既懂物理，又懂常识”**的事情：

更准：能更清晰地还原地球深处的结构，特别是那些以前看不清的断层和复杂界面。
更稳：即使数据里有噪音，或者回声时间有点偏差，它也不会像传统方法那样彻底崩溃。
更通用：不需要为每一种地质情况重新训练 AI，一个通用的模型就能应对多种复杂的地下环境。

一句话概括：这就好比给地质勘探装上了一个**“既懂物理规律，又有丰富经验，还能根据情况灵活调整策略”的超级 AI 助手**，让给地球“拍 CT"变得更清晰、更可靠、更聪明。

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于全波形反演（Full-Waveform Inversion, FWI）的学术论文，提出了一种鲁棒的物理引导扩散框架（Robust Physics-Guided Diffusion Framework）。该框架结合了基于分数的生成先验（Score-based Generative Prior）与基于物理的似然引导，旨在解决传统 FWI 中存在的非凸性、周期跳跃（Cycle-skipping）以及振幅不平衡等核心难题。

以下是对该论文的详细技术总结：

1. 研究背景与问题定义

全波形反演 (FWI)：旨在从地震波场观测数据中反演地下介质参数（如波速）。这是一个由偏微分方程（PDE）约束的非线性病态逆问题。
核心挑战：
1. 非凸性与周期跳跃：传统的点wise $\ell_2$ 损失函数对时间/相位的小偏移极其敏感，导致目标函数 landscape 存在大量局部极小值，迭代算法容易陷入错误的相位对齐（周期跳跃）。
2. 振幅不平衡：地震记录中，早期到达的强振幅信号往往主导了损失函数及其梯度，导致弱振幅信号（通常包含深层或照明不足区域的信息）被忽略。
3. 空间敏感性差异：由于照明几何的限制，FWI 对模型不同区域的敏感度差异巨大，单一的标量引导步长难以平衡更新。
4. 先验建模：传统方法依赖正则化，而生成式模型（如扩散模型）提供了学习复杂地质结构先验的新途径，但如何将其与物理约束有效结合仍是难点。

2. 方法论：OT-WE-PDPS

作者提出了一种名为 OT-WE-PDPS（OT-guided Wavefield-Enhanced Preconditioned Diffusion Posterior Sampling）的方法，主要包含以下三个核心创新模块：

A. 基于最优传输（OT）的数据一致性势函数

为了替代传统的 $\ell_2$ 损失，作者设计了一个鲁棒的似然势函数 $\Phi(v) = J(v)$ ：

有界自适应振幅加权：引入一个基于观测数据振幅的权重函数 $\omega(s, r, t)$ 。该权重随振幅增大而减小，从而抑制强振幅早期信号的过度主导，同时保留弱振幅信号的信息。
基于 Wasserstein-2 距离的度量：将加权后的地震波形转换为概率密度函数（PDF），利用一维 Wasserstein-2 距离（通过分位数函数计算）来衡量合成数据与观测数据的差异。这种度量方式对时间/相位偏移具有鲁棒性，有效缓解了周期跳跃问题。
观测依赖的归一化：引入一个仅依赖于观测数据的尺度因子，对损失函数进行归一化，改善数值条件并减少步长调参的敏感性。

B. 自适应变度量引导机制 (Preconditioned Guidance)

在扩散后验采样（DPS）的反向过程中，作者用变度量（对角）预条件器 $P_i = \rho_i D_i$ 替代了传统的标量引导步长：

噪声感知标量调度 ( $\rho_i$ )：基于当前去噪估计的总变差（TV）指标动态调整引导强度。在反向扩散早期（估计粗糙、噪声大）降低引导强度以防止不稳定；在后期（估计平滑）增强引导以贴合数据。
空间对角缩放 ( $D_i$ )：根据当前损失函数梯度的空间分布构建对角矩阵。在梯度小（照明不足）的区域增大步长，在梯度大（照明充足）的区域减小步长，从而平衡空间更新，解决敏感性不均问题。

C. 物理引导的扩散采样流程

先验学习：使用 U-Net 网络训练基于分数的生成模型（Score-based Model），仅使用速度模型样本训练，无需成对的波场 - 速度数据，也不在训练循环中嵌入正演求解器。
反向采样：在推理阶段，结合学习到的先验分数场 $\nabla \log p(v)$ 和上述 OT 势函数的梯度 $\nabla \Phi(v)$ ，通过预条件的随机微分方程（SDE）进行反向扩散采样，生成后验分布的样本。

3. 主要贡献

鲁棒的 OT 数据一致性势：首次将振幅自适应加权与 Wasserstein 距离结合用于 FWI 的扩散引导，显著降低了周期跳跃风险并平衡了振幅影响。
自适应变度量引导：提出了结合噪声感知调度和空间自适应缩放的预条件引导方案，比标准 DPS 更稳定、高效，特别适应 FWI 的非均匀敏感性。
解耦的先验训练：实现了先验训练与正演算子的解耦，使得训练好的模型可以应用于不同的采集几何和物理设置，无需重新训练。

4. 实验结果

作者在 OpenFWI 基准数据集（包括 CurveVel, FlatFault, CurveFault 等复杂地质模型）上进行了广泛测试：

定量指标：相比确定性优化基线（如 $W_2+TV$ ）和标准 DPS（使用 $\ell_2$ 损失），提出的方法在相对 $\ell_2$ 误差、PSNR 和 SSIM 指标上均取得了显著优势。例如，在 CurveVel-B 上，相对误差从 DPS 的 15.70% 降至 2.04%。
定性效果：重建图像能更清晰地恢复断层、弯曲界面等复杂结构，且伪影更少。
消融实验：证明了“波场增强（OT+ 加权）”和“预条件引导”两个组件单独使用时均有提升，结合使用时效果最佳。
鲁棒性：
- 抗噪性：在高达 5% 的高斯噪声下，重建质量依然保持稳健。
- 泛化性：在改变震源频率、接收器深度、震源数量等正演算子配置下，无需重新训练先验网络即可保持高质量重建。
- 跨数据集泛化：使用混合数据集训练的模型在未见过的 Marmousi2 数据集上也能取得良好的重建效果。

5. 意义与结论

理论意义：将最优传输理论、生成式先验和物理引导扩散模型有机结合，为处理强非凸、病态的地球物理反演问题提供了新的数学框架。
应用价值：该方法显著提高了全波形反演的重建质量和稳定性，特别是在初始模型不准或数据质量较差的情况下。其“先验与正演解耦”的特性极大地提高了方法的实用性和泛化能力，降低了实际应用中重新训练模型的门槛。
未来展望：论文指出未来工作将集中在降低物理引导的计算成本（如多保真度代理策略）以及扩展到更复杂的弹性、各向异性及三维介质模型。

总结：这篇论文提出了一种创新的物理引导扩散反演方法，通过引入最优传输损失和自适应预条件机制，有效克服了传统 FWI 和现有扩散方法中的关键缺陷，在多个基准测试中展现了超越现有最先进方法（SOTA）的性能。