Looking Into the Water by Unsupervised Learning of the Surface Shape

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个非常有趣的问题：如何透过波光粼粼的水面，看清水底原本的样子？

想象一下，你站在岸边或者坐在无人机上往下看，水里的鱼、珊瑚或者沉船看起来总是扭曲、晃动，甚至模糊不清。这是因为光线在穿过空气和水面的交界处时发生了折射（就像把筷子插进水里看起来弯了一样），而且水面还在不停地波动，导致这种扭曲每时每刻都在变。

这篇论文提出了一种聪明的方法，不需要提前知道水底长什么样，也不需要复杂的物理公式计算，就能把水底“修”得清清楚楚，甚至还能算出水面的波浪有多高。

我们可以用几个生活中的比喻来理解这项技术：

1. 核心难题：像透过晃动的哈哈镜看世界

通常，如果你想修图，你需要一张“标准答案”（比如一张清晰的照片）来对比。但在看水底时，我们手里只有一堆扭曲的照片，而且没有“标准答案”。
这就好比你透过一面不断晃动的哈哈镜看后面的画，镜子里的画一会儿被拉长，一会儿被压扁。传统的电脑程序很难猜出原画是什么样，因为它们不知道镜子是怎么晃的。

2. 他们的解决方案：两个“超级大脑”联手

作者设计了一个基于**人工智能（神经网络）**的系统，它由两个“大脑”组成，它们像两个配合默契的侦探：

大脑 A（水面侦探）： 它的工作是猜水面的形状。
- 它看着每一帧画面，试图想象：“这一瞬间，水面是像波浪一样起伏，还是像涟漪一样荡漾？”
- 它不仅能猜出水面有多高，还能算出水面倾斜的角度（就像猜出镜子是往左歪还是往右歪）。
大脑 B（水底画家）： 它的工作是画出水底原本的样子。
- 它手里有一张“空白画布”，试图画出水底那个静止的、完美的图像。

它们是怎么合作的？
这两个大脑在玩一个“猜谜游戏”：

大脑 B 先画出一张它认为的水底原图。
大脑 A 根据它猜出的水面形状，把这张原图“扭曲”一下，模拟成我们在水面上实际看到的样子。
然后，把模拟出来的扭曲图和真实拍摄到的扭曲图放在一起对比。
如果不一样，两个大脑就互相调整：大脑 A 会想“我猜的水面形状不对”，大脑 B 会想“我画的底图不对”。
它们不断重复这个过程，直到模拟出来的扭曲图和真实照片几乎一模一样。这时候，大脑 B 画出的“水底原图”就是我们要的清晰画面了！

3. 为什么这个方法很厉害？（SIREN 魔法）

论文里提到了一种叫 SIREN 的技术。你可以把它想象成一种超级细腻的画笔。

普通的画笔画波浪可能是一格一格的，不够平滑。
SIREN 这种“魔法画笔”擅长处理连续的信号和变化率。因为水面的波动是连续的，而且光线折射和水面的**倾斜度（斜率）**直接相关，SIREN 能非常精准地同时画出“水面高度”和“水面倾斜度”，这让它的预测非常准，而且训练速度很快。

4. 成果展示：从“乱麻”到“清晰”

去扭曲： 他们把水底那些弯弯曲曲的数字、网格、大象图案都“拉直”了，就像把揉皱的纸展平一样。
测波浪： 最酷的是，除了把图修好，他们还能顺便算出水面的波浪有多高。这就像你不仅修好了照片，还顺便给海浪做了个体检报告。
无需老师教： 以前的方法需要给电脑看成千上万张“扭曲图 + 清晰图”的配对来教它（监督学习），但这在现实中很难做到。他们的方法不需要老师，只需要给电脑看一段视频，让它自己通过“猜谜”学会怎么修图（无监督学习）。

5. 这有什么用？

想象一下未来的场景：

无人机巡海： 无人机飞过海面，自动把水下的珊瑚礁、鱼群看得清清楚楚，帮助科学家监测珊瑚白化或鱼群数量。
救生员： 在游泳池或海边，无人机可以透过波动的水面，快速发现溺水者，不再受水面波纹的干扰。
海洋工程： 检查水下管道或设施时，不再需要潜水员下水，直接在空中就能看清细节。

总结

简单来说，这篇论文就是发明了一套**“透过波动水面看清水底”的 AI 魔法**。它不需要提前知道水底长什么样，而是通过观察水面波动的规律，利用两个 AI 模型互相“猜谜”和“纠错”，最终把扭曲的画面还原成清晰的原貌，还能顺便告诉你水面波浪的形状。这对于海洋研究、环境监测和水上安全来说，是一个巨大的进步。

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为**"Looking Into the Water"**的无监督学习方法，旨在解决从空中视角观察水下场景时，因水面折射导致的图像失真问题。该方法不仅能恢复清晰的水下图像，还能同时估计水面的高度场。

以下是该论文的详细技术总结：

1. 问题背景 (Problem)

核心挑战：从空中（如无人机）观察水下物体时，空气与水界面的折射（遵循斯涅尔定律，Snell's Law）会导致水下物体的位置和形状发生严重扭曲。这种扭曲直接取决于水面的形状（梯度）。
现有局限：
- 监督学习：由于真实世界的水面波浪是多种波源、不同周期和振幅的叠加，且缺乏大规模的真实水下场景及其对应的“真值”（Ground Truth）数据，监督学习方法难以泛化到现实场景。
- 现有无监督方法：之前的无监督方法（如 NDIR）通常训练复杂，且无法直接提供水面高度的估计，仅关注图像恢复。
目标：利用短序列的失真图像，无监督地恢复原始清晰的水下场景，并重建每一帧的水面高度。

2. 方法论 (Methodology)

该方法基于隐式神经表示（Implicit Neural Representations），特别是使用SIREN（带有周期性激活函数的多层感知机）网络。

2.1 核心假设

水下场景是静态的平面场景，位于未知深度 $h_0$ 处。
相机位于空气中，正交于水面（近似假设）。
水面波动较小（相对于平均水深）。
输入是一系列从同一视角拍摄的视频帧。

2.2 网络架构

模型包含两个主要的 SIREN 网络：

水面高度模型 ( $H_\theta$ )：
- 输入：二维空间位置 $x$ 和时间 $t$ 。
- 输出：该位置和时间的水面高度 $h(x, t)$ 。
- 利用 SIREN 的特性，可以直接计算输出的空间梯度 $\nabla h(x, t)$ ，这对于计算折射偏移至关重要。
图像模型 ( $I_\phi$ )：
- 输入：二维空间位置 $x$ （使用随机傅里叶特征进行位置编码）。
- 输出：该位置在去失真图像中的像素颜色 $I_\phi(x)$ 。

2.3 物理建模与重建过程

折射偏移计算：根据斯涅尔定律的一阶近似，像素的畸变偏移量 $d(x, t)$ 与水面高度及其梯度直接相关：
$d(x, t) = \left(1 - \frac{1}{n}\right) h_0 \nabla h(x, t)$
其中 $n$ 是相对折射率， $h_0$ 是平均水深。
图像合成：
- 对于每一帧 $t$ ，利用 $H_\theta$ 预测高度并计算梯度，进而得到畸变场 $d(x, t)$ 。
- 将畸变场应用于图像模型 $I_\phi$ 的采样位置： $I^t_{\theta, \phi} = I_\phi(x_{reg} + d(H_\theta(x_{reg}, t)))$ 。
- 生成的图像 $I^t_{\theta, \phi}$ 应与观测到的失真图像 $I^t$ 尽可能一致。

2.4 训练策略

采用两阶段无监督训练：

初始化阶段：训练 $H_\theta$ 输出零畸变（高度为常数），训练 $I_\phi$ 预测输入图像的平均值。
重建阶段：最小化重建图像与观测图像之间的差异（L1 损失）：
$L(\theta, \phi) = \sum_t |I^t_{\theta, \phi} - I^t|$
这种方法比之前的无监督方法（如 NDIR 需要三个损失项）更简化，且利用了 SIREN 对信号及其导数建模的天然优势。

3. 主要贡献 (Key Contributions)

统一的无监督框架：提出了一种基于神经场（Neural Fields）的无监督方法，同时恢复水下场景和水面高度，无需成对的训练数据。
SIREN 的有效应用：证明了使用周期性激活函数（SIREN）的隐式神经表示非常适合建模水面高度的时空信号及其导数（梯度），从而精确计算折射偏移。
简化的训练流程：相比之前的无监督方法，该方法仅需单一的重建损失项即可达到更好的效果，且能直接输出物理意义明确的水面高度图。
性能超越：在真实数据集（Real1, TianSet）和合成数据集上，该方法在图像恢复质量（PSNR, SSIM, LPIPS）和水面估计精度上均优于最新的无监督方法（NDIR）和部分监督方法。

4. 实验结果 (Results)

数据集：使用了 James Real1（真实水下视频，含运动模糊）、TianSet（真实数据）以及基于波浪方程生成的合成数据集。
图像恢复：
- 在 Real1 数据集上，该方法在大多数序列中取得了最佳的 LPIPS（感知质量）和 SSIM 分数。
- 定性结果显示，该方法能更清晰地恢复细节（如数字、网格线、骰子上的文字），且直线更直，畸变更少。
- 即使在假设不完全满足（如非正交相机、复杂几何物体、运动模糊）的真实场景中（如珊瑚缸），方法仍表现出鲁棒性。
水面估计：
- 在合成数据集中，水面高度估计的 RMSE 为 0.115，Abs Rel 为 0.0635，与现有方法持平。
- 能够重建随时间演变的波浪形态，且与真值高度吻合。
消融实验：
- 证明了同时建模表面高度和时空信息的重要性。
- 证明了单一损失项（仅重建损失）比多损失项组合更有效。
- 证明了位置编码（Positional Encoding）和初始化阶段对性能的提升作用。

5. 意义与影响 (Significance)

科学价值：为海洋科学、珊瑚礁监测（如白化评估）和海岸工程提供了从空中视角获取清晰水下数据的工具。
应用前景：随着无人机技术的普及，该方法可广泛应用于鱼场监控、溺水检测（海洋及游泳池）、水下设施检查等。
技术启示：展示了物理先验（斯涅尔定律）与神经隐式表示（SIREN）结合的强大能力，为处理涉及复杂物理过程的图像恢复问题提供了新思路。
伦理考量：论文也指出了潜在风险，如未经授权的水下监视或对安全关键场景的误读，呼吁负责任地部署该技术。

总结：这篇论文通过巧妙结合物理光学模型（斯涅尔定律）和先进的神经表示技术（SIREN），成功解决了一个极具挑战性的水下图像复原问题，实现了在无监督条件下同时恢复清晰图像和水面形态，显著优于现有方法。