Learning Latent Transmission and Glare Maps for Lens Veiling Glare Removal

Each language version is independently generated for its own context, not a direct translation.

这篇论文主要解决了一个让手机和小型相机拍照时“看不清、发灰、有雾”的难题。为了让你轻松理解，我们可以把整个过程想象成**“给一副脏兮兮、起雾的隐形眼镜做清洁和修复”**。

1. 问题的根源：为什么照片会“糊”且“灰”？

想象一下，你戴了一副为了追求轻便而设计得非常薄的隐形眼镜（这就是论文里说的“简化光学系统”，比如手机镜头或 AR 眼镜）。这副眼镜有两个毛病：

镜片本身有点变形（像差）： 就像镜片磨得不够圆，导致看东西边缘是模糊的、变形的。
镜片表面不干净，有灰尘和反光（眩光/Veiling Glare）： 这是论文的重点。因为镜片涂层不完美，外面的杂光（比如路灯、阳光）会在镜片内部乱反射，像一层**“洗不掉的白雾”或者“发灰的滤镜”**罩在画面上。

现状是： 以前的技术只能修好“镜片变形”（把边缘修清晰），但面对这层“白雾”，它们要么束手无策，要么修过头把颜色都搞错了。而且，这层雾是深度无关的（不管物体远近，雾都一样厚），这跟普通的雾霾（离得越远雾越浓）不一样，所以以前的去雾算法不管用。

2. 最大的难点：没有“标准答案”

要教电脑学会修图，通常需要给它看“脏图”和对应的“干净图”（就像老师给学生看错题和正确答案）。

对于变形： 我们可以用电脑模拟出完美的“干净图”。
对于这层“白雾”： 在现实世界里，你没法同时拍一张“有雾的”和“完全没雾的”照片（因为只要开了灯，雾就在那儿）。而且，物理模拟这层雾太复杂、太烧钱，根本造不出足够多的数据来训练 AI。

这就好比： 你想教一个学生怎么擦掉玻璃上的顽固污渍，但你手里没有一张“擦干净后的玻璃”照片做参考，学生根本学不会。

3. 作者的解决方案：两个“超级助手”

为了解决这个问题，作者设计了一套组合拳，包含两个核心部分：

第一步：制造“假”的脏图（VeilGen）—— 像“魔法化妆师”

既然没有真实的“脏图 + 干净图”配对，作者就造了一个AI 生成器（VeilGen）。

它的绝活： 它不像普通 AI 那样瞎猜，而是先“猜”出那层雾是怎么形成的。它会在心里画两张图：一张是**“透光率地图”（哪里雾厚，哪里雾薄），另一张是“眩光分布图”**（光从哪里反射过来）。
工作原理： 它利用这些“心理地图”，把一张干净的图片强行加上逼真的“白雾”和“变形”。
比喻： 就像一位魔法化妆师，它先研究污渍的纹理，然后精准地在干净的照片上“画”出污渍。这样，它就拥有了成千上万张带有“标准答案”的脏图，用来训练修复模型。

第二步：学会“逆向”清洁（DeVeiler）—— 像“逆向工程大师”

有了上面生成的“脏图 + 干净图”数据，作者训练了一个修复网络（DeVeiler）。

它的绝活： 它不是盲目地擦除，而是学习**“逆向过程”**。
核心机制： 当它看到一张脏照片时，它会先像第一步的化妆师一样，反向推测出那两张“心理地图”（哪里雾厚、光从哪来）。然后，它利用这些地图，像解方程一样，把加上去的雾和光精确地减掉。
比喻： 就像一位逆向工程大师。普通清洁工是拿着抹布乱擦（容易擦坏画面），而这位大师会先分析污渍的“配方”（是油还是水？在哪里？），然后调配出专门的溶剂，只溶解污渍，保留原本的画面。

4. 为什么这个方法很厉害？

懂物理，不瞎猜： 以前的 AI 是“黑盒”，只知道输入脏图输出好图，不懂原理。这个方法让 AI 先理解“雾是怎么形成的”，再反过来消除，所以修出来的图颜色更正、细节更清晰。
数据少，效果好： 它不需要海量的真实脏图，只需要很少量的真实照片，配合它自己生成的“假数据”，就能学会处理各种复杂的现实场景。
专治“简化镜头”： 专门针对那些为了轻便而牺牲画质的镜头（如手机、AR 眼镜、无人机），让这些小设备也能拍出大片感。

总结

这就好比：

以前： 镜头脏了，我们只能大概擦一下，要么擦不干净，要么把脸擦花了。
现在： 作者发明了一个**“智能清洁机器人”**。它先通过“魔法”学会了怎么制造各种各样的污渍（VeilGen），然后学会了如何分析污渍的“成分表”，最后用“逆向思维”把污渍精准地分解掉（DeVeiler）。

最终，哪怕是用最简陋的镜头，也能拍出清晰、通透、没有“白雾”干扰的高质量照片。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题定义 (Problem)

背景：
随着增强现实（AR/VR）、移动摄影等应用对成像系统小型化、高性能化的需求增加，简化光学系统（如单透镜、金属透镜）变得日益重要。然而，这类系统受限于设计权衡和低成本制造，不可避免地存在光学像差（Aberrations）。此外，非理想的光学表面和涂层会导致杂散光散射，形成蒙雾眩光（Veiling Glare）。

核心问题：
蒙雾眩光表现为一种广泛、弥散的“面纱”，会降低图像对比度并导致色彩偏移，这与结构化的镜头光斑（Flare）或鬼影（Ghosting）不同。

复合退化（Compound Degradation）： 在实际场景中，像差和蒙雾眩光往往同时存在，形成复杂的复合退化。
现有方法的局限性：
- 传统的计算像差校正（CAC）无法恢复由散射引起的对比度损失。
- 现有的去雾（Dehazing）或去光斑（Flare Removal）方法基于不兼容的物理模型（如大气散射模型或结构化光斑模型），无法有效处理镜头内部产生的、与深度无关的蒙雾眩光。
- 数据匮乏： 由于缺乏精确的光机模型和昂贵的非序列光线追踪计算，难以通过物理仿真生成高质量的“退化 - 清晰”成对数据，导致数据驱动的方法难以训练。

2. 方法论 (Methodology)

作者提出了一个物理信息驱动的两阶段框架：VeilGen（用于数据生成）和 DeVeiler（用于图像恢复）。

2.1 核心物理模型

退化过程被建模为两个步骤：

像差模糊： 清晰图像 $I_c$ 与点扩散函数（PSF） $K$ 卷积。
蒙雾眩光： 模糊图像经过传输图（Transmission Map, $T$ ）衰减，并叠加眩光图（Glare Map, $I_g$ ）。
公式表达为：
$I_{de} = (I_c \otimes K) \cdot T + I_g$
其中 $T$ 代表局部对比度衰减， $I_g$ 代表弥散的眩光。

2.2 阶段一：VeilGen - 物理信息生成模型

为了解决数据匮乏问题，作者提出了 VeilGen，一个基于稳定扩散（Stable Diffusion, SD）的生成模型，用于合成逼真的复合退化数据。

潜在光学传输与眩光图预测器 (LOTGMP)： 这是一个关键模块，它在扩散去噪过程中，从目标退化图像中无监督地估计潜在的传输图 ( $z_{trans}$ ) 和眩光图 ( $z_{glare}$ )。
蒙雾眩光施加模块 (VGIM)： 利用 LOTGMP 预测的潜在图，在扩散过程中调制图像特征，模拟真实的物理退化过程（即执行上述公式中的衰减和叠加操作）。
混合训练策略： 结合源域（仅有像差的成对数据）和目标域（无配对的复合退化数据），利用物理先验引导生成，确保合成数据的真实性和物理一致性。

2.3 阶段二：前向模型蒸馏

由于 VeilGen 的多步扩散采样计算成本过高，无法直接用于恢复网络的训练监督。

蒸馏退化网络 (DDN)： 作者将 VeilGen 的行为蒸馏为一个轻量级的 DDN。DDN 学习从清晰图像和潜在图到退化图像的映射，作为高效的“前向模型”，用于后续恢复网络的训练监督。

2.4 阶段三：DeVeiler - 可逆恢复网络

提出了 DeVeiler，一个旨在逆转退化过程的恢复网络。

可逆性约束 (Reversibility Constraint)： 这是核心创新。网络不仅学习从退化到清晰的映射，还要求其估计的潜在图必须能通过前向模型（DDN）重新生成观测到的退化图像。这迫使网络学习具有物理意义的逆映射，而非简单的统计相关性。
蒙雾眩光补偿模块 (VGCM)： 与 VGIM 对称，VGCM 利用网络内部估计的潜在图来调制特征，执行逆操作（即去除眩光和恢复对比度）。
两阶段训练：
1. 预训练： 在源域（仅像差）数据上训练，建立像差校正的基础能力。
2. 微调： 在混合数据集（源域数据 + VeilGen 生成的合成数据）上微调，学习复合退化下的恢复能力。

3. 主要贡献 (Key Contributions)

提出了 VeilGen： 一种新颖的物理信息生成模型。它通过 LOTGMP 估计物理潜图，并利用 VGIM 引导扩散过程，能够合成逼真的“像差 + 蒙雾眩光”复合退化数据，解决了该领域数据稀缺的瓶颈。
提出了 DeVeiler： 一种基于可逆性约束的恢复网络。通过蒸馏的前向模型（DDN）和对称的 VGCM 模块，利用估计的潜图指导逆向去眩光过程，实现了物理上可解释的恢复。
实现了联合恢复： 在简化光学系统（单透镜和金属透镜）上，首次有效地联合解决了像差和蒙雾眩光的复合退化问题，显著优于现有的级联方法或单一退化处理方法。
开源与验证： 在两个具有挑战性的光学原型系统上进行了广泛实验，证明了方法的优越性，并将代码和数据集开源。

4. 实验结果 (Results)

作者在 Screen-Compound（屏幕合成，有真值）和 Realworld-Compound（真实世界，无真值）两个域上进行了评估，涉及大孔径单透镜（SL）和超表面 - 折射混合透镜（MRL）两种系统。

定量指标：
- 在 Screen-Compound 域上，DeVeiler 在 PSNR、SSIM 和 LPIPS 指标上均显著优于所有基线方法（包括 SwinIR、NAFNet、DiffBIR 以及级联的去雾/去光斑模型）。例如，PSNR 提升了约 2-4 dB。
- 在 Realworld-Compound 域上（无参考指标），DeVeiler 在 CLIPIQA、Q-Align 和 NIQE 指标上也取得了最佳性能。
定性效果：
- 视觉结果显示，DeVeiler 能有效去除弥散的眩光面纱，恢复高对比度和色彩保真度，同时保留丰富的细节。
- 相比之下，级联方法（如先校正像差再去雾）往往引入色彩伪影或无法完全去除眩光；去光斑模型则对弥散眩光无效。
消融实验：
- 证明了 LOTGMP 和 SD 先验对生成高质量数据至关重要。
- 证明了“可逆性约束”和双向模块（VGIM/VGCM）结构比单向注入潜图更有效，解决了域不匹配问题。
- 展示了模型在少量无配对目标数据（Few-shot，仅需约 15-25 张图像）下即可实现良好的泛化。

5. 意义与影响 (Significance)

突破硬件限制： 该方法为低成本、小型化的光学系统（如手机摄像头、AR 眼镜、医疗内窥镜、无人机）提供了强大的软件补偿方案，使其能在不增加复杂光学元件（如昂贵涂层或光阑）的情况下获得高质量成像。
物理与 AI 的融合： 论文展示了如何将物理光学模型（传输/眩光图）嵌入到生成式 AI（扩散模型）和恢复网络中，解决了数据稀缺领域的“黑盒”问题，为其他缺乏真值数据的低层视觉任务（如水下成像、天文观测）提供了新的范式。
推动计算成像发展： 证明了通过联合建模像差和散射，可以显著提升简化光学系统的成像性能，推动了计算成像向更紧凑、更智能的方向发展。

总结： 该论文通过创新的“生成 - 恢复”闭环框架，利用物理先验学习潜在的光学传输和眩光图，成功解决了简化光学系统中像差与蒙雾眩光复合退化的难题，在恢复质量和物理真实性上均达到了最先进水平（SOTA）。