Missing No More: Dictionary-Guided Cross-Modal Image Fusion under Missing Infrared

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种非常聪明的方法，来解决一个很实际的问题：当我们在夜间或恶劣天气下只有可见光相机（普通摄像头），却缺少红外相机（热成像）时，如何还能获得一张既清晰又包含热信息的完美融合图像？

为了让你轻松理解，我们可以把这项技术想象成**“一位拥有超强大脑的翻译官兼画家”**。

1. 核心难题：当“热成像”缺席时

想象一下，你正在指挥一场夜间行动。

可见光图像（VIS）：就像你肉眼看到的黑白素描，线条清晰，能看清树、路、房子的轮廓，但在黑暗中什么都看不见，也分不清谁身上是热的。
红外图像（IR）：就像热成像仪看到的画面，能清晰看到谁身上发热（比如人或车），但画面模糊，看不清具体的纹理和细节。

通常的融合方法需要同时有这两张图，把它们“拼”在一起。但现实是，有时候红外相机坏了，或者根本没带。

以前的笨办法：就像让一个画家看着素描，凭空“瞎编”出一张热成像图，然后再拼起来。这很容易画错（比如把冷石头画成热的），或者画得乱七八糟，因为画家没有真正的热数据参考，只能靠猜（这就是论文里说的“像素空间的黑盒生成”）。

2. 我们的新方案：字典引导的“翻译”

这篇论文提出的方法（叫 DCMIF），不像以前那样直接“瞎编”图片，而是换了一种思路：先翻译，再融合，最后还原。

我们可以把这个过程比作**“乐高积木”**的玩法：

第一步：建立通用的“乐高字典” (JSRL)

想象我们有一个巨大的乐高积木字典。

无论是可见光照片还是红外照片，我们都不把它们看作一堆像素点，而是把它们拆解成字典里特定的**“积木块”**（原子）。
比如，一个“车轮”的轮廓，在可见光里是某种积木，在红外里也是类似的积木。
系统先学习这套通用的字典，让两种图像在“积木语言”层面达成一致。这就好比让两个说不同语言的人，先学会用同一种“乐高积木”来描述世界。

第二步：聪明的“翻译”与“微调” (VGII)

现在，你手里只有可见光的“积木说明书”（可见光系数），没有红外的说明书。

翻译：系统根据可见光的积木，利用字典里的规律，推断出红外图应该长什么样（生成“伪红外积木”）。这就像看着素描，根据经验推断出哪里会有热气。
大模型助攻：这是最精彩的一步！系统请来了一个**冻结的大语言模型（LLM）**当“顾问”。
- 它不看像素，而是看“语义”。比如它知道“人”通常是热的，“石头”通常是冷的。
- 它像一位老练的编辑，给刚才推断出的红外积木提建议：“这里是个行人，应该更热一点；那里是树荫，应该冷一点。”
- 通过这种**“语义微调”**，系统修正了推断中的错误，让热信息更准确，而且不会像以前那样产生奇怪的幻觉。

第三步：完美的“拼搭”与“还原” (AFRI)

融合：现在我们有清晰的可见光积木和修正后的红外积木。系统把它们在“积木层面”进行智能混合。
- 保留可见光的清晰轮廓（路、墙）。
- 注入红外的热信号（人、车）。
还原：最后，利用之前学好的“字典”，把混合好的积木重新拼成一张完整的、高质量的图像。

3. 为什么这个方法很厉害？

不再“瞎编”：以前的方法是在像素层面直接生成，容易出错且不可控。这个方法是在“积木（系数）”层面操作，每一步都有据可依，就像搭乐高一样严谨。
有“大脑”指导：引入大语言模型作为“弱语义先验”，相当于给系统装了一个常识库，让它知道“人”是热的，从而避免把冷冰冰的物体画成发热的。
效果拔群：实验证明，即使没有红外相机，用这个方法生成的融合图像，在**看清物体（检测）和分割区域（识别）**方面，效果几乎和拥有真实红外相机一样好，甚至在某些指标上更好。

总结

这就好比，以前我们想合成一张“热成像 + 高清”的照片，必须两张图都在。如果缺了热成像，以前的 AI 只能靠猜，经常猜错。

而这篇论文的方法是：

把图片拆解成通用的**“积木语言”**。
根据可见光推断出热积木。
请大模型专家根据常识（人热、石冷）来修正这些积木。
最后把积木拼回成一张完美的照片。

这种方法不仅更聪明（有逻辑、可解释），而且更稳定（不容易画错），让机器在只有普通摄像头时，也能拥有“夜视 + 热成像”的超能力。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

红外 - 可见光（IR-VIS）图像融合在监控、机器人和自动驾驶等感知与安全领域至关重要。然而，现有的主流融合方法通常假设在训练和推理阶段红外（IR）和可见光（VIS）两种模态均存在。

现实挑战：在实际场景中，红外传感器可能损坏、缺失或仅在特定时间可用，导致测试时只有可见光图像（Missing-IR 场景）。
现有方法的局限性：
- 现有的缺失模态处理方法通常采用“先生成红外图像，再进行融合”的多阶段策略。
- 这种基于像素空间（Pixel-space）的生成式方法（如 GAN、Diffusion）往往缺乏物理一致性，难以控制，且存在“黑盒”特性，容易导致热特征恢复不稳定、结构细节丢失或产生幻觉伪影。
- 缺乏可解释性，难以保证生成的红外信息符合物理规律。

2. 核心方法论 (Methodology)

作者提出了一种字典引导的系数域（Coefficient-domain）框架，旨在不生成红外图像的情况下，直接从可见光图像推断红外特征并进行融合。该方法构建了一个共享卷积字典，将问题转化为在字典 - 系数空间中的编码、转移、融合与重构。

整个流程包含三个关键模块：

(1) 联合共享字典表示学习 (JSRL - Joint Shared-dictionary Representation Learning)

目标：学习一个红外和可见光共享的卷积字典（Shared Dictionary），将两种模态映射到统一的原子空间（Atom Space）。
机制：
- 通过深度子网络（CoeNet 和 DicNet）自主学习联合表示和字典，替代传统的手工先验。
- 利用“数据一致性 + 近端（Proximal）”原则，将迭代优化过程展开为神经网络层。
- 确保红外和可见光图像在相同的字典原子下具有结构对应关系，为后续的跨模态推断奠定基础。

(2) 可见光引导的红外推断 (VGII - VIS-Guided IR Inference)

目标：在系数域内，将可见光系数映射为伪红外系数，而非在像素域直接生成图像。
机制：
- 编码：使用预训练的 JSRL 模块将可见光图像编码为可见光系数 $\tilde{S}_{vis}$ 。
- 推断：通过表示推断网络（RIN）将 $\tilde{S}_{vis}$ 转换为伪红外系数 $S^{(0)}_{pir}$ 。
- 弱语义先验引导：引入一个**冻结的大语言模型（LLM）**作为语义批评器。LLM 接收可见光图像和初步重构的伪红外图像，提取文本特征，并通过线性调制（Feature-wise Linear Modulation, FLM）生成参数 $\gamma$ 和 $\beta$ ，对可见光系数进行微调，以增强热语义覆盖。
- 闭环优化：经过调制的系数再次通过 RIN 进行二次推断，最终重构出高质量的伪红外图像。

(3) 基于表示推断的自适应融合 (AFRI - Adaptive Fusion via Representation Inference)

目标：在原子级别融合可见光结构信息和推断出的红外热信息。
机制：
- 构建推理融合网络（RFN），包含级联的“卷积 - 注意力”融合块（CAF）。
- 利用隐式的原子级门控机制（Atom-wise Gating），自适应地学习每个字典原子是更倾向于可见光系数还是推断的红外系数。
- 结构边缘倾向于保留可见光系数，热语义区域倾向于保留红外系数。
- 最后利用共享字典将融合后的系数重构为最终图像。

整体流程：编码（Encode）→ 转移（Transfer）→ 融合（Fuse）→ 重构（Reconstruct），全程在可解释的字典 - 系数域内完成。

3. 主要贡献 (Key Contributions)

字典引导的系数域范式：
- 首次提出在共享字典下，完全在系数域内完成编码、转移、融合和重构的闭环框架。
- 避免了像素空间黑盒生成的不稳定性，通过原子 - 系数层面的约束保证了数据一致性和可解释性。
基于弱语义先验的可控补全：
- 创新性地引入冻结的 LLM 作为轻量级语义先验，仅通过系数域的线性调制来引导热特征补全。
- 相比复杂的生成头，这种方法更稳定，能有效减少漏检的热目标，同时避免引入像素级伪影。
简单训练与低开销推理：
- 推理阶段不需要真实的红外图像，仅需可见光图像和共享字典。
- 训练过程避免了对抗训练（GAN）或扩散模型（Diffusion）的复杂机制，仅需重构损失和简单的约束损失，具有可复现性、部署性和高效性。

4. 实验结果 (Results)

作者在 FLIR、MSRS、KAIST 等数据集上进行了广泛实验，并评估了下游任务（目标检测、语义分割）的表现。

融合质量：
- 在 MSRS、FLIR 和 KAIST 数据集上，该方法在平均梯度（AG）、对比度熵（CE）、边缘强度（EI）等指标上均优于或媲美现有的全模态融合方法（如 U2Fusion, CDDFuse, TarDAL 等）。
- 定性结果显示，该方法能有效恢复红外热特征，同时保持可见光的清晰结构，无明显的模糊或鬼影。
下游任务性能：
- 目标检测：在 M3FD 数据集上使用 YOLOv5s 进行测试，融合图像的 mAP 与全模态融合方法相当，证明了推断出的红外信息具有高度的可用性。
- 语义分割：在 FMB 数据集上使用 SegFormer 测试，分割精度（mIoU）同样表现出色，边界清晰，语义区域一致性好。
消融实验：
- 验证了联合稀疏字典和LLM 调制两个核心组件的必要性。移除字典导致热信息恢复失败；移除 LLM 导致热对比度和边缘细节下降。
效率对比：
- 与“先生成红外再融合”的基线方法（如 EGGAN+ 融合器、PID+ 融合器）相比，本方法参数量更少（~21M vs ~240M+），推理速度更快，且性能更优。

5. 意义与价值 (Significance)

理论创新：打破了传统红外融合必须依赖双模态输入或像素级生成的思维定式，证明了在系数域利用共享字典和语义先验进行跨模态推断的可行性。
实际应用：解决了红外传感器缺失或故障场景下的感知难题，为资源受限或传感器异构的自动驾驶、安防监控系统提供了鲁棒的解决方案。
可解释性：将“黑盒”生成过程转化为可解释的原子对应关系，提升了模型在安全关键领域的可信度。
开源贡献：代码已公开，推动了缺失模态图像融合领域的研究发展。

总结：该论文提出了一种新颖的、基于字典学习的缺失红外图像融合框架。它通过在可解释的系数域内利用共享字典和 LLM 语义先验，成功实现了从可见光到红外特征的推断与融合，在保持高融合质量的同时，显著降低了计算成本并提高了系统的鲁棒性。