Missing No More: Dictionary-Guided Cross-Modal Image Fusion under Missing Infrared

该论文提出了一种基于共享卷积字典的字典引导跨模态图像融合框架,通过在系数域学习联合表示、利用大语言模型引导的可见光到伪红外系数推断以及自适应融合策略,有效解决了红外模态缺失场景下的图像融合难题,显著提升了感知质量与下游检测性能。

Yafei Zhang, Meng Ma, Huafeng Li, Yu Liu

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种非常聪明的方法,来解决一个很实际的问题:当我们在夜间或恶劣天气下只有可见光相机(普通摄像头),却缺少红外相机(热成像)时,如何还能获得一张既清晰又包含热信息的完美融合图像?

为了让你轻松理解,我们可以把这项技术想象成**“一位拥有超强大脑的翻译官兼画家”**。

1. 核心难题:当“热成像”缺席时

想象一下,你正在指挥一场夜间行动。

  • 可见光图像(VIS):就像你肉眼看到的黑白素描,线条清晰,能看清树、路、房子的轮廓,但在黑暗中什么都看不见,也分不清谁身上是热的。
  • 红外图像(IR):就像热成像仪看到的画面,能清晰看到谁身上发热(比如人或车),但画面模糊,看不清具体的纹理和细节。

通常的融合方法需要同时有这两张图,把它们“拼”在一起。但现实是,有时候红外相机坏了,或者根本没带。

  • 以前的笨办法:就像让一个画家看着素描,凭空“瞎编”出一张热成像图,然后再拼起来。这很容易画错(比如把冷石头画成热的),或者画得乱七八糟,因为画家没有真正的热数据参考,只能靠猜(这就是论文里说的“像素空间的黑盒生成”)。

2. 我们的新方案:字典引导的“翻译”

这篇论文提出的方法(叫 DCMIF),不像以前那样直接“瞎编”图片,而是换了一种思路:先翻译,再融合,最后还原。

我们可以把这个过程比作**“乐高积木”**的玩法:

第一步:建立通用的“乐高字典” (JSRL)

想象我们有一个巨大的乐高积木字典

  • 无论是可见光照片还是红外照片,我们都不把它们看作一堆像素点,而是把它们拆解成字典里特定的**“积木块”**(原子)。
  • 比如,一个“车轮”的轮廓,在可见光里是某种积木,在红外里也是类似的积木。
  • 系统先学习这套通用的字典,让两种图像在“积木语言”层面达成一致。这就好比让两个说不同语言的人,先学会用同一种“乐高积木”来描述世界。

第二步:聪明的“翻译”与“微调” (VGII)

现在,你手里只有可见光的“积木说明书”(可见光系数),没有红外的说明书。

  • 翻译:系统根据可见光的积木,利用字典里的规律,推断出红外图应该长什么样(生成“伪红外积木”)。这就像看着素描,根据经验推断出哪里会有热气。
  • 大模型助攻:这是最精彩的一步!系统请来了一个**冻结的大语言模型(LLM)**当“顾问”。
    • 它不看像素,而是看“语义”。比如它知道“人”通常是热的,“石头”通常是冷的。
    • 它像一位老练的编辑,给刚才推断出的红外积木提建议:“这里是个行人,应该更热一点;那里是树荫,应该冷一点。”
    • 通过这种**“语义微调”**,系统修正了推断中的错误,让热信息更准确,而且不会像以前那样产生奇怪的幻觉。

第三步:完美的“拼搭”与“还原” (AFRI)

  • 融合:现在我们有清晰的可见光积木和修正后的红外积木。系统把它们在“积木层面”进行智能混合。
    • 保留可见光的清晰轮廓(路、墙)。
    • 注入红外的热信号(人、车)。
  • 还原:最后,利用之前学好的“字典”,把混合好的积木重新拼成一张完整的、高质量的图像。

3. 为什么这个方法很厉害?

  • 不再“瞎编”:以前的方法是在像素层面直接生成,容易出错且不可控。这个方法是在“积木(系数)”层面操作,每一步都有据可依,就像搭乐高一样严谨。
  • 有“大脑”指导:引入大语言模型作为“弱语义先验”,相当于给系统装了一个常识库,让它知道“人”是热的,从而避免把冷冰冰的物体画成发热的。
  • 效果拔群:实验证明,即使没有红外相机,用这个方法生成的融合图像,在**看清物体(检测)分割区域(识别)**方面,效果几乎和拥有真实红外相机一样好,甚至在某些指标上更好。

总结

这就好比,以前我们想合成一张“热成像 + 高清”的照片,必须两张图都在。如果缺了热成像,以前的 AI 只能靠猜,经常猜错。

而这篇论文的方法是:

  1. 把图片拆解成通用的**“积木语言”**。
  2. 根据可见光推断出热积木。
  3. 大模型专家根据常识(人热、石冷)来修正这些积木。
  4. 最后把积木拼回成一张完美的照片。

这种方法不仅更聪明(有逻辑、可解释),而且更稳定(不容易画错),让机器在只有普通摄像头时,也能拥有“夜视 + 热成像”的超能力。