SGDFuse: SAM-Guided Diffusion Model for High-Fidelity Infrared and Visible Image Fusion

该论文提出了一种名为 SGDFuse 的语义引导扩散模型,通过利用 Segment Anything Model (SAM) 生成的高质量语义掩码作为显式先验,指导条件扩散模型进行从粗到细的生成,从而解决了现有红外与可见光图像融合方法中目标丢失、伪影及细节缺失等问题,实现了高保真且语义感知强的融合效果。

Xiaoyang Zhang, jinjiang Li, Guodong Fan, Yakun Ju, Linwei Fan, Jun Liu, Alex C. Kot

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 SGDFuse 的新技术,专门用来把红外图像(像夜视仪看到的)和可见光图像(像人眼看到的)完美地融合在一起。

为了让你轻松理解,我们可以把这项技术想象成**“一位拥有超级大脑的顶级厨师,正在制作一道完美的融合料理”**。

1. 以前的“厨师”遇到了什么麻烦?(背景与痛点)

想象一下,你要做一道菜,需要两种食材:

  • 食材 A(红外图): 能告诉你哪里是热的(比如晚上的人或车),但看起来模糊不清,像一团团光晕,没有细节。
  • 食材 B(可见光图): 纹理清晰,能看到树叶的脉络、衣服的褶皱,但在大晚上或者烟雾里,它什么都看不见。

以前的融合方法(以前的厨师)就像是在做简单的**“拼盘”**:

  • 他们试图把两种图直接叠加。
  • 问题在于: 他们有点“没头脑”(论文里叫“语义盲”)。他们分不清哪里是重要的“热目标”(比如一个正在逃跑的坏人),哪里只是背景(比如一棵树)。
  • 后果: 有时候为了保留纹理,把重要的热源给“压”没了;有时候为了突出热源,把背景弄得一团糟,甚至出现了奇怪的噪点(像做菜时不小心把沙子炒进去了)。

2. SGDFuse 的“新做法”是什么?(核心创新)

SGDFuse 引入了两个超级助手,彻底改变了做法:

助手一:SAM(“识图大师”)

  • 角色: 这是一个像**“超级侦探”**一样的工具(Segment Anything Model)。
  • 作用: 在开始做菜前,侦探先给画面画个圈。它能精准地告诉你:“看!这里是一个人(热源),那里是一辆车(热源),背景是树。”
  • 比喻: 以前厨师是闭着眼睛炒菜,现在厨师戴上了**“透视眼”**,一眼就能分清哪些是主角(目标),哪些是配角(背景)。

助手二:扩散模型(“精雕细琢的艺术家”)

  • 角色: 这是一个像**“从乱石中雕刻美玉”**的艺术家(Diffusion Model)。
  • 作用: 传统的做法是直接混合,容易混浊。扩散模型则是从一团模糊的“噪音”开始,一步步把图像“画”出来,每一步都极其精细,保证没有瑕疵。
  • 比喻: 它不是简单的“搅拌”,而是“重塑”。它能把模糊的热源变得清晰,同时把背景的细节补得栩栩如生。

3. 他们是怎么合作的?(两阶段策略)

这篇论文最聪明的地方在于,它没有让这两个助手一起乱忙,而是分成了两步走

  • 第一阶段:搭骨架(Structural Foundation)
    • 先快速把红外和可见光的大致轮廓拼在一起。这就好比先给房子打好地基,把墙砌好。这时候虽然还不够完美,但结构已经稳了。
  • 第二阶段:精装修(Semantic Refinement)
    • 这是重头戏!这时候,“识图大师”(SAM)把画好的圈(语义掩码)交给“艺术家”(扩散模型)。
    • 艺术家说: “哦,原来这里是人,那里是车。那我就把人的轮廓画得锐利一点,把车的纹理画得清晰一点,同时保证背景不抢戏。”
    • 在“识图大师”的严格指导下,艺术家一步步把图像从模糊变清晰,最终生成一张既保留了热源特征,又拥有高清纹理的完美图片。

4. 为什么这很重要?(实际效果)

  • 以前: 融合后的图,可能让人眼看着舒服,但给自动驾驶汽车搜救机器人看时,它们可能还是认不出前面有个行人,因为关键的热信号被模糊了。
  • 现在(SGDFuse):
    • 人眼看着爽: 图片清晰、自然,没有奇怪的噪点。
    • 机器看得准: 因为保留了关键的目标特征,自动驾驶汽车能更准确地识别行人和车辆,搜救队能更清楚地看到废墟下的人。
    • 比喻: 以前的融合图像是一张**“模糊的合影”,大家挤在一起分不清谁是谁;现在的融合图像是一张“高清证件照”**,每个人(每个目标)都特征鲜明,背景也干净利落。

5. 总结

简单来说,SGDFuse 就是给图像融合技术装上了**“大脑”(SAM 的语义理解)和“神笔”**(扩散模型的生成能力)。

它不再盲目地把两张图混在一起,而是先理解画面里有什么,再根据理解去重新“画”出一张完美的图。这不仅让图片更好看,更重要的是,它让机器能更聪明地看懂这个世界,无论是开车、救人还是医疗诊断,都变得更加可靠。