FusionRegister: Every Infrared and Visible Image Fusion Deserves Registration

本文提出了名为 FusionRegister 的通用跨模态配准方法,该方法利用视觉先验引导配准过程,通过直接学习并处理融合结果中的错位表征而非强制全局对齐,在无需繁琐预配准操作的情况下,显著提升了红外与可见光图像融合的效率、鲁棒性及细节对齐能力。

Congcong Bian, Haolong Ma, Hui Li, Zhongwei Shen, Xiaoqing Luo, Xiaoning Song, Xiao-Jun Wu

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 FusionRegister 的新方法,专门用来解决“红外图像”和“可见光图像”融合时的一个老大难问题:两张图对不齐

为了让你更容易理解,我们可以把这项技术想象成**“给两张不同视角的拼图做最后的精细修整”**。

1. 背景:为什么要融合?

想象一下,你有一台夜视仪(红外相机)和一台普通相机(可见光相机)。

  • 夜视仪能看到热成像,比如黑暗中的人体轮廓,但看不清衣服的花纹。
  • 普通相机能看清衣服的花纹和颜色,但在黑暗中一片漆黑。

如果我们把这两张图完美地叠在一起,就能得到一张既能在黑暗中看清人,又能看清衣服细节的“超级照片”。这就是“图像融合”。

2. 问题:拼图总是对不齐

但在现实生活中,这两台相机很难做到 100% 完美对齐。哪怕是一点点的偏差(比如相机晃动了一下),叠在一起时就会出现重影(Ghosting)或者错位

  • 就像你试图把两张透明的玻璃片叠在一起,如果没对齐,上面的图案就会模糊、分裂,看起来非常难受。

以前的做法(旧方法):
以前的科学家在融合之前,会先花大力气把两张图强行“掰直”、“对齐”,然后再融合。

  • 缺点:这就像在拼图之前,先要把每一块拼图都重新切割、打磨,非常耗时,而且一旦切割错了,后面怎么拼都不对。如果输入的图片本身就很复杂,这种方法很容易失效。

3. 新方案:FusionRegister(融合注册)

这篇论文提出的 FusionRegister 换了一种思路。它不再执着于“先对齐再融合”,而是**“先融合,再修图”**。

我们可以把它想象成一个**“智能修图师”**:

核心步骤一:先不管对错,大胆融合

首先,让现有的融合算法把红外图和可见光图拼在一起。哪怕它们有点歪,先拼出一个大概的“半成品”。

比喻:就像先把两块不同颜色的玻璃随意叠在一起,虽然有点歪,但你能看到大概的图案了。

核心步骤二:视觉先验(Visual Priors)—— 哪里歪了?

这是最聪明的地方。FusionRegister 不需要去猜测哪里歪了,它利用一个**“视觉直觉”**:

  • 它发现,只有那些两张图里都有的东西(比如墙壁、树木的轮廓),如果没对齐,才会出现重影。
  • 而那些只有一张图里有的东西(比如红外图里的热源,或者可见光图里的文字),即使没对齐,也不会产生重影,因为它们本来就是“独一无二”的。

    比喻:就像你在拼拼图,只有当两块拼图上的图案(比如天空)重叠时,错位才会很明显。如果一块拼图上是天空,另一块上是草地,它们错位了也看不出来。FusionRegister 就像个聪明的侦探,只盯着那些“重叠且错位”的区域(比如墙壁边缘),而忽略那些本来就不重叠的区域。

核心步骤三:双向修正(Bi-directional Warping)

一旦找到了错位的地方,它不会只把一张图往另一边推,而是两边同时微调

比喻:就像两个人在拉一根橡皮筋,如果只拉一边,橡皮筋会断或者变形;如果两个人同时往中间拉,橡皮筋就能完美贴合,而且不会破坏原本的形状。

核心步骤四:模态保持(MRB)—— 找回丢失的细节

在修正错位的过程中,有时候会把原本清晰的纹理(比如衣服的褶皱)给“抹平”了。FusionRegister 有一个专门的**“细节恢复模块”**(MRB)。

比喻:就像修图师在把两张图对齐后,发现边缘有点模糊,于是用一支神奇的“细节笔”,把原本属于红外图的热度信息和可见光图的纹理信息,重新“画”回正确的位置,确保画面既清晰又真实。

4. 为什么这个方法很厉害?

  1. 通用性强(Generality)
    不管你是用哪种现有的融合算法(不管是基于 CNN 的、GAN 的还是最新的 Transformer),FusionRegister 都可以像“插件”一样加在后面,直接提升效果。

    比喻:它就像是一个通用的“万能鞋垫”,无论你穿的是耐克、阿迪还是皮鞋,垫进去都能让你走得更稳。

  2. 鲁棒性(Robustness)
    以前的方法如果输入的图片稍微有点变形,就会彻底崩溃。FusionRegister 因为只关注“错位”的部分,所以即使输入条件很恶劣,它也能稳定工作。

    比喻:以前的方法像是一个精密的瑞士手表,掉地上就坏了;FusionRegister 像是一个耐用的登山靴,哪怕踩在泥地里也能稳稳当当。

  3. 效率高(Efficiency)
    因为它不需要在融合前做复杂的预处理,也不需要处理整张图,只处理“错位”的那一小块区域,所以速度很快。

    比喻:以前是先把整栋房子拆了再重新盖(预处理),现在只是把歪了的墙砖敲正(局部修正),省时省力。

总结

FusionRegister 就像是一个**“事后诸葛亮”式的智能修图师**。它不强迫两张图在融合前必须完美对齐,而是先让它们融合,然后利用“视觉直觉”精准地找到哪里歪了,只修正那些歪的地方,并小心地保护原本的细节。

这种方法让红外和可见光图像的融合变得更快、更准、更稳定,让机器在夜间或复杂环境下也能看清世界。