Bridging Human Evaluation to Infrared and Visible Image Fusion

该论文针对现有红外与可见光图像融合方法难以契合人类视觉偏好的问题,构建了首个包含多维主观评分的大规模人类反馈数据集,并据此提出一种结合奖励模型与组相对策略优化(GRPO)的反馈强化框架,显著提升了融合图像的人眼感知质量。

Jinyuan Liu, Xingyuan Li, Qingyun Mei, Haoyuan Xu, Zhiying Jiang, Long Ma, Risheng Liu, Xin Fan

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在教电脑如何"像人一样看世界",特别是当它需要把两种完全不同的“眼睛”(红外相机和普通相机)看到的画面合二为一时。

我们可以把这项技术想象成给一位“盲人画家”和一位“色盲画家”配合作画

1. 现在的困境:数学满分,但“人味”不足

  • 背景:红外相机能看到热量(比如晚上的人影、发热的引擎),但画面模糊、没细节;普通相机能看到清晰的纹理和颜色,但晚上就“瞎”了。
  • 问题:以前的科学家教电脑怎么把这两张图拼在一起,用的全是冷冰冰的数学公式(比如计算像素差异、对比度)。
  • 比喻:这就像老师教学生画画,只盯着“线条直不直”、“颜色填没填出格”这些死板的规则打分。结果画出来的画,数学指标全是满分,但人看着觉得假、看着不舒服,甚至看不清关键的东西(比如雾里的行人)。这就叫“数学上完美,视觉上翻车”。

2. 他们的解决方案:引入“人类评委”和“奖励机制”

为了解决这个问题,作者搞了一套**“反馈强化学习”系统,简单说就是“请人类当评委,教 AI 怎么画得让人喜欢”**。

第一步:造了一本“人类审美教科书”(数据集)

  • 做法:他们收集了成千上万张红外和可见光图片,让 11 种不同的 AI 模型去融合,生成了 9000 多张新图。
  • 关键点:然后,他们请了专家,并借助了强大的 AI(GPT-4o),给这些图打分。
  • 打什么分? 不是只给个总分,而是像挑剔的美食家一样,从四个维度打分:
    1. 热量保留(红外里的热源还在吗?)
    2. 纹理保留(衣服的褶皱、树叶的脉络清楚吗?)
    3. 瑕疵程度(有没有奇怪的噪点或伪影?)
    4. 清晰度(画面锐利吗?)
  • 比喻:这就好比以前只教 AI“把红和蓝混成紫”,现在他们给 AI 一本《人类审美指南》,告诉它:“这张图虽然颜色对了,但把人脸画模糊了,扣分!那张图虽然暗,但把远处的车灯保留得很好,加分!”

第二步:训练一个“金牌裁判”(奖励模型)

  • 做法:利用上面那本“教科书”,他们训练了一个专门的奖励模型
  • 作用:这个模型就像一个经验丰富的老裁判。当 AI 生成一张新图时,老裁判会立刻跳出来,不仅给个分数,还会画个热力图,指出哪里画得不好(比如“这里有个奇怪的方块,是瑕疵”)。
  • 比喻:以前 AI 画画是“闭门造车”,现在每画一笔,旁边就站个老裁判,实时点评:“这里太糊了,那里太假了,改!”

第三步:让 AI“听劝”并进化(GRPO 微调)

  • 做法:他们使用了一种叫GRPO(组相对策略优化)的高级训练方法。
  • 过程
    1. AI 先试着画几张图。
    2. “金牌裁判”给这几张图打分。
    3. AI 发现:“哦!原来把‘车’画清楚比把‘背景’画清楚得分更高。”
    4. AI 就调整自己的策略,下次专门针对“车”这个重要区域进行优化。
  • 比喻:这就像练武术。以前 AI 是盲目地打拳(优化数学指标),现在有了教练(奖励模型)和实战反馈(人类评分),AI 学会了**“好钢用在刀刃上”**——在行人、车辆这些关键地方下狠功夫,而不是在无关紧要的背景上浪费时间。

3. 最终效果:既懂科学,又懂人心

  • 结果:经过这套“人类反馈”训练后的 AI,画出来的融合图,既保留了红外相机的“热成像”能力(能看见黑夜里的目标),又保留了普通相机的“高清细节”(纹理清晰、没有怪异的噪点)
  • 实际应用
    • 自动驾驶:在浓雾或黑夜中,能更清楚地看到行人和障碍物,而不是被雾气干扰。
    • 安防监控:能同时看清人的热特征和面部细节。
    • 医学影像:让医生看得更清楚,减少误诊。

总结

这篇论文的核心思想就是:别只让 AI 做数学题,要让它学会“取悦人类”

他们通过建立人类评分数据库,训练了一个懂审美的裁判,并教 AI根据裁判的反馈不断修正。最终,AI 不再只是生成“数学上正确”的图片,而是生成了**“人类看着舒服、看着有用”**的图片。这就好比从“只会背公式的学霸”,进化成了“懂艺术、懂人心的艺术家”。