TherA: Thermal-Aware Visual-Language Prompting for Controllable RGB-to-Thermal Infrared Translation

本文提出了 TherA,一种结合热感知视觉语言模型与潜在扩散技术的可控 RGB 转热红外图像翻译框架,通过生成包含场景、物体及热辐射上下文的嵌入向量,实现了在时间、天气和物体状态等多维度条件下的高质量热成像合成,显著提升了零样本翻译性能。

Dong-Guw Lee, Tai Hyoung Rhee, Hyunsoo Jang, Young-Sik Shin, Ukcheol Shin, Ayoung Kim

发布于 2026-02-26
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 TherA 的新 AI 系统。简单来说,它的作用是把普通的彩色照片(RGB)瞬间变成热成像照片(TIR),而且变出来的热成像非常符合物理常识,甚至还能听指挥“变魔术”。

为了让你更容易理解,我们可以把这项技术想象成一位**“热物理学家画家”**。

1. 以前的痛点:只会“换滤镜”的笨画家

以前的 AI 把普通照片转成热成像时,就像是一个只会**“换滤镜”**的笨画家。

  • 它的问题:它只看颜色。比如,它看到一辆红色的车,就以为这辆车很“热”;看到一辆停着的车,也以为它和正在行驶的车一样烫。
  • 后果:它画出来的热成像经常违背物理常识。比如,一辆熄火停在那里的车,在热成像里却像刚跑完马拉松一样全身冒热气;或者在雨天,它却画出了大晴天那种干热的路面。这就像给一幅画强行套上“热成像滤镜”,但里面的逻辑全是错的。

2. TherA 的突破:请来了“热物理学家”

TherA 的核心创新在于,它不再让 AI 瞎猜,而是先请了一位**“热物理学家”**(论文里叫 TherA-VLM)来给画家打草稿。

  • 第一步:物理学家先“思考” (TherA-VLM)
    当你给 TherA 一张普通照片时,这位“物理学家”不会只看颜色,它会像侦探一样分析:

    • 场景:现在是白天还是晚上?是晴天还是雨天?(这影响地面吸热多少)。
    • 物体状态:那辆车是在跑(引擎热)还是停着(引擎凉)?那个人是在走路(身体发热)还是静止?
    • 材质:金属、玻璃还是木头?(不同材质散热速度不同)。

    然后,它会写出一份**“热力学说明书”**(Thermal Embedding),告诉画家:“注意!那辆跑着的车引擎是热的,但停着的车是凉的;因为是雨天,路面应该是湿冷且反光较弱的。”

  • 第二步:画家根据说明书作画 (Diffusion Model)
    有了这份科学的说明书,后面的“画家”(扩散模型)就能画出既逼真又符合物理规律的热成像了。它知道哪里该亮(热),哪里该暗(冷),哪里该有热气腾腾的尾气。

3. 它的超能力:听指挥的“热成像遥控器”

TherA 最酷的地方在于它的可控性。你可以像给 AI 下指令一样,随意改变热成像里的环境,而不用重新拍照。

  • 文字指挥
    你可以对同一张白天的照片说:“把它变成下雨天的热成像”。

    • TherA 就会立刻把路面画得湿冷,把空气的对比度调低,仿佛真的下了一场雨。
    • 或者你说:“变成深夜",它就能模拟出夜晚物体冷却后的样子,甚至能解决“白天拍不到热成像,晚上又看不清”的难题。
  • 参考图指挥
    你可以给一张“正在行驶的汽车”照片,再给一张“熄火停着的汽车”照片作为参考。

    • TherA 就能把原图里的车,从“滚烫的行驶状态”瞬间变成“凉快的静止状态”,连排气管的热气都会消失。

4. 为什么要这么做?(实际应用)

  • 解决“缺数据”的难题:真正的热成像相机很贵,而且很难收集大量带标注的数据(比如很难让成千上万辆车在热成像里同时被标记)。TherA 可以低成本地生成海量的、高质量的“假热成像”数据,用来训练自动驾驶汽车或安防系统,让它们学会在黑夜或大雾中也能看清物体。
  • 更聪明:因为它懂物理,所以生成的假数据比以前的方法更靠谱,训练出来的 AI 也更聪明。

总结

TherA 就像是一个拥有“热物理大脑”的超级翻译官。
它不再只是把彩色照片“染色”成热成像,而是先理解照片里的物理世界(谁在发热、谁在散热、天气如何),然后重新构建出一个符合物理定律的热世界。这不仅让生成的图像更真实,还让我们能像玩“换装游戏”一样,随意操控热成像里的天气和物体状态,为未来的自动驾驶和机器视觉提供了强大的新工具。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →