IntrinsicWeather: Controllable Weather Editing in Intrinsic Space

本文提出了 IntrinsicWeather,一种基于扩散先验的可控天气编辑框架,它通过在内在空间(包含材质、几何和光照)进行分解与重渲染,结合内在图感知注意力机制和 CLIP 空间提示插值,实现了比现有像素空间方法更精细的户外场景天气控制,并发布了配套数据集以提升自动驾驶等下游任务的鲁棒性。

Yixin Zhu, Zuo-Liang Zhu, Jian Yang, Miloš Hašan, Jin Xie, Beibei Wang

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 IntrinsicWeather(内在天气)的新系统。简单来说,它是一个能让 AI 像“换装师”一样,随意改变照片里天气(比如把晴天变成雨天、雪天或雾天),同时还能完美保留物体原本样子的神奇工具。

为了让你更容易理解,我们可以把这张照片想象成一个复杂的“三层蛋糕”

1. 核心概念:把照片“拆解”再“重组”

传统的 AI 修图(像素级编辑)就像是在蛋糕表面直接抹奶油。如果你想把晴天改成雨天,它可能会把整块蛋糕都涂成灰色,或者把蛋糕里的水果(比如路边的树、车)也一起涂黑,导致物体变形、颜色怪异。

IntrinsicWeather 的做法完全不同,它更像是一个高明的“拆解大师”

  • 第一步:拆解(逆渲染)
    它不直接看照片的颜色,而是把照片“剥开”,分成三层:

    1. 材质层(蛋糕胚和水果):这是物体原本的样子(比如车是红色的,路是灰色的,树是绿的)。这部分不受天气影响
    2. 形状层(蛋糕的轮廓):这是物体的几何结构(比如车是圆的,路是平的)。
    3. 光照层(奶油和装饰):这才是天气所在的地方(比如阳光、雨滴、雾气、阴影)。

    比喻: 想象你在看一个被雾气笼罩的公园。传统方法可能会把树也变模糊;而 IntrinsicWeather 会先“透视”过去,看清树原本的样子(材质和形状),只把“雾气”这一层单独提取出来。

  • 第二步:重组(正向渲染)
    当你输入指令“变成暴雨天”时,系统会保留前两层(树还是那棵树,路还是那条路),然后重新绘制第三层(光照层)。它会生成逼真的雨滴、湿漉漉的路面反光,以及乌云密布的光线,最后把这三层完美地“粘合”回去。

2. 它是怎么做到的?(两个关键“助手”)

这个系统有两个核心组件,我们可以把它们想象成两个超级助手:

  • 助手 A:透视眼(逆渲染器)
    它的任务是看穿照片。它利用一种叫“内在图注意力机制”(IMAA)的独门绝技。

    • 比喻: 就像给 AI 戴上了一副“智能眼镜”。当它看一张图时,这副眼镜会告诉它:“嘿,注意看那个金属栏杆,那是金属的,要特别关注它的反光!”或者“看那个远处的路牌,虽然小,但它的形状很重要,别搞错了。”
    • 这解决了以前 AI 在复杂户外场景(比如远处的小车、复杂的建筑)中容易“看走眼”的问题,确保拆解出来的材质和形状非常精准。
  • 助手 B:魔术师(正向渲染器)
    它的任务是根据指令变魔术

    • 比喻: 它手里拿着一个“天气调色盘”。如果你说“要下雨”,它不会生硬地把图片变灰,而是利用一种叫"CLIP 空间插值”的技术,像调节音量旋钮一样,平滑地控制雨的大小。
    • 它可以做到:小雨时路面微湿,大雨时积水反光,甚至能模拟出雨滴落在不同物体上的不同效果。它还能让光线变化非常自然,不会让车突然变成绿色。

3. 为什么它这么厉害?(解决了什么痛点)

  • 以前的问题: 以前的 AI 改天气,经常把车变绿、把树变方,或者让雨下得像贴纸一样假。因为它们是在“表面”做文章,没有理解物体的本质。
  • 现在的突破: IntrinsicWeather 因为先“拆解”了物体本质,所以无论天气怎么变,车还是那辆车,树还是那棵树
  • 实际应用: 这对自动驾驶非常重要。现在的自动驾驶汽车在暴雨或大雾天容易“瞎眼”(识别不出行人或障碍物)。
    • 比喻: 如果自动驾驶系统训练时只见过晴天,遇到暴雨就懵了。IntrinsicWeather 可以帮它“生成”各种天气下的训练数据,让它在暴雨天也能像晴天一样看得清清楚楚,识别率提升了近 90%!

4. 总结

这就好比给照片请了一位顶级的“换装师”

  1. 她先把你衣服里的“骨架”和“皮肤”(材质和形状)保护好。
  2. 然后只把外面的“外套”(天气和光线)换掉。
  3. 最后,无论你让她穿雨衣、披雪衣还是戴墨镜,你看起来都还是你自己,只是环境变了,而且变得非常真实自然。

这篇论文不仅提出了这个聪明的方法,还专门制作了包含 3.8 万张合成图和 1.8 万张真实图的大数据集,专门用来训练 AI 学会这种“透视”和“换装”的本领,让未来的自动驾驶和图像编辑更加智能和可靠。