WeatherCity: Urban Scene Reconstruction with Controllable Multi-Weather Transformation

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 WeatherCity（天气之城）的新技术。简单来说，它就像是一个**“自动驾驶世界的魔法天气生成器”**。

为了让你更容易理解，我们可以把这项技术想象成**“给城市拍电影”**的过程。

1. 为什么要发明它？（痛点）

想象一下，你想教一个机器人（自动驾驶汽车）在雨天或雪天开车。

以前的方法（像照相机）： 现有的技术就像一台只能“回放”的摄像机。如果它只拍过晴天，它就永远无法“想象”出雨天的样子。它只能把拍到的东西原封不动地重现，无法创造新的场景。
另一种方法（像 PS 修图）： 以前的修图软件（比如给照片加雨滴）就像是在一张平面的画上涂颜色。如果你把画上的车涂成雨天的样子，车可能会变形、扭曲，或者雨滴看起来像是贴在玻璃上的贴纸，没有深度感。而且，如果你把这张图做成视频，雨滴可能会在每一帧里乱跳，看起来非常假。

WeatherCity 的目标是： 既能把城市变成 3D 的（有深度、有体积），又能像变魔术一样，随意把晴天变成暴雨、大雪或大雾，而且车还是那辆车，路还是那条路，只是天气变了。

2. 它是如何工作的？（核心魔法）

WeatherCity 用了三个“魔法步骤”来完成这个任务：

第一步：给照片“写剧本”（文本引导编辑）

首先，它利用了一个很聪明的 AI 画家（Qwen-Image）。你只需要告诉它：“把这张图变成下大雨的样子，但千万不要改变路上的车、房子和人的位置。”

比喻： 就像你给导演发指令：“把场景灯光调暗，加上雨声，但演员和布景绝对不能动。”AI 画家会先画出几张不同天气的“参考图”。

第二步：搭建“乐高积木”城市（天气高斯表示）

这是最核心的创新。传统的 3D 重建是把城市看作一块块固定的石头。WeatherCity 把城市看作一套特殊的“乐高积木”。

共享骨架（Shared Feature）： 这些积木有一个**“核心骨架”，代表城市原本的样子（比如车的形状、房子的轮廓）。这个骨架是所有天气下共用的**。
天气外衣（Multi-Weather Decoders）： 然后，它给这个骨架穿上不同的“衣服”。
- 晴天时，穿上“阳光衣”；
- 雨天时，穿上“湿润衣”（让路面反光）；
- 雪天时，穿上“积雪衣”（给车顶盖上白被子）。
比喻： 就像同一个演员（骨架），今天穿西装（晴天），明天穿雨衣（雨天）。因为骨架没变，所以无论天气怎么变，演员的脸和身体都不会变形，也不会突然多出一只手。

第三步：物理引擎“造雨造雪”（物理驱动模拟）

光有衣服还不够，雨滴和雪花得动起来才真实。

雨滴和雪花： 它们不是画上去的，而是由成千上万个**“虚拟粒子”**组成的。系统给每个粒子设定了物理规则：雨滴受重力下落，受风吹斜；雪花会随风飘舞、上下翻飞。
大雾： 它是根据**“距离”**来计算的。离你越远的地方，雾越浓，能见度越低，就像真实的物理世界一样（基于比尔 - 朗伯定律）。
比喻： 以前的方法像是在玻璃上喷了一层雾水，远近看起来一样。WeatherCity 则是真的在空气中“制造”了雾气，远处的山真的会消失，近处的树还看得清。

3. 它有什么用？（实际应用）

这项技术对自动驾驶非常重要：

安全测试： 现实中很难等到一场特大暴雨或暴雪去测试自动驾驶汽车。WeatherCity 可以在电脑里瞬间生成各种极端天气，让自动驾驶系统在虚拟世界里“练级”，学会如何在恶劣天气下安全驾驶。
无限可能： 它可以随意调整雨的大小、雪的厚度、雾的浓度，甚至可以在视频里把一辆车“变没”或“变出来”，同时保持天气效果完美融合。

总结

WeatherCity 就像是一个**“全能的城市导演”。它不再只是记录现实，而是能创造现实**。它把城市变成了可编辑的 3D 模型，让你能像换衣服一样给城市换天气，而且换完之后，车还是那辆车，路还是那条路，雨滴还会顺着车窗滑落，雪花还会堆积在车顶。

这不仅是修图技术的升级，更是让虚拟世界变得和真实世界一样“有物理规律”的飞跃。

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 WeatherCity 的新框架，旨在解决自动驾驶领域中高保真 4D 动态场景重建与可控天气编辑的难题。以下是该论文的详细技术总结：

1. 研究背景与问题 (Problem)

在自动驾驶的端到端训练和闭环仿真中，高保真且可编辑的 4D 场景至关重要，特别是需要模拟极端天气（如雨、雪、雾）等边缘案例。然而，现有的技术存在以下主要局限：

4D 重建的局限性：现有的 NeRF 和 3D Gaussian Splatting (3DGS) 方法虽然能实现高保真重建，但通常“ baked-in"（固化）了数据采集时的天气条件，无法模拟或编辑不同的天气场景。
图像级编辑的缺陷：基于 GAN 或扩散模型（Diffusion Models）的 2D 图像编辑方法虽然灵活，但往往引入伪影（artifacts），破坏场景的几何结构（如扭曲车辆、错误的路面标线），且缺乏对天气强度（如雨量大小、雾的密度）的细粒度控制，难以保证 4D 场景在时间上的一致性。
现有 3D 编辑的不足：部分基于 3D 的方法（如 ClimateNeRF）仅能处理静态天气或去除雨滴，无法模拟动态的天气现象（如飘落的雪花、流动的雨滴）或动态物体（车辆、行人）在天气变化下的表现。

2. 方法论 (Methodology)

WeatherCity 是一个统一的框架，将 4D 动态重建、可控天气编辑和物理驱动仿真有机结合。其核心流程包含四个模块：

2.1 文本引导的图像天气背景编辑

利用强大的文本引导图像编辑模型（Qwen-Image）对原始输入图像序列进行预处理。
通过精心设计的提示词（Prompt），在严格保留原始场景内容（布局、物体位置、几何结构）的前提下，生成具有目标天气特征（如“雨天”、“雪天”）的图像序列。这些图像作为后续 3D 重建的监督信号。

2.2 共享特征与多天气解码器的 Weather Gaussian 表示

这是论文的核心创新点。为了解耦场景几何结构与天气外观，作者提出了一种新的 Weather Gaussian Representation：

场景图结构：基于 OmniRe 的动态高斯图，包含天空节点、静态背景节点、刚性物体节点（车辆）和非刚性物体节点（行人）。
共享特征 (Shared Features)：每个高斯原语（Gaussian primitive）包含一个共享的外观特征向量 $f_i$ ，用于编码场景固有的纹理和材质属性（与天气无关）。
多天气解码器 (Multi-Weather Decoders)：针对每种天气条件 $w$ ，设计专用的轻量级 MLP 解码器 $\phi_w$ ，将共享特征 $f_i$ 映射为特定天气下的颜色 $c^w_i$ 。
优势：这种设计确保了在不同天气条件下，场景的几何结构（位置、旋转、尺度）保持一致，仅外观（颜色、光照）随天气变化，从而实现了结构一致性。

2.3 多天气一致性优化

为了进一步消除 2D 编辑带来的时序闪烁和几何不一致，设计了复合损失函数：

RGB Loss：最小化渲染图像与原始/编辑后图像的颜色差异。
内容一致性损失 (Content Consistency Loss, $L_{cc}$ )：利用预训练的 VGG 网络提取特征，强制渲染出的不同天气图像与原始清晰图像在语义内容上保持一致，防止 2D 编辑引入的物体变形或幻觉。
深度损失 (Depth Loss)：利用 LiDAR 投影的稀疏深度图监督几何信息。

2.4 物理驱动的动态天气仿真

为了模拟真实的动态天气效果，系统引入了物理驱动的粒子系统：

雨和雪：将雨滴和雪花建模为高斯椭球体。
- 雨滴：细长的椭球，模拟垂直拉伸和运动模糊。
- 雪花：由三个同心椭球组成，模拟晶体形状。
- 运动控制：基于物理参数（重力、风速、风向、湍流）计算粒子速度向量，实现自然的下落和飘动。
雾：基于 Beer-Lambert 定律 实现深度感知的雾渲染，根据深度值动态调整透射率和颜色，模拟随距离增加的能见度降低。
统一渲染：天气粒子被直接集成到动态高斯场景图中作为天气节点，与场景物体统一进行光栅化渲染，确保正确的遮挡关系和混合效果。

3. 主要贡献 (Key Contributions)

统一框架：提出了首个支持"4D 重建 - 天气编辑 - 动态仿真”一体化的框架，将 2D 图像编辑成功扩展至 4D 场景模拟。
Weather Gaussian 表示：创新性地设计了基于共享特征和多天气解码器的高斯表示，成功解耦了场景几何与天气外观，保证了跨天气条件的结构一致性，并支持高效的场景切换。
物理驱动仿真：构建了基于粒子和光学原理的动态天气仿真系统，实现了对雨、雪、雾等动态天气现象的细粒度控制（如雨量大小、雪密度、雾浓度），兼具视觉真实感和物理一致性。
细粒度控制：不仅支持整体天气变换，还支持场景内物体的操作（如移除特定车辆）与天气编辑的同步进行。

4. 实验结果 (Results)

数据集：在 Waymo Open Dataset 和 nuScenes 数据集上进行了广泛测试。
定量指标：在 CLIP-S（内容保留）、CLIP-DS（文本对齐）和 Sem-CS（语义一致性）等指标上，WeatherCity 均显著优于现有的 SOTA 方法（包括 ControlNet, TurboEdit, FRESCO, Qwen-Image 等）。
- 例如，在 Waymo 数据集上，WeatherCity 的 CLIP-S 达到 0.872，而次优方法仅为 0.804。
定性效果：
- 真实性：能够生成逼真的雨滴、积雪和深度衰减的雾气，且无明显的几何扭曲或物体变形。
- 时序一致性：在动态序列中保持了流畅的帧间过渡，消除了 2D 编辑常见的闪烁问题。
- 物体编辑：能够精准执行“移除车辆并改变天气”等复杂指令，而基线方法往往失败或产生幻觉。
效率：渲染速度达到 25.67 FPS，满足实时仿真需求，远超基于 NeRF 的方法（通常<1 FPS）和 2D 编辑模型（<0.2 FPS）。

5. 意义与影响 (Significance)

自动驾驶仿真：为自动驾驶系统提供了生成多样化、高保真、包含极端天气边缘案例的虚拟训练环境的能力，有助于提升模型在复杂气象条件下的鲁棒性。
技术突破：解决了 3D 场景编辑中“结构保持”与“外观变换”难以兼得的难题，为未来的动态可控虚拟环境创建奠定了坚实基础。
应用前景：不仅限于自动驾驶，该方法还可应用于游戏开发、电影特效制作以及任何需要动态天气交互的 3D 视觉应用。

综上所述，WeatherCity 通过结合先进的 3D 高斯表示、文本引导编辑和物理仿真，成功实现了可控、高保真且时序一致的 4D 城市场景天气变换，是该领域的一项重大进展。