HorizonForge: Driving Scene Editing with Any Trajectories and Any Vehicles

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 HorizonForge 的新技术，你可以把它想象成自动驾驶领域的“魔法修图师”兼“剧本导演”。

在自动驾驶的世界里，为了测试汽车在极端情况（比如突然有人冲出来、或者车辆突然变道）下的反应，我们需要大量的测试数据。但在现实中，收集这些“罕见且危险”的驾驶场景既昂贵又危险。于是，科学家们试图用电脑“造”出这些场景。

以前的方法要么像笨拙的泥瓦匠（重建法），虽然能还原真实场景，但想改个地方就全塌了；要么像疯狂的画家（生成法），能画出新东西，但经常把车画歪、把路画没，或者让车在视频里“瞬移”，看起来很不真实。

HorizonForge 做了什么？

它把这两个缺点都解决了，创造了一个**“可编辑的 3D 驾驶世界”**。我们可以用三个生动的比喻来理解它的核心功能：

1. 把视频变成“乐高积木” (3D 资产采集)

想象你拍了一段开车视频。以前的技术只能把视频当成一张张平面的画，想改很难。
HorizonForge 则像是一个超级扫描仪，它把视频里的每一辆车、每一棵树、每一块路面，都瞬间拆解成了3D 的“乐高积木”（论文里叫“高斯泼溅”和“网格”）。

为什么这很酷？ 因为一旦变成了积木，你就可以在 3D 空间里随意移动它们。你想让车变道？把积木挪一下就行。你想加一辆车？直接拿一块新的积木放上去。

2. 用“自然语言”指挥交通 (任意轨迹与车辆)

以前，如果你想让视频里的车变道，可能需要写复杂的代码，或者手动一帧一帧地调。
HorizonForge 就像是一个懂人话的 AI 导演。你可以直接对它说：“把那辆红色的 SUV 变成蓝色，让它突然急刹车”或者“在前方插入一辆灰色的轿车”。

神奇之处： 它不仅能听懂你的指令，还能自动计算出这辆车在 3D 空间里该怎么动，并且保证它看起来就像真的开在那里一样，不会穿模（穿过其他物体）或飘在空中。

3. 给积木涂上“电影级”的滤镜 (视频扩散渲染)

把积木摆好位置后，直接看可能会觉得有点假，像游戏里的模型。
这时候，HorizonForge 请来了一个**“时间魔法师”（视频扩散模型）。它的作用不是重新画每一帧，而是像修图软件里的“智能填充”和“平滑处理”**，但它处理的是整个视频流。

它做了什么？ 它确保车在移动时，光影是连贯的，背景不会闪烁，车轮转动是自然的。它把原本可能有点粗糙的"3D 积木图”，瞬间渲染成好莱坞电影级别的逼真视频。

为什么这很重要？（简单的总结）

以前： 想要测试自动驾驶在“暴雨天突然变道”时的反应，可能得等几年才能等到一次真实的事故，或者花大价钱去拍。
现在： 用 HorizonForge，你可以像**玩《模拟城市》或《GTA》**一样，在电脑里随意修改现实世界的驾驶视频。
- 想加个障碍物？加。
- 想改个路线？改。
- 想让车突然急刹？刹。
- 而且，改完后的视频看起来和真的一模一样，连老司机都分不清真假。

它的“超能力”数据

论文里提到，他们做了一个叫 HorizonSuite 的考试，让各种 AI 来比拼谁改得更好。

结果： HorizonForge 就像考试里的第一名，比第二名强了 83% 以上（用户更喜欢它的效果），而且画面质量（FID 分数）提升了 25%。
核心秘诀： 它发现，把视频变成3D 积木（高斯泼溅）比用简单的点云或方框要精细得多；而且，用视频模型（考虑时间连续性）比用单张图片模型（只考虑某一帧）要稳定得多，不会出现“车在走路，背景在跳舞”的鬼畜现象。

一句话总结：
HorizonForge 让自动驾驶的测试变得像在 Photoshop 里修图一样简单，但修出来的不是照片，而是完全逼真、可以随意操控的 3D 驾驶视频，这将大大加速安全、可靠的自动驾驶汽车的诞生。

HorizonForge: Driving Scene Editing with Any Trajectories and Any Vehicles

1. 把视频变成“乐高积木” (3D 资产采集)

2. 用“自然语言”指挥交通 (任意轨迹与车辆)

3. 给积木涂上“电影级”的滤镜 (视频扩散渲染)

为什么这很重要？（简单的总结）

它的“超能力”数据

HorizonForge：基于任意轨迹与任意车辆的驾驶场景编辑技术总结

1. 研究背景与问题定义

2. 方法论 (Methodology)

2.1 核心流程

阶段一：3D 资产采集 (3D Assets Harvesting)

阶段二：视频渲染 (Video Rendering)

2.2 关键设计原则

3. 基准测试 (HorizonSuite)

4. 实验结果

5. 主要贡献

6. 意义与影响

HorizonForge: Driving Scene Editing with Any Trajectories and Any Vehicles

1. 把视频变成“乐高积木” (3D 资产采集)

2. 用“自然语言”指挥交通 (任意轨迹与车辆)

3. 给积木涂上“电影级”的滤镜 (视频扩散渲染)

为什么这很重要？（简单的总结）

它的“超能力”数据

HorizonForge：基于任意轨迹与任意车辆的驾驶场景编辑技术总结

1. 研究背景与问题定义

2. 方法论 (Methodology)

2.1 核心流程

阶段一：3D 资产采集 (3D Assets Harvesting)

阶段二：视频渲染 (Video Rendering)

2.2 关键设计原则

3. 基准测试 (HorizonSuite)

4. 实验结果

5. 主要贡献

6. 意义与影响

类似论文

Founder effects shape the evolutionary dynamics of multimodality in open LLM families

From Instructions to Assistance: a Dataset Aligning Instruction Manuals with Assembly Videos for Evaluating Multimodal LLMs

Causal Direct Preference Optimization for Distributionally Robust Generative Recommendation

Graphs RAG at Scale: Beyond Retrieval-Augmented Generation With Labeled Property Graphs and Resource Description Framework for Complex and Unknown Search Spaces

T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search