RAYNOVA: Scale-Temporal Autoregressive World Modeling in Ray Space

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 RAYNOVA 的人工智能模型，你可以把它想象成一位拥有“上帝视角”的超级电影导演，专门负责为自动驾驶汽车拍摄逼真的“未来电影”。

为了让你更容易理解，我们用几个生活中的比喻来拆解它的核心亮点：

1. 核心任务：给自动驾驶拍“预演电影”

以前的自动驾驶模拟，就像是在玩拼图，把空间（画面）和时间（动作）分开处理，或者非要先画好一张精确的 3D 地图才能开始。这就像导演要求演员必须站在固定的标记点上演戏，一旦摄像机位置变了，或者车转弯了，整个戏就演不下去了。

RAYNOVA 不同，它不依赖死板的 3D 地图。它更像是一个经验丰富的老导演，不需要看剧本（3D 几何先验），只要给你几个线索（比如：“前面是雨天”、“左边有棵树”、“车要左转”），它就能在脑海里瞬间构建出一个连续、动态的 4D 世界（3D 空间 + 时间），并拍出多角度的视频。

2. 两大“魔法”技能

技能一：双重因果的“层层递进”法（Dual-Causal Autoregression）

想象你在画画：

以前的方法：要么先画完整个画面的轮廓，再填细节；要么先画完这一秒，再画下一秒。
RAYNOVA 的方法：它同时掌握了两种节奏。
1. 尺度节奏（Scale-wise）：它像画家一样，先画个大概的草图（低分辨率），然后一层层叠加细节（高分辨率），直到画面清晰。
2. 时间节奏（Temporal）：它像拍电影一样，这一秒的画面是基于上一秒发生的，而且它同时考虑所有摄像头的画面。

比喻：这就好比它既在垂直方向上把画面从模糊变清晰，又在水平方向上把时间从过去推向未来。这种“双管齐下”的方式，让它生成的视频既清晰又连贯。

技能二：神奇的“相对罗盘”（Ray Space Relative Positioning）

这是这篇论文最厉害的地方。

以前的模型：像是一个拿着绝对坐标（经纬度）的导游。如果你把它从北京带到上海，它可能因为坐标变了就迷路了，或者不知道该怎么描述新环境。
RAYNOVA 的模型：它手里拿的是一个相对罗盘。它不关心你具体在地球的哪个点，它只关心“物体 A 在物体 B 的左边”、“光线是从哪个角度射进来的”。

比喻：就像你教孩子认路，以前的方法是背“走到红绿灯左转”，如果红绿灯拆了，孩子就傻了。RAYNOVA 教的是“看到大树往右走”。因为它是基于**光线（Ray）的相对位置来理解的，所以无论摄像头装在哪里（前、后、左、右），无论车怎么转，它都能瞬间理解并生成正确的画面。这就是为什么它能“零样本”（Zero-shot）**适应从未见过的摄像头配置。

3. 解决“长视频”的遗忘症（Recurrent Training）

生成短视频容易，但生成 10 秒、20 秒的长视频，AI 容易“精神分裂”（画面漂移，物体突然消失或变形）。

RAYNOVA 的对策：它采用了一种**“滚动复习”**的训练法。在训练时，它不仅看当前的画面，还会把之前生成的画面作为“记忆”存下来，并故意在训练中加入一些“小错误”（模拟预测不准的情况），强迫模型学会自我修正。
比喻：就像学生复习功课，以前是背完第一章就忘，现在它是每学一章，就回头复习前几章，并且故意做错题来锻炼抗干扰能力，所以它能生成很长且稳定的视频。

4. 实际效果：又快又好

画质：生成的视频非常逼真，连雨天的反光、夜晚的灯光都很真实。
速度：它比传统的“扩散模型”（像 Sora 那种）快得多，就像从“慢工出细活”变成了“快手大厨”。
灵活性：你可以给它一张地图、一个物体框、甚至一段文字，它就能生成对应的多视角视频。甚至你可以把摄像头从车头移到车尾，它也能自动生成那个视角的画面，而无需重新训练。

总结

RAYNOVA 就像是一个不需要 3D 建模师、不需要固定机位、能即兴发挥的自动驾驶电影导演。它通过理解“光线的相对关系”和“层层递进的生成逻辑”，让自动驾驶汽车能在虚拟世界里安全、逼真地“预演”各种复杂的路况，从而在真正上路前变得无比聪明。

简单来说：它让 AI 学会了像人类一样，用“相对关系”去理解世界，而不是死记硬背“绝对坐标”。

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 RAYNOVA 的新型世界基础模型（World Foundation Model），专门用于自动驾驶场景下的多视角视频生成。该模型旨在模拟物理世界中复杂场景的演化，具有高度的几何无关性（geometry-agnostic）和强大的泛化能力。

以下是对该论文的详细技术总结：

1. 研究背景与问题 (Problem)

现有的世界模型在模拟现实世界演化时面临以下主要挑战：

时空解耦的局限性：传统方法通常将空间（多视角）和时间（多帧）相关性分开处理。这种设计限制了模型处理新颖传感器配置和快速相机运动的灵活性。
强几何先验的束缚：许多现有方法依赖显式的 3D 场景表示（如点云、BEV 特征或体积特征）来保证时空一致性。这种“强制几何”的方法虽然在小范围内有效，但难以泛化到训练分布之外的开放世界环境，且对特定的相机配置和重叠视角有强依赖。
长视频生成的分布漂移：在自回归生成长视频时，训练阶段（使用真实数据）与推理阶段（使用预测数据）之间的分布差异会导致误差累积和分布漂移。

2. 核心方法论 (Methodology)

RAYNOVA 采用了一种**双重因果自回归（Dual-Causal Autoregressive）框架，并在相机射线空间（Ray Space）**中构建各向同性的时空表示。

A. 双重因果自回归框架 (Dual-Causal Autoregression)

模型在两个拓扑顺序上进行自回归预测：

尺度因果（Scale Causality）：基于“下一尺度预测”（Next-Scale Prediction）策略。图像被量化为多尺度 Token 图（从低分辨率到高分辨率）。模型先预测低尺度特征，再基于低尺度预测高尺度细节。
时间因果（Time Causality）：在统一的 4D 时空空间中，当前时刻的多视角图像生成依赖于过去所有时刻、所有视角的图像信息。
- 创新点：不同于假设同一相机帧间强依赖的方法，RAYNOVA 假设当前帧依赖于所有过去帧的所有视角，从而更好地适应复杂的自车运动（如转弯）。

B. 基于相对 Plücker 射线的各向同性表示 (Isotropic Spatio-Temporal Representation)

这是 RAYNOVA 的核心创新，旨在消除对特定相机配置的依赖：

射线空间编码：利用 Plücker 射线（Plücker ray）表示每个视觉 Token 在相机空间中的位置。
相对位置编码（Relative Positional Encoding）：传统的绝对位置编码限制了泛化能力。RAYNOVA 扩展了旋转位置编码（RoPE），将其应用于 7D 空间（射线原点 $m$ 、方向 $d$ 和时间 $t$ ）。
机制：注意力机制中的得分计算基于两个 Token 之间的相对射线位置，而非绝对坐标。这使得模型能够自然地外推到训练范围之外，支持零样本（Zero-shot）适应未见过的相机配置、视场角（FOV）和运动模式。

C. 架构设计

基础架构：基于预训练的 "Infinity" 图像生成模型（Next-Scale Prediction），采用 Transformer 架构。
注意力模块：
- 图像级自注意力：保证单帧图像的逼真度。
- 全局自注意力：在所有视角和帧之间进行统一的全局注意力计算，确保时空一致性。
- 图像级交叉注意力：处理条件输入（文本、物体框、高精地图）。
递归训练范式（Recurrent Training）：为了解决长视频生成的分布漂移问题，提出了一种新的训练策略。在训练过程中，递归地进行前向和反向传播，并缓存全局注意力模块的潜在特征（Latent Features），同时模拟推理时的预测误差（通过随机翻转 Token 位），使训练分布与推理分布对齐。

3. 关键贡献 (Key Contributions)

通用的世界基础模型：RAYNOVA 是一个单一模型，支持多种输入（文本、物体、地图、单视角图像）和输出格式（多视角、不同分辨率、不同帧率），无需针对特定任务重新训练。
无几何先验的泛化能力：通过相对射线位置编码，模型摆脱了对显式 3D 结构（如点云、深度图）的依赖，能够零样本泛化到未见过的相机配置和运动模式。
高效且可控的生成：利用自回归架构，RAYNOVA 在生成速度（吞吐量）上显著优于基于扩散（Diffusion）的基线模型，同时保持了对多种控制信号的高保真度。
长视频生成稳定性：提出的递归训练范式有效缓解了长视频生成中的分布漂移问题。

4. 实验结果 (Results)

在 nuScenes 数据集上的实验表明，RAYNOVA 取得了最先进的性能：

视频生成质量：在 FID（Fréchet Inception Distance）和 FVD（Fréchet Video Distance）指标上均优于现有基线（如 MagicDrive, Panacea, X-Drive 等）。例如，FID 达到 10.5，FVD 达到 91。
生成效率：吞吐量高达 1.96 图像/秒，远超扩散模型（通常<1 图像/秒）。
条件控制能力：
- 物体与地图：在合成图像上进行感知任务（如 3D 检测 NDS 和地图分割 mIoU），结果接近真实图像，显著优于其他方法。
- 运动规划：将生成的视频输入到预训练的自动驾驶规划器（VAD）中，规划出的轨迹与真实场景高度一致，证明了生成的物理合理性。
新视角合成（Novel View Synthesis）：在相机位置发生偏移（1m, 2m, 4m）或旋转的情况下，RAYNOVA 仍能保持高质量的生成，且无需任何 3D 几何先验。
消融实验：证明了“相对射线编码”优于绝对编码，“全局注意力”优于解耦的时空注意力，“递归训练”显著提升了长视频一致性。

5. 意义与影响 (Significance)

自动驾驶模拟：RAYNOVA 为自动驾驶提供了强大的仿真工具，能够生成逼真的多视角长视频，用于数据增强、极端场景测试和闭环仿真，且无需昂贵的 3D 重建或特定的传感器配置。
世界模型的新范式：该工作展示了如何在最小化归纳偏置（Inductive Bias）的情况下，通过相对几何表示实现强大的物理世界模拟，为构建更通用的世界基础模型提供了新的方向。
开放性与可扩展性：模型设计支持异构数据（不同相机配置、分辨率），易于扩展到机器人、无人机等其他领域，且代码将开源。

总结来说，RAYNOVA 通过引入射线空间的相对位置编码和双重因果自回归机制，成功解决了世界模型在几何泛化性和长时序一致性方面的瓶颈，实现了高效、可控且物理合理的多视角视频生成。