PRIX: Learning to Plan from Raw Pixels for End-to-End Autonomous Driving

✨

这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性，请参阅原始论文。阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 PRIX 的新系统，它的目标是让自动驾驶汽车变得更聪明、更便宜、更快速。

为了让你轻松理解，我们可以把自动驾驶汽车想象成一个正在学习开车的“新手司机”。

1. 现在的痛点：司机太“重”且太“贵”

目前的顶尖自动驾驶系统（就像那些昂贵的豪华车）有两个大问题：

装备太贵：它们必须依赖昂贵的激光雷达（LiDAR），就像给司机戴了一副昂贵的夜视仪和深度传感器，普通家用车根本装不起。
脑子太重：为了处理这些数据，它们需要巨大的计算机模型（像是一个超级大脑），这导致反应慢、耗电量巨大，很难装进普通的小轿车里。

此外，很多系统喜欢把周围的世界“拍成一张鸟瞰图”（BEV），就像司机必须先把眼前的景象在脑子里转成一张俯视图才能思考，这非常消耗脑力。

2. PRIX 的解决方案：只靠眼睛的“天才司机”

PRIX（Plan from Raw pIXels）提出了一种全新的思路：我们不需要激光雷达，也不需要把画面转成鸟瞰图，只需要像人类一样，直接用眼睛（摄像头）看世界，就能学会开车。

它的核心思想是：“所见即所行”。它直接从摄像头拍到的原始像素（Raw Pixels）出发，直接规划出未来的行驶路线。

3. 核心黑科技：CaRT（情境感知 recalibration 变压器）

这是 PRIX 最聪明的地方。我们可以把它想象成司机的**“超级注意力机制”**。

普通司机：看路时，可能只盯着前面的车，或者只盯着路边的树，容易顾此失彼。
PRIX 的 CaRT 模块：它像一个经验丰富的老教练，能同时处理两个层面的信息：
- 细节：看清车道线的弯曲程度（就像看清脚下的路）。
- 大局：理解整个路口的情况，比如“前面是红灯”或“左边有车要变道”（就像看清整个交通局势）。
CaRT 模块能把这些“细节”和“大局”完美融合，不断修正司机的注意力，让它既不会忽略路边的障碍物，也不会忘记要去哪里。

4. 如何规划路线？：像“试错”一样的扩散模型

PRIX 在决定怎么走时，使用了一种叫“扩散规划”的方法。

传统方法：像是在做数学题，硬算出一条路，容易算错。
PRIX 的方法：像是在**“蒙眼猜路”**。
1. 它先随机画一条乱七八糟的路线（全是噪音）。
2. 然后，它看着摄像头拍到的路况，像擦黑板一样，一步步把路线上的“乱码”擦掉，修正成一条平滑、安全的路线。
3. 因为它有 CaRT 提供的“超级眼力”，它只需要擦两下（两步）就能得到完美的路线，速度极快。

5. 结果如何？：又快又强又省钱

论文通过大量的测试（在 NavSim 和 nuScenes 数据集上）证明：

性能顶尖：PRIX 的表现超过了大多数需要激光雷达的复杂系统，甚至比很多“巨无霸”模型（参数超过 1 亿个）还要好。
速度飞快：它的推理速度非常快（每秒 57 帧），就像老司机一样反应敏捷，而很多大模型慢得像蜗牛。
身材小巧：它的模型很小（只有 3700 万个参数），就像把超级大脑压缩成了一个普通的手机芯片，普通家用车也能装得下。

总结

PRIX 就像是一个“轻量级但天赋异禀”的司机。
它不需要昂贵的激光雷达装备，也不需要笨重的超级计算机。它只靠普通的摄像头，通过一种聪明的“注意力机制”（CaRT）和高效的“试错修正”方法，就能在复杂的道路上安全、快速地行驶。

这意味着，未来我们普通人的家用车，也有望用上这种既安全又便宜的自动驾驶技术，而不需要花大价钱去改装昂贵的传感器。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

尽管端到端（End-to-End, E2E）自动驾驶模型展现出巨大潜力，但其实际部署仍面临三大主要挑战：

模型体积庞大：现有的 SOTA 模型（如 UniAD, VAD）通常包含超过 1 亿参数，导致计算成本高、推理速度慢。
对昂贵传感器的依赖：许多高性能模型依赖 LiDAR 或多模态融合（相机+LiDAR），限制了其在仅配备相机的量产车上的应用。
计算密集型特征表示：主流方法严重依赖鸟瞰图（BEV）特征提取，尤其是将相机数据转换为 BEV 的过程（如 LSS 模型），计算开销巨大。

核心痛点：如何在仅使用相机数据（Camera-only）、无需 LiDAR 和显式 BEV 表示的情况下，构建一个既高效（小模型、高帧率）又具备 SOTA 性能的端到端自动驾驶规划系统？

2. 方法论 (Methodology)

作者提出了 PRIX (Plan from Raw pIXels)，一种全新的端到端驾驶架构。其核心思想是直接从原始像素中学习丰富的视觉表示，用于直接预测安全轨迹，而无需显式的几何 BEV 转换或 LiDAR 数据。

2.1 整体架构

PRIX 的输入仅为当前时刻的多相机图像和自车状态（速度、加速度、导航指令），输出为未来 4 秒的 8 个路点轨迹。

输入：Raw Camera Pixels + Ego State。
输出：Trajectory (x, y, heading)。
核心流程：视觉特征提取 $\rightarrow$ 上下文感知重校准 $\rightarrow$ 条件扩散规划头。

2.2 核心组件：上下文感知重校准 Transformer (CaRT)

这是 PRIX 的视觉特征提取核心，旨在增强多尺度视觉特征：

层级特征提取：使用 ResNet 作为骨干网络提取多尺度特征图 ( $x_i$ )。
空间标准化与自注意力：将特征图通过自适应平均池化标准化，然后输入 CaRT 模块。
全局上下文重校准：CaRT 利用共享权重的自注意力（Self-Attention）机制，计算 Query, Key, Value 矩阵。它通过全局上下文信息来“重校准”局部特征，调整初始局部特征的值和重要性。
残差连接与融合：重校准后的特征与原始特征通过跳跃连接（Skip Connection）融合，再送入下一层 ResNet。
多尺度融合：最终通过类似 FPN（特征金字塔网络）的自顶向下路径，生成包含全局语义和局部细节的最终特征图（Global Features 和 Local Features）。

2.3 规划器：基于扩散的轨迹生成 (Diffusion-Based Planner)

无几何 BEV：规划器不依赖几何 BEV，而是基于学习到的“规划网格”（Planner Grid）。该网格通过语义和轨迹损失与自车坐标系对齐，无需相机内参/外参。
条件扩散模型：采用条件去噪扩散模型（Conditional Denoising Diffusion）。
- 锚点初始化：使用 K-Means 聚类生成的轨迹锚点（Anchors）作为初始先验，而非纯噪声。
- 迭代去噪：模型在极少的步骤（如 2 步）内，结合视觉特征和自车状态，将带噪的锚点 refine 为可行的轨迹。
多任务学习：为了增强特征提取器的鲁棒性，引入了辅助任务：
- 主任务：轨迹规划损失 ( $L_{plan}$ )。
- 辅助任务 1：目标检测 ( $L_{det}$ )，学习定位车辆和行人。
- 辅助任务 2：语义一致性 ( $L_{sem}$ )，学习车道线和可行驶区域。

3. 关键贡献 (Key Contributions)

PRIX 架构：提出了一种仅基于相机的端到端规划器，在推理速度和模型大小上显著优于多模态和现有的单模态方法。
CaRT 模块：设计了 Context-aware Recalibration Transformer，通过共享权重的自注意力机制有效增强多尺度视觉特征，无需显式 BEV 转换。
性能与效率的平衡：
- 在 NavSim-v1 上，PRIX 以 37M 参数（远小于 UniAD 的 100M+）实现了 57 FPS 的推理速度。
- 在性能上，PRIX 超越了大多数多模态 SOTA 方法（如 DiffusionDrive, Transfuser）。
全面的消融研究：验证了 CaRT 模块、共享权重策略、辅助任务以及扩散步数对性能的关键影响，证明了视觉特征提取器是端到端系统的核心驱动力。

4. 实验结果 (Results)

PRIX 在多个主流基准测试中取得了 SOTA 或极具竞争力的表现：

4.1 NavSim-v1 (非反应式仿真)

PDMS 分数：87.8 (Camera-only 方法中第一，仅次于多模态的 DiffusionDrive 88.1)。
效率：57 FPS，模型大小仅 37M。
- 对比：Transfuser (60 FPS, 56M), DiffusionDrive (45 FPS, 60M), UniAD (3 FPS, >100M)。
安全性：在碰撞率 (NC) 和保持在可行驶区域 (DAC) 等关键指标上表现优异，甚至在某些场景下比真值（GT）更安全。

4.2 NavSim-v2 (反应式仿真)

EPDMS 分数：84.2，在所有测试的相机-only 方法中排名第一，优于 HydraMDP++ (81.4) 和 DriveSuprim (83.1)。

4.3 nuScenes (轨迹预测)

L2 误差：平均 0.57m (1s-3s 范围)，优于 DiffusionDrive (0.65m) 和 SparseDrive (0.61m)。
碰撞率：平均 0.07%，1 秒内为 0.00%，表现出极高的短期安全性。
速度：推理速度 11.2 FPS，是 nuScenes 上最快的相机-only 模型。

4.4 消融实验发现

CaRT 模块：移除 CaRT 会导致 PDMS 从 87.8 暴跌至 76.4，证明其必要性。
共享权重：在 CaRT 的不同尺度层共享自注意力权重，比独立权重更优（参数更少，速度更快，性能相当或略高）。
规划头：即使将复杂的扩散规划头替换为简单的 MLP，性能下降很小（87.8 $\rightarrow$ 85.1），证明视觉特征提取器承担了主要的“重活”。

5. 意义与结论 (Significance)

打破传感器依赖：证明了仅凭相机数据（无需 LiDAR）和无需显式 BEV 几何转换，也能实现超越多模态系统的规划性能。
量产可行性：PRIX 的小模型尺寸（37M）和高帧率（57 FPS）使其非常适合部署在计算资源受限的量产车上，解决了当前 E2E 模型“大而慢”的痛点。
范式转变：强调了视觉特征提取器在端到端学习中的核心地位。通过多任务学习（检测 + 分割 + 规划）构建的丰富语义表示，比复杂的几何转换更为有效。
开源贡献：代码将开源，为社区提供了一个高效、高性能的视觉自动驾驶基线。

总结：PRIX 通过创新的 CaRT 模块和基于扩散的规划策略，成功在效率（速度/大小）和性能（安全性/准确性）之间取得了最佳平衡，为低成本、大规模部署的端到端自动驾驶提供了新的技术路径。