NoRD: A Data-Efficient Vision-Language-Action Model that Drives without Reasoning

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 NORD 的新模型，它的核心目标是让自动驾驶汽车变得更聪明、更高效，但又不需要像以前那样“死记硬背”海量的数据或进行复杂的“逻辑推理”。

为了让你更容易理解，我们可以把自动驾驶模型想象成一个正在学开车的“新手司机”。

1. 以前的做法：超级学霸的“死磕”模式

在 NORD 出现之前，最先进的自动驾驶模型（我们叫它“传统学霸”）是这样学习的：

海量题库：它们需要看几百万甚至上千万小时的驾驶视频（数据量巨大）。
详细解题步骤：每看一个视频，都要请一位“超级老师”（大语言模型）在旁边写几千字的“解题思路”（Chain-of-Thought，思维链）。比如：“前面有红灯，所以要减速；左边有车，所以要变道……"
强化训练：然后，再通过强化学习（RL）让模型根据这些详细的解题步骤去优化驾驶动作。

缺点：这就像让一个学生为了考驾照，先背完整个图书馆的《交通法规》和《驾驶心理学》，还要把每道题的解题过程都写下来。

太贵了：收集数据、请老师写思路，成本极高。
太慢了：开车时，模型还得先“思考”一遍那些文字，导致反应慢，甚至可能因为思考太久而错过刹车时机。

2. NORD 的突破：直觉派“老司机”的诞生

NORD 团队提出了一个大胆的想法：“我们能不能不写解题步骤，只用很少的数据，直接练出好车技？”

他们发现，之前的尝试失败了。为什么？因为如果只给模型很少的数据（比如只看了 8 万小时，而不是 200 万小时），模型一开始是个“笨学生”，开车经常出错。这时候，如果用传统的强化学习方法（叫 GRPO）去教它，老师会发现：

简单的题（比如直路开）：模型做得很好，老师觉得“不用教了”。
难的题（比如急转弯）：模型经常撞车，但也偶尔蒙对。老师觉得“这题太难了，模型太笨，教了也没用”，于是放弃了这些难点。

这就导致模型永远学不会处理复杂情况，只能在简单的路上开。

3. 核心魔法：Dr. GRPO（专治“偏科”的老师）

NORD 团队发现，问题不在于“笨学生”，而在于“教学方法”不对。传统的老师（GRPO）有**“难度偏见”**：它只喜欢教那些容易拿高分的题，忽略了那些虽然难但能进步的空间。

于是，他们请来了一位新老师，叫 Dr. GRPO。

Dr. GRPO 的特点：它不管题目难不难，也不管模型这次考得有多差。它专门盯着那些**“虽然经常出错，但只要练练就能进步”**的复杂场景（比如急转弯、避让行人）。
比喻：以前的老师看到学生做错题就叹气放弃；Dr. GRPO 老师会说：“虽然你这次错了，但这正是你提升的关键，我们再来练练这个！”

4. 结果：少即是多

用了 Dr. GRPO 之后，奇迹发生了：

数据量减半：NORD 只需要用不到 60% 的数据（甚至更少），就能达到和那些“超级学霸”一样的驾驶水平。
不需要“写论文”：NORD 在开车时，不需要先写出一大段“思考过程”（Reasoning）。它看到路况，直接输出方向盘和油门的动作。
- 比喻：就像真正的老司机，看到红灯脚就踩下去了，不需要在心里默念“红灯停，绿灯行，我要减速……"。这种直觉反应让车开得更快、更稳。
省钱又省电：因为不需要生成那些冗长的“思考文字”，计算量大大减少，推理速度更快，成本更低。

总结

这篇论文告诉我们：自动驾驶不一定非要靠“海量数据 + 复杂推理”才能变强。

NORD 就像是一个**“天赋型选手”**，它不需要死记硬背厚厚的教科书（推理数据），也不需要看几百万小时的视频。只要找对方法（Dr. GRPO），哪怕只给它看一小部分视频，它也能通过针对性的“魔鬼训练”，学会在复杂的道路上安全驾驶，而且反应比那些“书呆子”还要快。

一句话概括：NORD 证明了，在自动驾驶领域，“少而精”的训练加上“因材施教”的算法，比“多而杂”的死记硬背更有效。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

当前的端到端自动驾驶主要采用 视觉 - 语言 - 动作 (VLA) 模型，其主流训练范式通常包含两个阶段：

监督微调 (SFT)：在大规模数据集上进行，且依赖密集的 思维链 (Chain-of-Thought, CoT) 推理标注。
强化学习 (RL) 后训练：通常使用 组相对策略优化 (Group Relative Policy Optimization, GRPO) 来对齐驾驶指标。

现有方法面临的三大挑战：

数据成本高：需要收集海量特定驾驶场景数据。
标注成本高：生成高质量的推理轨迹（Reasoning Traces）极其昂贵。
推理延迟高：推理过程中生成的推理 Token 增加了计算负担和延迟，难以满足实时部署需求。

核心问题：
作者提出假设：能否在无需推理标注且数据量大幅减少（<60%）的情况下，依然实现具有竞争力的自动驾驶性能？
初步尝试的失败：
作者首先训练了一个仅使用 8 万条数据（无推理标注）的基线模型 (NORD-BASE)，并尝试使用标准的 GRPO 进行后训练。结果发现性能提升微乎其微（仅 +0.67%），远低于基于推理的基线模型。这导致人们误以为推理数据是高性能的必要条件。

根本原因分析：
作者指出，失败并非源于模型本身，而是 GRPO 算法与弱 SFT 策略在复杂奖励景观下的交互问题。

难度偏差 (Difficulty Bias)：在驾驶任务中，奖励信号（如 PDM 分数）分布极化。
- 低方差区域（简单或极难场景）：模型表现稳定，奖励均值高或低，方差小。
- 高方差区域（中等难度场景，如急转弯）：这是大多数样本所在的区域。由于 SFT 模型较弱，这些场景的 rollout 结果波动大（有的成功，有的失败），导致组内奖励方差极高。
GRPO 的缺陷：标准 GRPO 在计算优势函数时，会除以组内奖励的标准差。这导致高方差样本（即最需要学习的中等难度样本）的优势信号被过度抑制，而低方差样本（简单样本）的信号被放大。因此，GRPO 无法有效优化弱策略模型。

2. 方法论 (Methodology)

为了解决上述问题，作者提出了 NORD 框架，其核心在于移除推理并改进强化学习算法。

2.1 模型架构 (NORD)

基础模型：基于 Qwen-2.5VL-3B-Instruct。
输入：过去轨迹、当前速度/加速度、多视角 RGB 图像（前、前左、前右）。
输出：直接预测未来的轨迹 Token，完全跳过推理步骤。
Token 效率：使用 k-disc tokenization 技术，将连续轨迹离散化为 2048 个 Token 的词汇表，显著减少了 Token 数量。
训练流程：
1. SFT 阶段：仅在少量数据（如 NAVSIM 的 8 万条）上进行监督微调，不依赖推理标注。
2. RL 后训练阶段：使用改进的算法进行策略优化。

2.2 核心算法创新：Dr. GRPO

针对 GRPO 在高方差样本上失效的问题，作者引入了 Dr. GRPO (Difficulty-aware GRPO)。

原理：Dr. GRPO 移除了 GRPO 优势函数计算中的标准差项 (Standard Deviation term)。
- 标准 GRPO 优势函数： $\hat{A} \propto \frac{r_i - \text{mean}}{\text{std}}$
- Dr. GRPO 优势函数： $\hat{A} \propto r_i - \text{mean}$
效果：通过移除分母中的标准差，Dr. GRPO 不再惩罚高方差样本。这使得模型能够从那些“中等难度、高不确定性”的场景中学习，从而有效优化弱 SFT 策略。
其他优化：采用了 DAPO 风格的非对称裁剪 (Asymmetric Clipping) 以防止熵崩溃，并去除了 KL 散度正则化。

3. 关键贡献 (Key Contributions)

首次识别问题根源：指出无推理、数据高效的 VLA 训练失败是由于 GRPO 中的难度偏差 (Difficulty Bias) 引起的，特别是当弱 SFT 策略面对复杂驾驶指标时，高方差样本的学习信号被抑制。
实证分析：详细刻画了弱 SFT 策略导致的奖励分布极化现象，证明了标准 GRPO 无法从高方差区域获取有效学习信号。
提出 NORD 框架：首次将 Dr. GRPO 应用于自动驾驶领域，成功训练出一个无需推理标注、数据量减少 60% 以上的高效 VLA 模型。
性能验证：在 NAVSIM 和 WaymoE2E 等具有挑战性的基准测试中，NORD 在无需推理和集成的情况下，达到了与 SOTA 模型（如 AutoVLA）竞争的性能，同时显著提升了推理速度和 Token 效率。

4. 实验结果 (Results)

4.1 NAVSIM 基准测试

数据效率：NORD 仅使用 80,000 条训练样本（比 AutoVLA 少约 60%+），且无需 LiDAR 或 HD 地图，仅靠 3 帧 RGB 图像。
性能提升：
- NORD-BASE (SFT) 得分：76.66
- NORD-BASE + 标准 GRPO：77.18 (+0.67%，几乎无提升)
- NORD-BASE + Dr. GRPO：85.62 (+11.68%，显著提升)
Best-of-N (BoN)：在 6 次采样中取最优轨迹时，NORD-BoN 达到 92.4 的 PDM 分数，超越了基于推理的 AutoVLA-BoN (92.1)。

4.2 WaymoE2E 基准测试

数据效率：仅使用 12,000 条 SFT 样本和 450 条 RL 样本。相比之下，Poutine 和 HMVLM 需要 12-17 倍的数据量。
性能：NORD 获得了 7.709 的 Rated Feedback Score (RFS)，在所有无需推理的模型中排名第一，且是表现最好的 Top 3 模型之一。
泛化性：在 ADE (平均位移误差) 指标上，NORD 优于所有其他竞争模型，尽管训练数据量减少了 6 倍以上。

4.3 效率与延迟

推理速度：由于去除了推理 Token，NORD 的推理延迟显著降低，Token 数量大幅减少（约为推理模型的 1/3）。
帕累托前沿：在性能 - 数据效率的帕累托曲线上，NORD 位于“高性能、高数据效率”区域，证明了无需推理也能实现高效自动驾驶。

5. 意义与结论 (Significance)

打破“推理依赖”迷思：论文有力地证明了，在自动驾驶领域，显式的语言推理（Reasoning）并非高性能的必要条件。之前的性能差距主要源于优化算法（GRPO）与弱策略的不匹配，而非模型能力的缺失。
降低部署门槛：通过移除推理标注和减少数据需求，NORD 极大地降低了训练成本和推理延迟，使得在资源受限的边缘设备上部署高性能端到端自动驾驶系统成为可能。
算法启示：揭示了在强化学习后训练中，针对高方差样本（即困难样本）的优化策略至关重要。Dr. GRPO 为处理此类问题提供了一种轻量级且有效的解决方案。

总结：NORD 通过识别并解决 GRPO 中的难度偏差问题，成功构建了一个数据高效、无需推理、推理速度快的自动驾驶 VLA 模型，为未来高效、可扩展的自动驾驶系统开辟了新路径。