Each language version is independently generated for its own context, not a direct translation.

这篇论文解决了一个自动驾驶领域非常核心但容易被忽视的问题：“自动驾驶 AI 太‘听话’，反而不会开车了”。

为了让你轻松理解，我们可以把自动驾驶模型想象成一个正在考驾照的“超级学霸”学生，而这篇论文就是他的特训教练。

1. 核心问题：为什么“学霸”也会翻车？（Narrow Policy / 狭隘策略）

现在的自动驾驶 AI（VLA 模型）通常分两步学习：

模仿学习（IL）：像学生看教科书一样，死记硬背人类司机的操作（比如：看到红灯就停，看到弯道就减速）。
强化学习（RL）：像学生上路实习，通过试错来优化自己的驾驶技术。

问题出在哪？
在“模仿学习”阶段，AI 太依赖那本“标准答案”（人类司机的轨迹）了。

比喻：这就好比一个学生，老师只教他“遇到红灯必须停在斑马线前 1 米处”。他背得滚瓜烂熟，但一旦遇到红灯坏了、或者前面有障碍物需要稍微绕一下，他就懵了。
后果：因为只学过这一种“标准答案”，AI 在后续“上路实习”（强化学习）时，不敢尝试其他路线。它以为只有那一条路是对的，导致它的思维非常狭隘（Narrow Policy）。
灾难：当它真的遇到复杂路况（比如有人突然变道），它要么死板地撞上去，要么因为不敢变道而卡死。它失去了探索新解决方案的能力。

2. 解决方案：Curious-VLA（好奇的自动驾驶）

作者提出了一个叫 Curious-VLA 的新框架，专门治这个“死板病”。它的核心思想是：不仅要学标准答案，还要学会“发散思维”。

第一阶段：模仿学习时的“脑洞大开” (Feasible Trajectory Expansion)

传统做法：只给 AI 看人类司机开的那一条线。
Curious-VLA 的做法：
- 制造“平行宇宙”：AI 不仅看人类怎么开，教练还故意给它生成10 种不同的合法开法。
  - 比喻：面对一个路口，人类司机可能走中间。教练就告诉 AI：“你看，走左边也是合法的，走右边也是合法的，甚至稍微慢一点也是合法的。”
- 标准化训练：把这些不同的路都整理好，让 AI 明白：原来开车不止一种姿势！
- 效果：AI 的脑子里不再只有一条死胡同，而是一张四通八达的地图。

第二阶段：强化学习时的“优中选优” (Adaptive Diversity-Aware Sampling & Spanning Driving Reward)

传统做法：AI 上路实习时，如果它开得太稳（大家都一样），或者开得太乱（全是错的），教练就不知道该怎么教了。
Curious-VLA 的做法：
- 只挑“有挑战”的题：教练会专门挑那些AI 容易犹豫、或者有多种解法的场景让它练。如果 AI 每次开出来的路线都一模一样，教练就把它“拉黑”，不练这种题了（因为练了也没用）。
- 放大奖励差异：给 AI 打分时，不仅看“没撞车”，还要看“开得漂不漂亮”。
  - 比喻：以前只要不撞车就得 60 分。现在，如果你能优雅地绕过障碍物，直接给 95 分；如果你只是勉强没撞车，只给 60 分。这样 AI 就会为了拿高分，主动去探索更优、更灵活的驾驶方式。

3. 最终成果：从“书呆子”变“老司机”

经过这套特训，Curious-VLA 在测试中表现惊人：

多样性：它能开出多种不同的路线，不再死板。
安全性：虽然路线多，但每一条都是安全的。
成绩：在著名的 Navsim 自动驾驶测试中，它拿到了**世界第一（SOTA）**的成绩。

总结

这篇论文告诉我们一个深刻的道理：在自动驾驶里，太“听话”（只模仿人类）反而是一种限制。

真正的智能，不是死记硬背标准答案，而是像好奇的探险家一样，在规则允许的范围内，大胆尝试各种可能性，从而在遇到突发状况时，能灵活地找到最佳解决方案。

一句话概括：
以前的 AI 是只会背书的优等生，遇到新题就挂科；现在的 Curious-VLA 是懂得变通的老司机，路再难也能开出花来。

Each language version is independently generated for its own context, not a direct translation.

论文技术总结：Devil is in Narrow Policy: Unleashing Exploration in Driving VLA Models

1. 研究背景与核心问题 (Problem)

背景：
视觉 - 语言 - 动作（VLA）模型正在成为自动驾驶端到端决策的核心技术。当前的主流训练范式通常采用两阶段流程：首先通过监督微调（SFT/Imitation Learning, IL）模仿专家轨迹，随后通过强化学习（Reinforcement Learning, RL，如 GRPO）进行推理优化。

核心问题：狭窄策略（Narrow Policy, NP）
论文指出，现有的 VLA 自动驾驶模型存在一个根本性的瓶颈，即“狭窄策略”问题。

现象： 在 IL 阶段，模型过度拟合（Over-exploit）单一的专家真值轨迹（Ground Truth），导致策略分布坍缩。这使得模型在后续 RL 阶段缺乏足够的探索（Exploration）能力。
后果：
1. 多样性丧失： 模型生成的轨迹高度趋同，缺乏应对复杂场景的多种可行方案。
2. RL 训练失效： 由于样本多样性低，RL 算法（特别是无 Critic 的 GRPO）计算的优势值（Advantage）趋近于零（ $\sigma_R \to 0$ ），导致梯度消失，训练过早饱和（Premature Saturation）。
3. 安全性风险： 模型倾向于收敛到单一模式，甚至产生不安全行为，无法在复杂场景中进行有效的试错和探索。

2. 方法论 (Methodology)

为了解决狭窄策略问题，作者提出了 Curious-VLA 框架，通过两阶段设计系统性地释放 VLA 模型的探索潜力。

2.1 模仿学习阶段 (IL Stage)：可行轨迹扩展 (FTE)

旨在打破对单一真值轨迹的依赖，构建多样化的训练数据。

可行轨迹扩展 (Feasible Trajectory Expansion, FTE)：
- 探索性数据扩展 (DE)： 利用基于扩散模型的 ReCogDrive，通过扰动潜在空间（Latent Space）生成多种物理可行的轨迹。不仅在同一意图内采样，还跨意图（如变道、转弯）生成数据，最终构建包含 14.2 万条安全且多样化样本的数据集。
- 思维链数据合成 (CoT)： 将驾驶推理过程结构化为四阶段：关键物体感知 $\rightarrow$ 驾驶解释 $\rightarrow$ 元行为描述 $\rightarrow$ 轨迹预测。利用大模型自动生成结构化的推理文本。
- 逐步归一化 (Step-wise Normalization, SN)： 针对长时域轨迹中不同时间步（Horizon）的物理尺度差异（远处方差大，近处方差小），对每个时间步的轨迹点进行独立归一化。这平衡了不同时间步的梯度幅度，提高了模型对多样化轨迹模式的区分能力。

2.2 强化学习阶段 (RL Stage)：多样性感知强化学习

旨在维持探索并优化奖励信号。

自适应多样性感知采样 (Adaptive Diversity-Aware Sampling, ADAS)：
- 动态筛选训练场景。对于每个场景，通过多次离线 rollout 评估其策略输出的多样性。
- 仅保留那些能产生高方差回报（即存在成功与失败多种可能）的场景进入训练集，过滤掉那些无论怎么跑都结果一致（单模态）的场景。这确保了 GRPO 算法能获得非零的优势值。
跨度驾驶奖励 (Spanning Driving Reward, SDR)：
- 重新设计奖励函数，采用类似 Focal Loss 的加权机制。
- 通过放大次优行为与最优行为之间的奖励差距，提高奖励函数对驾驶质量的敏感度，从而激励模型探索更优的解决方案。

3. 关键贡献 (Key Contributions)

问题发现与量化： 首次明确指出了自动驾驶 VLA 中“狭窄策略”这一根本瓶颈，并提出了**行为诊断（Behavioral Diagnostics）**指标（多样性、质量、性能）来定量验证该现象。
Curious-VLA 框架： 提出了一套无需额外模块的系统性框架，通过 FTE（数据侧）和 ADAS+SDR（算法侧）协同解决“利用 - 探索”困境。
SOTA 性能： 在 Navsim 基准测试中取得了最先进的性能，证明了该方法能有效解锁 VLA 的探索潜力。

4. 实验结果 (Results)

在 Navsim v1 和 v2 基准测试中，Curious-VLA 表现卓越：

Navsim v1 (Open-loop):
- PDMS 得分： 达到 90.3，刷新了单前视摄像头输入下的 SOTA 记录。
- Best-of-N (N=6)： 得分高达 94.8，接近人类专家水平（Human GT），远超其他 VLA 方法（如 AdaThinkDrive 的 93.0）。
- 对比优势： 即使使用较小的 3B 参数模型（Qwen2.5-VL-3B），其性能也优于使用更大模型或复杂规划器的方法（如 DriveVLA-W0）。
Navsim v2 (Extended PDMS):
- EPDMS 得分： 达到 85.3，同样刷新 SOTA，比次优方法（DiffusionDrive）高出 0.8 分。
多样性分析：
- 基线模型（Qwen2.5-VL, ReCogDrive）的轨迹多样性极低（mean-pFDE 仅为 0.20m - 0.33m），且存在探索坍缩。
- Curious-VLA 在保持高质量（min-FDE 0.547）的同时，实现了极高的多样性（mean-pFDE 1.415），证明了其成功打破了狭窄策略。
泛化能力： 在 nuScenes 数据集上也取得了优于现有 E2E 和 VLA 模型的 L2 误差和碰撞率表现。

5. 意义与影响 (Significance)

理论突破： 揭示了当前 VLA 自动驾驶训练中“先 IL 后 RL"范式下策略分布坍缩的深层原因，为理解大模型在具身智能中的探索机制提供了新视角。
技术路径： 证明了通过数据增强（FTE）和采样策略优化（ADAS）可以显著改善 RL 的收敛性和最终性能，为未来大模型驱动的自动驾驶系统提供了可复现的优化路径。
实际应用： Curious-VLA 在保持推理效率（单帧延迟约 1.57s）的同时，显著提升了复杂场景下的决策安全性和多样性，对于构建更可靠、更拟人的自动驾驶系统具有重要参考价值。

总结： 该论文通过识别并解决“狭窄策略”这一核心痛点，成功释放了 VLA 模型在自动驾驶中的探索潜力，实现了性能与多样性的双重突破，是当前端到端自动驾驶领域的重要进展。

Devil is in Narrow Policy: Unleashing Exploration in Driving VLA Models

1. 核心问题：为什么“学霸”也会翻车？（Narrow Policy / 狭隘策略）

2. 解决方案：Curious-VLA（好奇的自动驾驶）

第一阶段：模仿学习时的“脑洞大开” (Feasible Trajectory Expansion)

第二阶段：强化学习时的“优中选优” (Adaptive Diversity-Aware Sampling & Spanning Driving Reward)

3. 最终成果：从“书呆子”变“老司机”

总结

论文技术总结：Devil is in Narrow Policy: Unleashing Exploration in Driving VLA Models

1. 研究背景与核心问题 (Problem)

2. 方法论 (Methodology)

2.1 模仿学习阶段 (IL Stage)：可行轨迹扩展 (FTE)

2.2 强化学习阶段 (RL Stage)：多样性感知强化学习

3. 关键贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与影响 (Significance)

类似论文

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers