Expert Knowledge-driven Reinforcement Learning for Autonomous Racing via Trajectory Guidance and Dynamics Constraints

该论文提出了一种名为 TraD-RL 的强化学习方法,通过融合专家轨迹引导、基于控制障碍函数的动力学安全约束以及多阶段课程学习策略,有效解决了自动驾驶赛车在高动态非线性环境下的训练不稳定与安全性问题,实现了速度与稳定性的协同优化。

Bo Leng, Weiqi Zhang, Zhuoren Li, Lu Xiong, Guizhe Jin, Ran Yu, Chen Lv

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲的是如何让自动驾驶赛车在赛道上跑得既

想象一下,你让一个刚拿到驾照的新手(传统的强化学习算法)去开 F1 赛车。如果直接让他去跑,他可能会因为太紧张而不敢踩油门(跑得太慢),或者因为太兴奋而失控撞墙(跑得太快但不安全)。

这篇论文提出了一种叫 TraD-RL 的新方法,就像给这位新手赛车手请了一位**“全能教练”**,通过三个绝招来训练他:

1. 第一招:画好“最佳路线” (轨迹引导)

  • 问题:赛道又长又复杂,新手如果从头开始瞎摸索,不知道哪里该快、哪里该慢,很容易在原地打转,学得很慢。
  • 比喻:这就好比在迷宫里找人,如果没人指路,你得撞了南墙才知道回头。
  • 做法:论文先让计算机算出一条**“完美赛车线” (MCRL)。这就像教练在赛道上画了一条金色的最佳路线**,告诉赛车手:“沿着这条线走,转弯最顺,速度最快。”
  • 效果:赛车手不再盲目乱撞,而是沿着这条“金线”去练习。这大大缩短了学习时间,让他能迅速学会怎么过弯、怎么刹车。

2. 第二招:戴上“隐形护具” (动力学约束)

  • 问题:赛车开得太快时,轮胎抓地力有限。如果转弯太急,车就会像冰壶一样甩出去(侧滑),甚至翻车。传统的算法只在乎“跑得快”,不管“会不会翻”。
  • 比喻:想象赛车手在走钢丝。如果只追求速度,他可能会因为太急而掉下去。我们需要给他系上一根隐形的安全绳
  • 做法:论文给赛车装了一个**“物理安全锁”。它时刻监控两个关键指标:车头转动的速度(偏航率)和车身侧滑的角度**。
    • 一旦赛车手试图做出一个会让车失控的动作(比如急转弯导致侧滑过大),这个“安全锁”就会立刻拉响警报,强制他减速或修正方向。
  • 效果:这就像给赛车手戴上了防弹衣和护膝。他可以在极限边缘试探,但绝不会真的“翻车”。这保证了即使在高速下,车也是稳稳的。

3. 第三招:分阶段“魔鬼训练” (课程学习)

  • 问题:如果一开始就要求新手开 F1 的速度,他肯定学不会,甚至会因为太难而放弃。
  • 比喻:就像练武术,不能一上来就练“降龙十八掌”,得先练扎马步,再练拳法,最后才练绝招。
  • 做法:训练分成了两个阶段
    • 第一阶段(新手村):教练(完美路线)带着跑。重点是把车开稳,沿着金线走,把速度控制在安全范围内。
    • 第二阶段(高手局):当赛车手熟练后,教练撤掉一部分限制,鼓励他挑战物理极限。这时候,赛车手可以在安全锁的保护下,尝试比“完美路线”更快的速度,去挖掘赛车的潜能。
  • 效果:这种“先稳后快”的策略,让赛车手既学会了基础,又突破了极限,最终跑出了比人类专家还快的成绩。

总结:结果怎么样?

研究人员在模拟的柏林机场赛道上测试了这套方法。结果发现:

  • 跑得更快:圈速比以前的方法快了 20% 到 40%。
  • 更稳更安全:赛车在高速过弯时,很少出现失控打滑的情况,几乎能 100% 跑完每一圈。

一句话总结
这篇论文就是给自动驾驶赛车找了一位懂物理的金牌教练。他先给赛车手画好最佳路线,再给赛车装上防失控的安全锁,最后通过循序渐进的训练,让赛车手在不翻车的前提下,把速度飙到了极致。这就是“又快又稳”的秘诀。