A Champion-level Vision-based Reinforcement Learning Agent for Competitive Racing in Gran Turismo 7

该论文提出了一种仅依赖车载摄像头和传感器数据的视觉强化学习智能体,通过非对称演员 - 评论家框架在《Gran Turismo 7》中实现了无需外部定位的冠军级竞技表现。

Hojoon Lee, Takuma Seno, Jun Jet Tai, Kaushik Subramanian, Kenta Kawamoto, Peter Stone, Peter R. Wurman

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个非常酷的故事:研究人员在《Gran Turismo 7》(GT7,一款顶级的赛车模拟游戏)里,训练出了一个**“只靠眼睛和身体感觉”就能拿世界冠军的 AI 赛车手**。

为了让你更容易理解,我们可以把这项技术想象成教一个盲人(或者刚学开车的新手)成为 F1 赛车冠军的过程。

1. 以前的 AI 赛车手:开着“透视挂”的作弊者

在以前的研究中,AI 赛车手虽然跑得快,但它们有点“作弊”。

  • 比喻:想象一下,这些 AI 赛车手头上戴着一副上帝视角的隐形眼镜。它们不仅能看到前面的路,还能直接“透视”看到:
    • 对手车的确切位置(哪怕被前面的车挡住了)。
    • 赛道的完整地图(哪怕在弯道里看不见)。
    • 对手的速度和加速度数据。
  • 问题:在现实世界里,我们人类开车可没有这种“透视挂”。如果要把这种 AI 用到真实的自动驾驶赛车里,就需要给每辆车装昂贵的雷达和全球定位系统,这太不现实了。

2. 这篇论文的突破:真正的“凡人”赛车手

这篇论文里的 AI 不一样,它被剥夺了所有“外挂”,只保留了最基础的感官

  • 眼睛(摄像头):只能看到车头前方的画面(就像你坐在驾驶座上看路)。
  • 身体感觉(传感器):能感觉到车速、加速度、方向盘转了多少(就像你感觉到车在推背或侧滑)。
  • 核心挑战:它看不见被挡住的对手,也看不见远处的弯道。它必须像人类一样,靠“猜”和“记”来开车

3. 它们是怎么做到的?(核心魔法)

为了解决“看不见”的问题,研究人员设计了一个**“双脑协作”的架构,就像给赛车手配了一个“记忆大师”和一个“战术教练”**:

A. 赛车手(Actor):靠“记性”开车

  • 角色:这是真正握方向盘的 AI。
  • 限制:它只能看到摄像头拍到的画面和车身的震动。
  • 超能力(循环神经网络 RNN):它有一个超级大脑记忆
    • 比喻:就像你在玩捉迷藏,虽然对手暂时躲到了墙后面(被遮挡),但你的“记忆”告诉你:“刚才他在那边,速度很快,所以他现在应该还在墙后面往右跑。”
    • 这个 AI 通过记住过去的画面,能在心里构建出对手的轨迹,即使对手暂时看不见,它也能预判对手的位置,从而做出超车或防守的决策。

B. 战术教练(Critic):拥有“上帝视角”

  • 角色:这是负责给赛车手打分和纠正错误的 AI。
  • 特权:在训练阶段,教练拥有“上帝视角”,能看到赛道全貌和所有对手的真实数据。
  • 作用:教练看着赛车手在“迷雾”中开车,然后告诉它:“你刚才那个弯道转早了,因为教练看到后面有一辆车正冲过来。”
  • 结果:赛车手虽然看不见,但通过教练的“悄悄话”(奖励信号),它学会了如何根据有限的线索做出最正确的判断。

4. 训练过程:从“新手”到“冠军”

  • 环境:它们在 GT7 游戏里训练,对手是游戏自带的 AI(BIAI)。
  • 难度:比赛开始时,我们的 AI 被安排在最后一名(第 20 位),前面有 19 个对手。
  • 策略
    • 数据增强:就像给赛车手戴不同颜色的墨镜、在画面里加一点噪点,让它适应各种光线和天气,防止它死记硬背某张赛道图。
    • 定期“重启”:为了防止赛车手养成坏习惯(比如只会在直道超车),研究人员会定期把它的记忆清空,让它重新学习,保持灵活性。

5. 结果:它真的赢了吗?

是的,而且赢得很漂亮!

  • 战绩:在东京、斯帕(Spa)、勒芒(Sarthe)三条著名的赛道上,这个“盲人”赛车手从最后一名出发,经常能一路超车拿到第一名
  • 对比
    • 它打败了游戏里原本最强的 AI。
    • 它甚至打败了人类世界冠军(那些在现实中拿过奖杯的真人玩家)。
  • 视觉分析:研究人员通过“热力图”发现,这个 AI 看路的方式和人类很像:
    • 在直道上,它看远处的树和地平线(预判弯道)。
    • 在超车时,它盯着对手车的底部和阴影(判断距离)。
    • 它甚至能利用过去的记忆,推断出被挡住的车下一秒会出现在哪里。

总结

这篇论文就像是在说:

“我们不需要给赛车装上昂贵的雷达和全球定位系统,只需要给 AI 装上一双眼睛一双感觉灵敏的手,再给它一个善于记事的超级大脑。通过这种‘只靠本地感知’的方式,我们训练出了一个能在混乱的比赛中,像人类冠军一样思考、预判并获胜的赛车手。”

这不仅证明了 AI 在赛车领域的强大,也为未来真正的自动驾驶赛车(甚至普通自动驾驶汽车)铺平了道路——因为它们不再需要依赖昂贵的“透视挂”,而是像人类一样,靠“看”和“记”来安全驾驶。