DriveCode: Domain Specific Numerical Encoding for LLM-Based Autonomous Driving

本文提出了 DriveCode,一种将数值映射为专用嵌入而非离散文本令牌的新型编码方法,旨在解决大语言模型在自动驾驶中数值推理精度不足的问题,并在多个数据集上验证了其在轨迹预测和控制信号生成方面的优越性能。

Zhiye Wang, Yanbo Jiang, Rui Zhou, Bo Zhang, Fang Zhang, Zhenhua Xu, Yaqin Zhang, Jianqiang Wang

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 DriveCode 的新方法,旨在让大语言模型(LLM)更好地驾驶汽车。

为了让你轻松理解,我们可以把自动驾驶想象成教一个超级聪明的“大脑”(大语言模型)去开车

🚗 核心问题:大脑“数数”不太行

现在的自动驾驶大模型虽然很聪明,能看懂路况、听懂指令,但在处理数字时却像个“粗心的小学生”。

  • 传统做法的缺陷
    想象一下,如果模型要表达“车速是 12.5 米/秒”,它必须把"1"、"2"、"."、"5"拆成四个独立的文字符号(Token)来一个个猜。
    • 比喻:这就像让你用乐高积木拼出一个数字"12.5"。你拼好了"1",再拼"2",再拼小数点。在这个过程中,模型容易搞混位置关系,甚至可能拼出"15.2"或者"125"。
    • 后果:在开车时,这种微小的数字错误(比如把 12.5 看成 15.2)可能导致急刹车或撞车,非常危险。

💡 解决方案:DriveCode(给数字发“专属身份证”)

DriveCode 的核心思想是:别把数字当成文字来读,要把它们当成“连续的数值”来直接处理。

1. 输入端:给数字发“专属通行证”

  • 传统做法:模型看到文本里的"8 秒”,把它当成普通的单词"8"和"s"。
  • DriveCode 的做法
    • 当文本里出现数字时,系统会把它替换成一个特殊的占位符 <数字令牌>
    • 同时,真正的数字(比如 8.0)会被提取出来,通过一个**“数字投影器”(Number Projector),直接转换成模型能理解的“连续向量”**。
    • 比喻:以前模型是看文字说明书开车;现在,DriveCode 给数字发了一张**“专属身份证”**。模型不再去拼凑"8"和"0",而是直接读取这张身份证上携带的完整数值信息。这就好比从“拼乐高”变成了“直接读取芯片里的数据”。

2. 输出端:直接“报数”,不再“拼字”

  • 传统做法:模型要输出速度,得先想好要输出"1",再想"2",再想".",最后想"5"。这需要很多步,容易出错。
  • DriveCode 的做法
    • 模型内部有一个**“数字头”**(Number Head)。当它需要输出速度时,它直接计算出一个精确的浮点数(比如 12.5),一步到位。
    • 比喻:以前模型是像打字员一样,一个字母一个字母地敲出"12.5";现在它像是一个直接报数的裁判,直接喊出"12.5",既快又准。

🌟 为什么这很重要?(生活中的类比)

想象你在教一个机器人做调酒师

  • 普通模型:你告诉它“加 50 毫升威士忌”。它可能理解成“加 5 个 0 毫升”或者“加 500 毫升”,因为它把"5"和"0"当成两个独立的字符,没理解"50"是一个整体数值。
  • DriveCode 模型:它直接理解"50"是一个连续的数值概念。它知道"50 毫升”和"5 毫升”差别巨大,就像知道“加糖”和“加盐”的区别一样清晰。

在自动驾驶中,速度、转向角度、刹车距离都是连续的物理量。DriveCode 让模型能像人类老司机一样,对数字的大小和精度有直觉般的敏感度,而不是像处理文字一样去“猜”数字。

📊 实验结果:真的有效吗?

作者在多个自动驾驶数据集(如 DriveGPT4, OmniDrive)上测试了 DriveCode:

  1. 更准:预测车辆轨迹和速度的误差更小。
  2. 更快:因为不需要一个个字符去拼数字,推理速度(反应时间)更快,这对实时驾驶至关重要。
  3. 更稳:减少了模型“胡言乱语”(幻觉)的情况,特别是在需要精确控制的场景下。

🚀 总结

DriveCode 就像是给大语言模型装上了一副**“数字特制眼镜”**。

  • 戴上这副眼镜,模型不再把数字看作零散的字母,而是看作连续的、有物理意义的数值
  • 这让 AI 从“会说话的司机”进化成了“懂数学的赛车手”,能更精准、更安全地控制车辆。

这项技术解决了大模型在自动驾驶领域最大的短板之一,让 AI 开车从“大概差不多”走向了“精准控制”。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →