AutoTraces: Autoregressive Trajectory Forecasting via Multimodal Large Language Models

AutoTraces 是一种基于多模态大语言模型的自回归机器人轨迹预测框架,通过创新的轨迹分词方案与自动化思维链生成机制,在无需人工标注的情况下实现了复杂人机环境中长时程、高泛化性的轨迹预测。

Teng Wang, Yanting Lu, Ruize Wang

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 AutoTraces 的新系统,它的核心任务是教机器人如何像人一样“预判”未来

想象一下,你走在拥挤的商场里,前面有个小孩突然跑向冰淇淋车,你会下意识地侧身避开,而不是直直地撞上去。机器人要在这个充满人的环境里安全行走,也需要这种“预判”能力。

以前的机器人要么太笨(撞墙),要么太死板(只会走直线)。这篇论文提出的 AutoTraces,就像给机器人装上了一个**“超级大脑”**,让它能像人类一样思考、观察并预测未来的路线。

以下是用通俗易懂的比喻来解释它的核心创新:

1. 核心难题:给机器人“翻译”坐标

以前的机器人预测路线,就像让一个只会写文章的人去解数学题。

  • 旧方法:把路线上的每一个点(比如 x=3.5, y=2.1)都写成文字,像 [3.5, 2.1] 这样。这对大语言模型(LLM)来说,就像让它在写小说时突然要处理一堆枯燥的数字,既浪费篇幅(Token 太多),又容易算错。
  • AutoTraces 的妙招:它发明了一种**“点令牌”(Point Token)**。
    • 比喻:想象你在玩一个填字游戏。以前的方法是把每个数字都当成一个独立的单词填进去,占了一大格。而 AutoTraces 发明了一个特殊的符号 <point>,就像游戏里的一个**“万能插槽”**。它告诉大模型:“这里有一个坐标点,具体的数值我已经打包好了,你只需要把这个插槽填上就行。”
    • 效果:这样既保留了大模型“一个接一个”生成内容的逻辑(自回归),又让它能直接处理物理空间里的坐标,不再被数字的格式困住。

2. 核心能力:让机器人学会“边想边做” (Chain-of-Thought)

以前的机器人看到人走过来,直接算出“向左转 30 度”。这就像一个人蒙着眼睛走路,全靠肌肉记忆,一旦环境变了(比如人突然停下),它就容易撞车。

  • AutoTraces 的升级:它引入了**“思维链”(Chain-of-Thought, CoT)**。
    • 比喻:在机器人做决定之前,先让它**“自言自语”**。
    • 场景:机器人看到前面有人,它不会直接输出坐标,而是先在脑子里(或者屏幕上)生成一段思考过程:“前面有个穿红衣服的人,他正在向右走,所以我应该先减速,然后稍微向左绕一下,等他过去了再直行。”
    • 自动化:以前这种“思考过程”需要人工标注(很贵很慢),但 AutoTraces 利用另一个强大的 AI 自动帮它生成这些思考逻辑。这让机器人学会了**“先分析,后行动”**,就像人类司机先看路况再打方向盘一样。

3. 训练策略:先学“道理”,再练“手艺”

为了训练这个系统,作者用了**“两步走”**的策略:

  • 第一阶段(学道理):让机器人看视频,然后让它写出“为什么这么走”的思考过程。这时候它不输出具体的坐标,只输出文字推理。这就像让一个新手司机先在驾校听理论课,理解交通规则和避让逻辑。
  • 第二阶段(练手艺):在有了理论基础上,再让它结合具体的坐标数据,输出实际的路线。这时候,它把刚才学到的“避让逻辑”用在了具体的“点令牌”上。
    • 比喻:就像先让厨师理解“为什么这道菜要放盐”(理论),然后再让他亲手炒菜(实践)。这样出来的菜(预测路线)既好吃(准确),又不会手忙脚乱。

4. 为什么它这么厉害?

  • 能走多远算多远:以前的机器人预测路线,通常只能预测固定的几步(比如只能看未来 5 秒)。AutoTraces 像大语言模型一样,可以无限续写。你想让它预测未来 5 秒还是 20 秒,它都能灵活应对,而且越往后预测得越准。
  • 举一反三:在没见过的场景(比如从室内商场换到室外公园),它也能表现很好。因为它不是死记硬背路线,而是学会了“人是怎么移动的”这种底层逻辑。
  • 效率高:因为它用了特殊的“点令牌”,生成同样长度的路线,它需要的“计算量”比那些把坐标写成文字的方法少得多(就像用缩写代替长句)。

总结

AutoTraces 就像是给机器人装上了一套**“人类直觉系统”**:

  1. 它不再把路线当成枯燥的数字,而是当成可以灵活处理的**“积木块”**(点令牌)。
  2. 它在行动前会**“过脑子”**,分析视频里的人和障碍物(思维链)。
  3. 它能**“边想边走”**,根据情况灵活调整预测的长度。

这项技术让机器人从“只会按指令走的机器”,进化成了“能看懂环境、懂得避让的智能伙伴”,在拥挤的商场、校园或街道上行走时,会更加安全、自然。