VLA-Thinker: Boosting Vision-Language-Action Models through Thinking-with-Image Reasoning

本文提出了 VLA-Thinker 框架,通过将视觉感知建模为可动态调用的推理动作,并结合两阶段训练策略(SFT 冷启动与 GRPO 强化学习),显著提升了视觉 - 语言 - 动作模型在长程机器人任务中的表现。

Chaoyang Wang, Wenrui Bao, Sicheng Gao, Bingxin Xu, Yu Tian, Yogesh S. Rawat, Yunhao Ge, Yuzhang Shang

发布于 2026-03-17
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 VLA-Thinker 的新机器人智能系统。为了让你轻松理解,我们可以把传统的机器人和 VLA-Thinker 比作两种不同的“厨师”。

1. 传统机器人:只会“死记硬背”的厨师

想象一下,传统的机器人(VLA 模型)就像一个刚入职、有点死板的学徒厨师

  • 工作方式:你给他看一张厨房的全景照片(视觉输入),告诉他“把锅放在炉灶上”。他看了一眼照片,脑子里过了一遍文字指令,然后直接动手去抓锅。
  • 缺点:如果照片拍得有点模糊,或者炉灶开关被挡住了,他只能硬着头皮猜。因为他一旦开始行动,就不能再回头重新看照片了。如果猜错了,比如没对准炉灶开关,他就可能把锅打翻,而且不知道哪里出了问题,只能继续犯错。
  • 核心问题:他的“看”和“想”是割裂的。看是一次性的,想是在脑子里(文字空间)完成的,两者没有互动。

2. VLA-Thinker:会“边看边想”的聪明大厨

VLA-Thinker 则像是一位经验丰富、懂得“边做边看”的大厨

  • 新能力(Thinking-with-Image):它不再是一次性看完照片就行动。它学会了在思考过程中主动“ zoom in"(放大)查看细节
  • 工作流程
    1. 思考:它先想:“我要开火,但我看不清那个旋钮到底在哪。”
    2. 行动(调用工具):它不会盲目伸手,而是对自己说:“等等,我需要把那个旋钮的区域放大看看。”于是,它调用了一个“放大镜”工具,专门去拍那个旋钮的特写。
    3. 再思考:看到特写后,它确认了:“哦,原来旋钮在这里,而且它是关着的。”
    4. 行动:现在它信心满满地去转动旋钮。
  • 比喻:这就好比你在玩一个复杂的寻宝游戏。传统机器人拿到地图(照片)就闭着眼跑;而 VLA-Thinker 会拿着地图跑一段,发现路标看不清,就停下来拿出放大镜仔细研究路标,确认无误后再继续跑。

3. 它是如何学会这种“聪明”的?(两阶段训练法)

让机器人学会这种“边看边想”的本领并不容易,作者设计了一套**“先学规矩,再练实战”**的两步走策略:

  • 第一阶段:SFT 冷启动(像背教科书)

    • 作者先给机器人看大量人类专家的操作录像,并把这些录像“翻译”成带有详细思考过程的文字(比如:“这里看不清,我要放大看”)。
    • 这就像让机器人死记硬背一本“聪明厨师的日记”,让它知道遇到看不清的情况时,应该先“放大”再行动,而不是瞎猜。
    • 目的:教会它“什么时候该看,怎么去看”。
  • 第二阶段:GRPO 强化学习(像实战演练)

    • 光背日记不够,还得在实战中优化。作者让机器人自己在模拟厨房里反复尝试。
    • 规则:如果它成功把任务做完了,就给它奖励;如果做失败了,就扣分。
    • 关键点:它不仅要学“怎么做动作”,还要学“什么时候该停下来思考/放大”。如果它在一个简单的任务里反复放大(浪费精力),或者在看不清的时候不放大(导致失败),它都会受到惩罚。
    • 目的:让它学会平衡,知道什么时候该“多想一步”,什么时候该“直接动手”,不再做无用功。

4. 效果怎么样?

实验结果显示,这位“聪明大厨”表现非常出色:

  • LIBERO 测试(像是一个标准的机器人操作考试)中,它的成功率达到了 97.5%,比之前的顶尖模型提高了不少。
  • RoboTwin 2.0(更复杂的双手协作任务)中,它也大幅超越了其他模型。
  • 特别厉害的地方:任务越复杂、步骤越多(长视野任务),它的优势越明显。因为它懂得在关键时刻停下来“确认细节”,从而避免了像传统机器人那样“一步错,步步错”的灾难。

总结

VLA-Thinker 的核心思想就是:不要盲目行动,要懂得在思考中主动去“看”得更清楚。

它打破了机器人“看一眼就决定”的旧模式,建立了一种**“看 -> 想 -> 再看(放大细节) -> 再想 -> 行动”**的循环。这就像我们人类在做复杂事情时,会停下来仔细检查一样,让机器人变得更聪明、更稳健,不再是个只会死板的执行机器。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →