RetoVLA: Reusing Register Tokens for Spatial Reasoning in Vision-Language-Action Models

本文提出了 RetoVLA 架构,通过复用原本用于缓解注意力伪影的注册令牌(Register Tokens)来增强轻量级视觉 - 语言 - 动作模型的空间推理能力,在零增加参数量的前提下显著提升了机器人任务的成功率。

Jiyeon Koo, Taewan Cho, Hyunjoon Kang, Eunseom Pyo, Tae Gyun Oh, Taeryang Kim, Andrew Jaeyong Choi

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 RetoVLA 的新方法,旨在让机器人变得更聪明、更灵活,同时又不需要更昂贵的硬件。

为了让你轻松理解,我们可以把机器人想象成一个正在学习做饭的实习生,而这篇论文就是给这位实习生装上了一个“超级大脑补丁”。

1. 核心问题:实习生“记性”太好,但“大局观”太差

现在的机器人(VLA 模型)很厉害,能听懂人话并动手干活。但是,为了让它们反应够快、能在普通电脑上运行,研究人员通常会把它们的大脑“瘦身”(使用轻量级模型)。

这就好比: 为了减轻实习生的负担,我们只让他记住眼前的切菜动作(局部细节),却让他把“整个厨房的布局”(全局空间感)给忘了。

  • 结果: 实习生能切好菜,但让他“把碗放进上面的抽屉”时,他可能会因为记不住抽屉在哪个位置,或者分不清哪个是碗,而把东西放错地方。

2. 解决方案:RetoVLA 的“便签纸”魔法

研究人员发现,在机器人“看”世界的过程中,原本有一些被丢弃的“废数据”(论文中称为 Register Tokens)。

  • 原来的做法: 这些“废数据”就像实习生在思考时随手记在草稿纸上的全局便签(比如“厨房左边有个冰箱,右边有个水槽”)。一旦思考结束,这些便签就被揉成团扔进垃圾桶了,因为传统模型认为它们对具体的“切菜”动作没用。
  • RetoVLA 的做法: 我们不再扔掉这些便签!相反,我们把这些便签重新利用起来,直接贴在实习生的操作手册上。

比喻:
想象一下,实习生在操作时,眼前不仅有一张详细的“切菜步骤图”(局部图像),还有一张悬浮在空中的“厨房全景地图”(被回收的 Register Tokens)。

  • 当他需要拿“上面的抽屉”里的东西时,他不需要费力去回忆整个厨房的样子,直接看一眼那张“全景地图”便签,瞬间就知道抽屉在哪。
  • 关键点: 这个方法不需要增加任何新的硬件或参数,只是把原本要扔掉的信息“变废为宝”了。

3. 它是如何工作的?(三个步骤)

  1. 收集便签(生成): 当机器人看一张照片时,它会自动生成几张“全局便签”,上面写着“房间整体长什么样”、“物体大概在哪里”。
  2. 贴上便签(注入): 在机器人决定“手往哪伸”的关键时刻,这些便签会直接跳进它的决策大脑里。
  3. 智能开关(门控): 为了防止便签干扰精细动作(比如穿针引线时,不需要看全景地图),系统里有一个智能开关。如果是拿大箱子,就打开开关看全景;如果是穿针,就关掉开关只看局部。

4. 效果如何?(实战表现)

研究人员在真实的机械臂上做了测试,结果非常惊人:

  • 以前(普通轻量模型): 平均成功率只有 50% 左右。比如让它把积木搭好,或者把碗放进抽屉,经常失败。
  • 现在(RetoVLA): 平均成功率提升到了 67% 以上,提升了 17% 之多!
  • 具体案例:
    • 搭多米诺骨牌: 成功率从 12% 飙升到 40%。因为它看懂了骨牌排列的整体空间关系。
    • 关抽屉: 成功率从 60% 提升到 96%。因为它记住了抽屉在柜子的具体位置,而不是盲目乱撞。

5. 总结:为什么这很重要?

这篇论文的核心思想就是:不要浪费任何信息。

就像一位聪明的厨师,不仅关注手里的刀工,还时刻记得整个厨房的布局。RetoVLA 通过回收利用那些原本被丢弃的“全局便签”,让原本“短视”的轻量级机器人,瞬间拥有了空间大局观

一句话总结:
RetoVLA 不需要给机器人换更贵的脑子,它只是教会了机器人如何利用脑子里原本被遗忘的“全景地图”,从而让它干活更准、更稳、更聪明。