ROCKET: Residual-Oriented Multi-Layer Alignment for Spatially-Aware Vision-Language-Action Models

ROCKET 提出了一种残差导向的多层表示对齐框架,通过共享投影器和稀疏激活机制解决梯度冲突,以极低的计算成本显著提升了视觉 - 语言 - 动作模型在 LIBERO 等基准上的三维空间理解与操作成功率。

Guoheng Sun, Tingting Du, Kaixi Feng, Chenxiang Luo, Xingguo Ding, Zheyu Shen, Ziyao Wang, Yexiao He, Ang Li

发布于 2026-02-23
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 ROCKET 的新方法,旨在让机器人变得更“聪明”,特别是让它们更懂空间感(比如知道物体在哪里、怎么拿、怎么放)。

为了让你轻松理解,我们可以把机器人想象成一个刚学会走路的“新手厨师”,而这篇论文就是给这位厨师请了一位**“空间感大师”作为私教**。

以下是用通俗语言和比喻对这篇论文的解读:

1. 核心问题:机器人为什么“笨手笨脚”?

现在的机器人(VLA 模型)很擅长听懂人话(比如“把杯子拿给我”),但它们的大脑主要是用2D 照片训练的。

  • 比喻:这就像厨师只看过平面的菜谱图片,却从未真正摸过锅碗瓢盆。当它看到一张桌子的照片时,它知道那是桌子,但很难判断桌子的深度距离或者立体形状
  • 后果:在熟悉的场景里它能干活,但一旦换个角度、或者物体稍微歪一点,它就懵了,甚至把杯子推倒。

2. 以前的尝试:为什么不够好?

为了解决这个问题,以前的方法通常是让机器人去“模仿”一个已经学会 3D 空间感的**“大师模型”**(比如 VGGT)。

  • 旧方法(单点对齐):以前的做法是,只让机器人模仿大师的某一层大脑活动。
    • 比喻:就像私教只教厨师“切菜”这一个动作,或者只教“炒菜”这一个动作。如果切菜层选错了,或者炒菜层选错了,厨师就学不到精髓。而且,不同的任务可能需要模仿不同的层,很难猜对。
  • 新方法尝试(多层对齐):有人想,不如让机器人同时模仿大师的所有层(从浅层到深层)?
    • 新问题:这就像让厨师同时听10 个不同的老师讲课,而且每个老师还拿着不同的教案。结果就是厨师脑子乱了,指令互相打架(论文里叫**“梯度冲突”**),最后什么都学不会,甚至退步。

3. ROCKET 的解决方案:三个绝招

ROCKET 就像一位超级私教,它用三个巧妙的策略解决了上述问题:

绝招一:只请一位“总教练”(共享投影器)

  • 原理:ROCKET 不让机器人同时听 10 个老师,而是让机器人只跟一位总教练学习。这位总教练负责把大师在不同深度的知识,统一翻译成机器人能听懂的语言。
  • 比喻:以前是 10 个老师各说各的,现在只有一个翻译官。无论大师在讲“切菜”还是“摆盘”,翻译官都负责把核心意思准确传达给厨师。这样,厨师接收到的指令是一致的,不会打架,学习速度飞快。

绝招二:像“俄罗斯套娃”一样分层学习(Matryoshka 激活)

  • 原理:虽然只有一个总教练,但机器人不同深度的大脑(浅层和深层)需要学习的难度不同。浅层容易学,深层难学。如果浅层学得太快,会抢走深层的学习资源。
  • 比喻:ROCKET 设计了一个**“俄罗斯套娃”式的开关**。
    • 对于浅层(简单的局部细节,比如“这是个红色的杯子”),只打开套娃的小盒子,只让总教练用一小部分精力去教。
    • 对于深层(复杂的整体空间,比如“杯子离手有多远”),打开大盒子,让总教练调动全部精力去教。
    • 这样既保证了浅层能快速上手,又给了深层足够的空间去处理复杂的空间推理,互不干扰。

绝招三:不用“试错”,直接“直觉”选层

  • 原理:以前为了找到模仿哪一层最好,需要花大量时间反复试验(试错)。ROCKET 发现,只要用简单的规则选几层,效果就很好。
  • 比喻:以前找老师要像“盲盒抽奖”,抽到哪个层就学哪个。ROCKET 发现,只要均匀地从浅到深选几个点,就像在整本书里均匀地划重点,效果反而比只划某一行要好得多,而且省去了挑挑拣拣的时间。

4. 结果:又快又好又省钱

实验证明,ROCKET 的效果非常惊人:

  • 效率高:它只需要以前那些顶尖方法 4% 的算力(就像以前要跑 100 公里,现在跑 4 公里就到了)。
  • 成绩好:在著名的机器人测试(LIBERO)中,它的成功率达到了 98.5%,几乎是目前最好的水平。
  • 通用性强:不管换什么机器人模型,或者换什么任务(比如双手机械臂),它都能用。

总结

ROCKET 就像给机器人装了一个**“空间感加速器”。它不再让机器人盲目地模仿,而是通过统一指挥(共享投影器)因材施教(套娃式激活)**,让机器人能高效地学会像人类一样理解三维世界,从而更精准、更灵活地完成各种操作。

这就好比,以前机器人是看着平面地图在迷宫里乱撞,现在有了 ROCKET,它直接拥有了3D 导航仪,不仅能看懂路,还能知道哪里能走、哪里会撞墙,而且学这个导航仪还特别快、特别省电费!

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →