Universal Pose Pretraining for Generalizable Vision-Language-Action Policies

本文提出了 Pose-VLA 框架,通过引入离散姿态令牌将 VLA 训练解耦为通用 3D 空间先验预训练与特定本体动作对齐两个阶段,有效解决了现有模型特征坍塌与训练效率低的问题,并在多任务基准测试及真实世界实验中实现了卓越的泛化性能。

Haitao Lin, Hanyang Yu, Jingshun Huang, He Zhang, Yonggen Ling, Ping Tan, Xiangyang Xue, Yanwei Fu

发布于 2026-02-24
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 Pose-VLA 的新机器人学习框架。为了让你轻松理解,我们可以把机器人学习控制技能的过程,想象成教一个刚毕业的大学生(机器人)如何成为一名熟练的厨师

1. 以前的困境:只会背菜谱,不会切菜

在 Pose-VLA 出现之前,现有的机器人模型(VLA)就像是一个只读过很多美食评论和菜谱书,但从未进过厨房的学生

  • 问题一(特征坍塌): 这些学生很擅长识别“这是一盘红烧肉”(语义识别),但完全不知道红烧肉在盘子里的具体位置、角度,或者刀应该以什么角度切下去(3D 空间状态)。
  • 问题二(数据 mismatch): 他们学的是“互联网上的美食图片”(只有文字和图片,没有物理深度),但机器人需要的是“真实的厨房操作数据”(需要知道手怎么动、物体有多重)。
  • 结果: 让这种学生去炒菜,他可能知道菜名,但一上手就切到手,或者把菜打翻,因为缺乏对空间几何的直觉。

2. Pose-VLA 的解决方案:先练“空间感”,再学“炒菜”

Pose-VLA 提出了一种**“分两步走”的全新训练策略,就像先让学生去健身房练体能和空间感**,然后再去厨房实习

第一步:预训练(Pre-training)—— 建立“空间直觉”

  • 核心创新: 作者引入了**“姿态令牌”(Pose Tokens)**。
    • 比喻: 想象给机器人发了一套通用的“空间语言”。以前机器人看东西是看“图片”,现在它看东西是看“坐标和角度”。无论是桌上的杯子、空中的飞鸟,还是机器人的机械手,在它的脑海里都被统一翻译成"3D 空间中的位置和姿态”。
  • 怎么做: 他们让机器人看了140 万张带有 3D 标注的图片(包括各种物体、深度图、相机视角)。
    • 比喻: 这就像让机器人看了100 万本立体几何教科书,并且让它闭着眼睛也能在脑海里构建出物体的 3D 模型。它不再只问“这是什么?”,而是开始思考“这个物体在左边 30 度,高度 20 厘米,旋转了 15 度”。
  • 输入增强: 除了看 RGB 图片,它还结合了深度图(像激光雷达一样知道距离)和相机光线(知道从哪个角度看)。这让机器人有了“立体视觉”。

第二步:对齐训练(Post-training)—— 适应“特定身体”

  • 核心创新: 在有了强大的空间直觉后,再让机器人去适应具体的身体(机器人本体)
    • 比喻: 现在这个学生已经精通了空间几何,只需要花很少的时间(比如100 次演示),就能学会如何控制特定的手臂去拿那个杯子。
  • 优势: 因为空间感已经练好了,它不需要像以前那样为了学一个新任务就重新背几千次菜谱。它只需要微调一下“手怎么动”的指令即可。

3. 为什么这很厉害?(核心亮点)

  • 通用语言(Pose Tokens): 就像人类用“米”和“度”来描述世界一样,Pose-VLA 用统一的“姿态令牌”把非机器人的 3D 数据(比如网上的 3D 物体模型)和机器人的操作数据(比如机械臂的轨迹)连接起来了。
    • 比喻: 以前,看 3D 模型的人和开叉车的人说的是两种语言,无法交流。Pose-VLA 发明了一种**“通用空间语”**,让两者能无缝对话。
  • 相机中心视角(Camera-centric): 机器人不再试图去理解“我的手臂在哪里”,而是直接理解“摄像头里看到的东西在哪里”。
    • 比喻: 就像你开车时,你是通过**挡风玻璃(摄像头)**看路,而不是通过计算“我的脚在油门上移动了多少毫米”来开车。这样更直观,也更容易适应不同的车(机器人)。

4. 实际效果如何?

论文在多个测试中证明了它的强大:

  • 模拟测试(RoboTwin 2.0): 成功率达到了 79.5%,比之前的顶尖模型(如 π0\pi_0)高出很多。特别是在环境很乱、很复杂的“困难模式”下,它依然很稳。
  • 真实世界实验: 只需要100 次演示,机器人就能学会叠碗、挂杯子、甚至折叠毛巾(变形物体)。
    • 对比: 以前的模型可能需要几千次演示,或者换个环境就“失忆”了。Pose-VLA 就像是一个举一反三的天才,学得快,适应力强。

总结

Pose-VLA 就像是给机器人装上了一副**“透视眼”“空间大脑”
它不再是一个只会死记硬背菜谱的笨学生,而是一个
先通过海量 3D 数据练好了“空间感”,再花少量时间就能掌握任何新技能**的聪明学徒。这让机器人从“只能做固定动作”进化到了“能理解物理世界并灵活操作”的新阶段。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →