ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation

本文提出了名为 ULTRA 的统一多模态控制框架,通过物理驱动的神经动作重定向算法和结合强化学习的统一控制器,使仿人机器人能够仅凭第一人称视觉感知和高阶任务指令,自主完成泛化性强且鲁棒的全身移动操作任务。

Xialin He, Sirui Xu, Xinyao Li, Runpei Dong, Liuyu Bian, Yu-Xiong Wang, Liang-Yan Gui

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 ULTRA 的系统,它的目标是让人形机器人(比如 Unitree G1 这种像人的机器人)变得像真人一样灵活、聪明,能够一边走路一边搬运东西,甚至在没有人类实时指挥的情况下,自己看着周围的环境去完成任务。

为了让你更容易理解,我们可以把机器人想象成一个刚学会走路的“超级实习生”,而 ULTRA 就是它的全能导师和训练手册

以下是用通俗语言和比喻对这篇论文的解读:

1. 核心痛点:以前的机器人太“死板”

以前的机器人控制方法主要有两个极端:

  • 死记硬背型(参考追踪): 就像让机器人跟着视频里的动作一模一样地模仿。如果视频里人没摔倒,机器人就跟着走;但如果视频里的人没做这个动作,或者环境变了(比如地上有个坑),机器人就傻眼了,因为它只会背动作,不会思考。
  • 盲目乱撞型(纯目标导向): 告诉机器人“去把那个箱子拿过来”。机器人虽然知道目标,但不知道具体怎么迈腿、怎么伸手,经常因为协调不好而摔倒或抓空。

ULTRA 的突破: 它把这两种能力融合了。它既能在有详细视频指导时完美模仿,也能在只有模糊指令(比如“把箱子搬到那边”)时,自己看着环境,灵活地规划动作。

2. ULTRA 的三大“超能力”

第一招:物理驱动的“灵魂移植” (Physics-Driven Retargeting)

  • 比喻: 想象要把一个人类舞者的动作,完美地“移植”到一个机器人身上。
  • 问题: 人类和机器人的身体结构不一样(腿长短、关节限制不同)。以前的方法只是简单地把人的动作“套”在机器人身上,结果机器人可能会因为关节扭不过去而摔倒,或者手抓不住东西。
  • ULTRA 的做法: 它不是简单地把动作“套”上去,而是像一位懂物理的导演。它在虚拟世界里,利用强化学习(RL)让机器人自己去“试”这个动作。如果动作会导致机器人摔倒或手滑,它会自动调整,直到找到一个既像人类动作、又符合机器人物理规律(不会摔倒、抓得稳)的方案。
  • 效果: 它能从海量的人类动作数据中,自动生成适合机器人的、物理上可行的动作库,而且不需要为每个动作单独重新训练。

第二招:全能“学生”与“老师” (Teacher-Student Distillation)

  • 比喻: 这是一个师徒传承的故事。
    • 老师(Teacher): 拥有“上帝视角”,能看到机器人的所有内部状态(关节角度、速度、物体位置等),并且有完美的动作参考。它学得非常快,动作非常精准。
    • 学生(Student): 是最终要上场的机器人。它没有“上帝视角”,只能靠自己的传感器(摄像头、陀螺仪),而且看到的画面可能有噪点、有遮挡,甚至有时候连物体的位置都看不清。
  • ULTRA 的做法:
    1. 先让“老师”学会所有高难度的动作。
    2. 然后,让“学生”去模仿“老师”。但在模仿时,故意给“学生”制造困难(比如遮住一部分眼睛、给画面加噪点),强迫它学会在看不清的情况下,也能猜出老师想做什么。
    3. 关键点: 这个学生不仅学会了模仿,还学会了理解意图。如果老师给的是详细动作,它就模仿;如果老师只给一个目标(比如“去拿箱子”),它也能利用学到的技能库,自己规划路径去拿。

第三招:多模态“变形金刚” (Unified Multimodal Control)

  • 比喻: 就像手机里的智能助手,你可以通过语音、文字、或者点击屏幕来指挥它,它都能听懂。
  • ULTRA 的做法: 这个控制器非常灵活。
    • 模式 A(高精度): 如果你给它提供精确的运动参考(比如 MoCap 数据),它能像照镜子一样完美复现动作。
    • 模式 B(目标导向): 如果你只给它一个长远的目标(比如“把箱子搬到桌子”),它能自己规划怎么走路、怎么伸手。
    • 模式 C(纯视觉): 如果你只给它摄像头看到的点云数据(像 3D 扫描一样),它也能根据看到的物体位置,自己决定怎么抓、怎么搬。
    • 核心魔法: 无论输入是什么(是精确数据、模糊指令,还是嘈杂的摄像头画面),它都能用同一个大脑来处理,并在不同模式间无缝切换。

3. 实验结果:真的行吗?

作者在仿真环境和真实的 Unitree G1 机器人 上做了测试:

  • 仿真中: 它比以前的方法更稳,摔倒更少,即使在没见过的物体大小或动作下(比如突然变大的箱子),也能成功完成任务。
  • 现实中: 在真实的 Unitree G1 机器人上,它不仅能完美模仿人类搬运箱子的动作,还能在没有外部动作参考的情况下,仅靠自带的摄像头(第一人称视角),自主完成“走到箱子前 -> 拿起箱子 -> 走到目标点 -> 放下”这一系列复杂操作。

总结

ULTRA 就像是给机器人装上了一个既懂物理、又懂变通、还能适应各种感官输入的“超级大脑”。

  • 它不再需要人类手把手教每一个动作细节。
  • 它不再害怕环境变化或传感器噪声。
  • 它让机器人从“只会背动作的复读机”,进化成了“能根据环境灵活应变的实干家”。

这项技术是让人形机器人真正走进家庭、工厂,像人一样干活的关键一步。