Demystifying Action Space Design for Robotic Manipulation Policies

该论文通过基于双机械臂的 13,000 多次真实世界实验,系统性地解构了动作空间设计对机器人策略学习的影响,发现预测增量动作能显著提升性能,而关节空间与任务空间表示则分别在控制稳定性和泛化能力上各具优势。

Yuchun Feng, Jinliang Zheng, Zhihao Wang, Dongxiu Liu, Jianxiong Li, Jiangmiao Pang, Tai Wang, Xianyuan Zhan

发布于 2026-03-02
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章就像是一份**“机器人操作指南的终极体检报告”**。

想象一下,你要教一个机器人(比如机械臂)像人一样干活,比如拿杯子、叠衣服或者把积木从一个地方搬到另一个地方。过去,大家花了很多精力去收集更多的“教学视频”(数据)和造更聪明的“大脑”(大模型),但往往忽略了**“怎么教”**这个最基础的问题。

这就好比教孩子学骑自行车:

  • 你是直接告诉他“把手放在这里,脚踩在那个位置”(绝对坐标)?
  • 还是告诉他“把手往左移一点点,脚往前蹬一下”(相对增量)?
  • 你是让他记住整个身体的关节怎么动(关节空间)?
  • 还是只关注手抓东西的那个点怎么动(任务空间/末端执行器)?

这篇论文的作者们(来自清华、上海人工智能实验室等)觉得,以前大家在这个“怎么教”的问题上太随意了,全是凭感觉(“我觉得这样教比较好”)。于是,他们搞了一场史无前例的大规模实验:在真机器人上跑了13,000 多次,训练了500 多个模型,终于把这个问题彻底搞明白了。

以下是他们的核心发现,用大白话翻译一下:

1. 核心发现一:别给“绝对坐标”,要给“相对指令”

(时间维度:Delta vs. Absolute)

  • 以前的做法(绝对坐标): 就像老师直接告诉学生:“把杯子放到桌子正中央(坐标 X=10, Y=20)”。
    • 问题: 如果桌子稍微歪了一点,或者机器人看错了,它就得重新计算整个位置,很容易出错,而且很难学。
  • 现在的最佳做法(相对增量/Delta): 老师告诉学生:“把手往右移 5 厘米,往下压 2 厘米”。
    • 优势: 这种“相对指令”就像在走迷宫时,不需要知道整个地图,只需要知道“下一步往哪走”。
    • 结论: 无论机器人多聪明,告诉它“下一步怎么动”永远比告诉它“最终在哪”要学得快、做得稳。

2. 核心发现二:怎么“打包”指令很重要

(动作分块/Chunking)

机器人一次动作不是只动一下,而是一连串的动作。

  • 错误做法(步步为营): 预测第 1 步,执行;再预测第 2 步,执行……
    • 问题: 就像玩“传话游戏”,第 1 步稍微有点误差,第 2 步就会放大这个误差,传到第 10 步时,机器人可能已经撞墙了。
  • 正确做法(整块打包): 一次性预测好未来 1 秒(比如 30 步)的所有动作,然后一次性执行完。
    • 优势: 就像直接画好整条路线,中间不会因为“传话”而走偏。
    • 结论: 一次性预测未来的一串动作(Chunk-wise),比一步一步猜要稳得多。

3. 核心发现三:看情况选“身体语言”

(空间维度:关节空间 vs. 任务空间)

这里有两个流派,就像教人跳舞:

  • 流派 A:关节空间(Joint Space)

    • 怎么教: 告诉机器人“左肩转 30 度,右肘弯 45 度”。
    • 适合场景:固定的环境里,数据很多,训练时间很长。
    • 优点: 机器人对自己身体最了解,动作最稳,不容易卡住。就像专业舞者,对自己肌肉的控制力极强。
    • 缺点: 如果换个机器人(比如从单臂换成双臂),或者换个环境,它就得重新学怎么控制肌肉,很难通用。
  • 流派 B:任务空间(Task Space / End-Effector)

    • 怎么教: 告诉机器人“手(夹爪)往左移,往右移”。
    • 适合场景: 跨机器人、跨任务的通用场景。
    • 优点: 不管机器人长什么样(是单臂还是双臂,是长臂还是短臂),只要“手”能到那个位置就行。就像教人“把球投进篮筐”,不管你是高个子还是矮个子,目标是一样的。
    • 缺点: 在复杂环境下,如果机器人身体结构太复杂,直接控制“手”可能会算错,导致动作抖动。

4. 总结:未来的机器人该怎么教?

作者们根据实验结果,给未来的机器人工程师们开了一张“处方”:

  1. 如果是为了在特定工厂里干得又快又稳(比如单臂机器人搬东西):

    • 最佳组合: 用**“相对增量”(Delta)** + “关节空间”(Joint Space) + “整块预测”
    • 比喻: 就像让一个经验丰富的老工匠,通过微调肌肉(关节)来精准完成复杂的精细活。
  2. 如果是为了造一个通用的“万能机器人”(比如能换不同手臂,或者去不同地方干活):

    • 最佳组合: 用**“相对增量”(Delta)** + “任务空间”(Task Space/手的位置)
    • 比喻: 就像教一个实习生,不管他用什么工具,只要告诉他“手要放到哪里”,他就能完成任务,换个人也能接着干。

一句话总结

这篇论文告诉我们:教机器人干活,不要只盯着“大脑”(模型)和“教材”(数据)看,更要讲究“教学方法”(动作空间设计)。 选对了“怎么教”(用相对增量、整块预测、根据场景选空间),能让机器人学得更快、干得更稳,甚至能从一个机器人身上学到的经验,直接用到另一个机器人身上。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →