Demystifying Action Space Design for Robotic Manipulation Policies

Each language version is independently generated for its own context, not a direct translation.

这篇文章就像是一份**“机器人操作指南的终极体检报告”**。

想象一下，你要教一个机器人（比如机械臂）像人一样干活，比如拿杯子、叠衣服或者把积木从一个地方搬到另一个地方。过去，大家花了很多精力去收集更多的“教学视频”（数据）和造更聪明的“大脑”（大模型），但往往忽略了**“怎么教”**这个最基础的问题。

这就好比教孩子学骑自行车：

你是直接告诉他“把手放在这里，脚踩在那个位置”（绝对坐标）？
还是告诉他“把手往左移一点点，脚往前蹬一下”（相对增量）？
你是让他记住整个身体的关节怎么动（关节空间）？
还是只关注手抓东西的那个点怎么动（任务空间/末端执行器）？

这篇论文的作者们（来自清华、上海人工智能实验室等）觉得，以前大家在这个“怎么教”的问题上太随意了，全是凭感觉（“我觉得这样教比较好”）。于是，他们搞了一场史无前例的大规模实验：在真机器人上跑了13,000 多次，训练了500 多个模型，终于把这个问题彻底搞明白了。

以下是他们的核心发现，用大白话翻译一下：

1. 核心发现一：别给“绝对坐标”，要给“相对指令”

（时间维度：Delta vs. Absolute）

以前的做法（绝对坐标）： 就像老师直接告诉学生：“把杯子放到桌子正中央（坐标 X=10, Y=20）”。
- 问题： 如果桌子稍微歪了一点，或者机器人看错了，它就得重新计算整个位置，很容易出错，而且很难学。
现在的最佳做法（相对增量/Delta）： 老师告诉学生：“把手往右移 5 厘米，往下压 2 厘米”。
- 优势： 这种“相对指令”就像在走迷宫时，不需要知道整个地图，只需要知道“下一步往哪走”。
- 结论： 无论机器人多聪明，告诉它“下一步怎么动”永远比告诉它“最终在哪”要学得快、做得稳。

2. 核心发现二：怎么“打包”指令很重要

（动作分块/Chunking）

机器人一次动作不是只动一下，而是一连串的动作。

错误做法（步步为营）： 预测第 1 步，执行；再预测第 2 步，执行……
- 问题： 就像玩“传话游戏”，第 1 步稍微有点误差，第 2 步就会放大这个误差，传到第 10 步时，机器人可能已经撞墙了。
正确做法（整块打包）： 一次性预测好未来 1 秒（比如 30 步）的所有动作，然后一次性执行完。
- 优势： 就像直接画好整条路线，中间不会因为“传话”而走偏。
- 结论： 一次性预测未来的一串动作（Chunk-wise），比一步一步猜要稳得多。

3. 核心发现三：看情况选“身体语言”

（空间维度：关节空间 vs. 任务空间）

这里有两个流派，就像教人跳舞：

流派 A：关节空间（Joint Space）
- 怎么教： 告诉机器人“左肩转 30 度，右肘弯 45 度”。
- 适合场景： 在固定的环境里，数据很多，训练时间很长。
- 优点： 机器人对自己身体最了解，动作最稳，不容易卡住。就像专业舞者，对自己肌肉的控制力极强。
- 缺点： 如果换个机器人（比如从单臂换成双臂），或者换个环境，它就得重新学怎么控制肌肉，很难通用。
流派 B：任务空间（Task Space / End-Effector）
- 怎么教： 告诉机器人“手（夹爪）往左移，往右移”。
- 适合场景： 跨机器人、跨任务的通用场景。
- 优点： 不管机器人长什么样（是单臂还是双臂，是长臂还是短臂），只要“手”能到那个位置就行。就像教人“把球投进篮筐”，不管你是高个子还是矮个子，目标是一样的。
- 缺点： 在复杂环境下，如果机器人身体结构太复杂，直接控制“手”可能会算错，导致动作抖动。

4. 总结：未来的机器人该怎么教？

作者们根据实验结果，给未来的机器人工程师们开了一张“处方”：

如果是为了在特定工厂里干得又快又稳（比如单臂机器人搬东西）：
- 最佳组合： 用**“相对增量”（Delta）** + “关节空间”（Joint Space） + “整块预测”。
- 比喻： 就像让一个经验丰富的老工匠，通过微调肌肉（关节）来精准完成复杂的精细活。
如果是为了造一个通用的“万能机器人”（比如能换不同手臂，或者去不同地方干活）：
- 最佳组合： 用**“相对增量”（Delta）** + “任务空间”（Task Space/手的位置）。
- 比喻： 就像教一个实习生，不管他用什么工具，只要告诉他“手要放到哪里”，他就能完成任务，换个人也能接着干。

一句话总结

这篇论文告诉我们：教机器人干活，不要只盯着“大脑”（模型）和“教材”（数据）看，更要讲究“教学方法”（动作空间设计）。 选对了“怎么教”（用相对增量、整块预测、根据场景选空间），能让机器人学得更快、干得更稳，甚至能从一个机器人身上学到的经验，直接用到另一个机器人身上。

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于机器人操作策略中动作空间（Action Space）设计的系统性实证研究论文。文章旨在解决当前机器人模仿学习领域中，动作空间选择缺乏统一标准、依赖启发式规则的问题。

以下是对该论文的详细技术总结：

1. 研究问题 (Problem)

在基于模仿学习的机器人操作策略中，动作空间的定义（即神经网络输出如何映射到物理执行器）是连接预测与硬件的关键接口。尽管近期研究主要集中在扩大训练数据和模型容量上，但动作空间的选择（如：关节空间 vs. 任务空间，绝对值 vs. 增量值）仍主要依赖经验法则或遗留设计。

核心痛点：缺乏对动作空间设计哲学的系统性理解，导致不同研究间的结果难以复现和比较，且阻碍了跨具身（cross-embodiment）基础模型的发展。
研究目标：通过大规模实证研究，量化不同动作空间设计对策略学习性（Learnability）和控制稳定性（Stability）的影响，并提供可操作的设计指南。

2. 方法论 (Methodology)

作者将动作空间的设计解构为两个正交维度，并进行了大规模实验：

A. 动作抽象分类学 (Action Abstraction Taxonomy)

时间抽象 (Temporal Abstraction)：
- 绝对表示 (Absolute/0th-order)：直接预测目标状态（如目标位置）。
- 增量/相对表示 (Delta/1st-order)：预测状态增量（如位移量）。
- 动作分块 (Action Chunking)：预测未来一系列动作序列。作者特别研究了分块增量 (Chunk-wise Delta) 与 步进增量 (Step-wise Delta) 的区别。
空间抽象 (Spatial Abstraction)：
- 关节空间 (Joint Space)：直接预测电机关节角度/位置。
- 任务空间 (Task Space/EEF)：预测末端执行器（End-Effector）的位姿。

B. 实验设置

规模：在真实世界机器人上进行了 13,000+ 次 rollout（执行），训练了 500+ 个模型。
平台：
- 真实世界：AgileX 单臂/双臂机器人、AIRBOT 单臂机器人。
- 仿真：RoboTwin-2.0 仿真环境。
任务：涵盖 4 个真实世界任务（从简单的触碰方块到复杂的双臂协调）和 10 个仿真任务。
模型架构：涵盖了回归策略（ACT, MSE Loss）和流匹配生成策略（Diffusion Policy, Flow Matching），以及基础模型（ $\pi_0$ ）的迁移学习。
评估协议：采用网格化空间覆盖策略，确保初始条件的一致性，统计显著性高。

3. 关键贡献与发现 (Key Contributions & Results)

发现一：时间抽象的决定性作用

增量优于绝对：在所有学习范式、硬件平台和任务配置下，Delta（增量）表示始终显著优于绝对表示。
- 原因：绝对表示要求模型学习从视觉到全局坐标的复杂映射，而增量表示将问题简化为预测局部位移，具有更好的归纳偏置。
分块增量的优越性：Chunk-wise Delta（相对于块起始状态的增量）显著优于 Step-wise Delta（相对于上一时刻预测状态的增量）。
- 理论证明：Step-wise 积分会随时间步长线性放大预测噪声（误差累积），而 Chunk-wise 和 Absolute 保持误差有界。
执行窗口 (Horizon) 的耦合：
- Delta 动作：受益于较短的执行窗口（如 $k=30$ ），因为长窗口会导致相对误差累积。
- Absolute 动作：受益于较长的执行窗口（如 $k=60$ ），以维持全局空间一致性。

发现二：空间抽象的场景依赖性

关节空间 (Joint Space) 的优势：在数据充足、训练时间长、模型容量大（特别是配合流匹配/扩散模型）的标准场景下，关节空间控制表现更稳健，泛化性更好。
- 原因：流匹配模型能有效捕捉关节空间复杂的非线性分布和多模态特性，避免了逆运动学（IK）求解的数值奇异性。
任务空间 (Task Space) 的优势：在跨具身 (Cross-embodiment) 和 迁移学习 (Transfer Learning) 场景下，任务空间表现更佳。
- 原因：任务空间（末端位姿）具有“具身不变性”，抽象掉了特定机器人的运动学结构，更利于知识在不同机器人形态间迁移。

发现三：可扩展性分析 (Scaling Laws)

随着数据量和计算资源的增加，关节空间 + 增量表示的组合性能提升最为显著，尤其是在回归策略中。
在基础模型（Foundation Models）的迁移学习中，任务空间的优势再次凸显，表明其在通用性任务中的潜力。

4. 实践指南 (Practical Implications)

基于上述研究，作者提出了以下设计指南：

动作分块窗口 ( $k$ ) 不是常数：必须根据时间抽象类型调整。Delta 动作应使用较短窗口，Absolute 动作可使用较长窗口。
标准单臂/双臂操作：若目标是最大化特定硬件平台的性能，“关节空间 + 分块增量 (Chunk-wise Delta)" 是最稳健的组合，尤其是配合强大的生成式模型（如 Diffusion）。
跨具身与迁移学习：若目标是实现跨机器人或跨任务的泛化，任务空间 (Task Space/EEF) 是更优的空间抽象选择。

5. 意义 (Significance)

理论层面：首次通过大规模实证研究，系统解构了动作空间设计对策略学习的影响，揭示了时间抽象与空间抽象之间的权衡（Trade-off）。
工程层面：为机器人开发者提供了明确的“最佳实践”，消除了当前领域中的模糊性，有助于标准化未来的机器人策略研究。
未来方向：指出了混合/自适应动作空间（根据任务阶段动态切换）以及高自由度（High-DoF）系统（如人形机器人、灵巧手）中动作空间设计的潜在研究方向。

总结：这篇论文通过严谨的大规模实验，证明了**“没有一种动作空间适合所有场景”**，但给出了清晰的指导原则：在特定机器人上追求极致性能时，首选“关节空间 + 增量分块”；在追求跨机器人泛化时，首选“任务空间”。这一发现对于构建下一代通用机器人基础模型至关重要。