UniLACT: Depth-Aware RGB Latent Action Learning for Vision-Language-Action Models

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种让机器人变得更聪明、更懂“空间感”的新方法。我们可以把这项技术想象成教机器人从“看热闹”进化到“看门道”。

1. 核心问题：机器人只有“平面眼”，没有“立体脑”

想象一下，你给一个机器人看一段视频，视频里有人把苹果放进碗里。

以前的机器人（RGB 模式）： 它就像是一个只看2D 照片的人。它知道苹果是红色的、碗是白色的，也知道苹果在碗的“上面”（在图片里）。但是，它不知道深度。它分不清苹果是离碗很近，还是离碗很远；它不知道手伸过去会不会撞到碗边。这就像你在玩一个没有 3D 效果的平面游戏，很难精准地抓取物体。
现在的痛点： 很多机器人学习动作是靠人类手把手教（遥操作），这太贵、太慢了。大家想从网上海量的普通视频里自学，但普通视频只有颜色（RGB），没有深度信息，导致机器人学出来的动作“看起来像那么回事”，但一上手就撞东西。

2. 解决方案：UNILACT —— 给机器人装上“透视眼”

作者提出了一个叫 UNILACT 的模型，它的核心思想是：在机器人“做梦”（学习）的时候，让它同时看“彩色图”和“深度图”，但在“干活”（执行任务）的时候，只让它看“彩色图”。

这就好比教一个盲人厨师做菜：

训练阶段（UNILARN）： 我们给厨师看两种图：一张是普通的彩色照片，另一张是带有距离信息的“深度图”（就像雷达扫描，能看出物体离你有多远）。我们强迫厨师把这两种信息融合在一起，学会一种**“超级语言”**（统一潜在动作表示）。在这种语言里，不仅包含了“苹果是红的”，还包含了“苹果离手有 10 厘米”。
推理阶段（UNILACT）： 等厨师学会了这种“超级语言”，我们就不给他看深度图了。当他面对真实的厨房（只有彩色摄像头）时，他脑子里已经自动补全了深度信息。他不需要再问“这个碗有多远？”，因为他已经内化了这种空间感。

3. 具体是怎么做的？（三个步骤的比喻）

整个过程分为三个阶段，就像培养一个天才机器人：

第一步：UNILARN（双修内功）
这就好比让机器人同时看“彩色电影”和"3D 建模图”。它通过一种特殊的数学方法（逆向和正向动力学），把这两种图里的动作规律提取出来，压缩成一种**“通用密码”**。这种密码既懂颜色，又懂距离。
- 比喻： 就像你学游泳，先在陆地上看教练的彩色动作视频，同时看教练在水下的 3D 骨骼动作分析。你把这两者结合，脑子里形成了一套完美的游泳肌肉记忆。
第二步：UNILACT 预训练（背诵密码）
机器人开始大量阅读这种“通用密码”。它看着任务指令（比如“打开抽屉”）和画面，预测下一个动作的密码是什么。因为它是在“彩色 + 深度”的环境下学的，所以它学到的密码里天然带着空间几何感。
- 比喻： 机器人开始疯狂背诵这本“带 3D 注释的字典”。它学会了，当看到“把手”时，不仅知道它是银色的，还知道它大概离手多远，怎么抓才不会滑脱。
第三步：微调（实战演练）
最后，用一点点真实的机器人操作数据（比如人类真的抓了一次苹果），把机器人从“背字典”变成“会干活”。这时候，它只需要看普通的彩色摄像头，就能输出精准的动作指令。
- 比喻： 机器人终于下水了。虽然水里没有 3D 建模图，但它脑子里的“肌肉记忆”让它能精准地避开障碍物，把苹果稳稳放进碗里。

4. 效果如何？（实战表现）

作者在电脑模拟和真实的机械臂上都做了测试，效果惊人：

在模拟世界里： 它的表现比只看彩色图的机器人强了 29.2%。特别是在那些需要精细操作（比如推滑块、拧灯泡）的任务上，优势巨大。
在真实世界里：
- 任务 A（把胡萝卜放进碗里）： 旧机器人（只看颜色）经常因为算不准距离，把胡萝卜直接撞进碗里，甚至把碗推飞。而 UNILACT 能精准地悬停在碗上方，轻轻放下。
- 任务 B（把茄子移到香蕉旁边）： 旧机器人经常抓空或者撞到桌子。UNILACT 则能稳稳抓住，精准移动。

5. 总结：为什么这很酷？

这项技术的最大亮点在于**“训练时偷师，干活时隐身”**。

以前： 想让机器人懂深度，就得一直给它装昂贵的深度摄像头，或者一直用深度数据训练，导致它离开深度摄像头就不会干活。
现在（UNILACT）： 我们利用深度数据在“幕后”帮机器人把空间感练好，然后把它“封印”在它的脑子里。等到它真正去干活时，只需要最普通的摄像头，就能展现出大师级的空间操作能力。

一句话总结：
UNILACT 就像给机器人请了一位懂 3D 空间的“私教”，在训练时让机器人同时看 2D 和 3D 图，练出一身“透视神功”。等机器人出师后，哪怕只给它看 2D 照片，它也能像拥有 3D 视觉一样，精准、优雅地完成各种复杂的抓取任务。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

背景：
视觉 - 语言 - 动作（Vision-Language-Action, VLA）模型在机器人任务泛化方面表现出色，但现有的 VLA 通常依赖昂贵且难以扩展的人类遥操作数据。为了降低对标注数据的依赖，研究者开始利用无标签的互联网视频进行预训练，通过**潜在动作（Latent Action）**表示来学习动作先验。

核心问题：
现有的潜在动作学习方法（如 Moto、LAPO 等）主要仅基于 RGB 图像 进行训练。这导致学习到的潜在动作主要编码了**外观驱动（appearance-driven）**的动态特征，而缺乏显式的 3D 几何结构 信息。

局限性： 在涉及接触、精确抓取、放置和避障等任务中，缺乏深度信息会导致机器人无法判断物体是否在可及范围内或是否会发生碰撞。
现有尝试的不足： 虽然已有工作尝试将深度图作为 VLA 的输入，但它们通常将深度视为像素级或特征级的辅助输入，并未将几何结构嵌入到潜在动作表示本身中。这意味着下游策略在预训练阶段并未真正“学会”基于几何结构的动作抽象。

目标：
如何在无监督预训练阶段，将 3D 几何结构（深度）融入基于 RGB 的潜在动作表示中，使下游策略能够继承更强的空间先验，且在推理时仅需 RGB 输入。

2. 方法论 (Methodology)

论文提出了 UNILACT (Unified Latent Action Transformer) 框架，包含三个主要阶段，并引入了一个核心组件 UNILARN (Unified Latent Action leaRNing)。

A. 核心组件：UNILARN (统一潜在动作学习框架)

UNILARN 旨在从配对的 RGB 和深度（RGB-D）视频中学习共享的潜在动作空间。

架构设计： 基于逆动力学模型（IDM）和正动力学模型（FDM）的联合训练。
两阶段向量化流程：
1. 模态特定编码： 分别使用 RGB 和深度的 IDM 将观测对映射为连续潜在嵌入，并通过共享的向量量化（VQ）码本离散化，得到模态特定的离散潜在动作 ( $z^r_t, z^d_t$ )。
2. 统一表示融合： 将上述两种模态的码本嵌入拼接，通过线性投影映射到连续空间，再经过第二次向量化，生成统一潜在动作表示 ( $z^u_t$ )。
3. 解耦重建目标： 使用统一潜在动作 $z^u_t$ 结合当前观测，分别重建 RGB 和深度的未来帧（通过 FDM）。这迫使统一表示必须同时捕捉两种模态的互补动态信息（语义 + 几何）。
输出： 生成模态特定（RGB/Depth）和统一（Unified）的潜在动作伪标签。

B. UNILACT 预训练 (Unified Latent Pretraining)

模型架构： 基于 Transformer 的 VLA 模型。
训练目标： 利用 UNILARN 生成的潜在动作作为伪标签。UNILACT 接收视觉观测（RGB）和任务指令，通过自回归方式预测潜在动作序列。
跨模态预测策略： 为了强化语义与几何的对齐，模型在预训练阶段被训练去预测三种类型的潜在动作之一：RGB 潜在、深度潜在或统一潜在。这种交叉模态的监督信号确保了模型在仅输入 RGB 时也能内化几何先验。

C. 动作微调 (Action Fine-Tuning)

流程： 在预训练基础上，使用少量带动作标签的机器人轨迹进行微调。
输入： 视觉观测（RGB）、任务指令、以及预测的统一潜在动作 Token。
输出： 通过轻量级解码器输出可执行的机器人控制指令（7 自由度末端执行器位移、旋转及夹爪状态）。
推理特性： 深度信息仅在训练阶段使用。在推理（Inference）阶段，UNILACT 仅需 RGB 图像和任务指令即可运行，无需深度传感器。

3. 主要贡献 (Key Contributions)

UNILARN 框架： 提出了一种统一的潜在动作学习框架，利用逆/正动力学在共享潜在空间中联合学习模态特定和统一的潜在动作，成功捕捉了视觉语义和 3D 几何结构。
UNILACT 模型： 首个将深度线索直接嵌入潜在动作表示空间的 VLA 模型。通过跨模态潜在动作预测，实现了更精确、泛化性更强的机器人操作策略。
实验验证： 在仿真（CALVIN 基准）和真实世界实验中，证明了统一潜在表示在 3D 空间理解上优于纯 RGB 方法，特别是在接触丰富（contact-rich）的任务中表现显著。

4. 实验结果 (Results)

A. 仿真环境 (CALVIN Benchmark)

设置： 在 A/B/C 环境训练，在未见过的 D 环境测试（ABC→D），评估长程多任务操作。
性能提升：
- 在域内（In-domain）设置下，UNILACT 的平均序列长度（Avg. Len）达到 2.86，优于纯 RGB 基线 Moto (2.60)。
- 在域外（Out-of-domain，基于 Open X-Embodiment 数据预训练）设置下，UNILACT 相比 Moto 提升了 29.2% 的平均序列长度 (3.10 vs 2.40)。
任务分析： 在依赖外观的任务（如堆叠积木）上两者表现接近，但在依赖几何的任务（如移动滑块、开灯）上，引入深度的统一潜在表示带来了显著优势。

B. 真实世界实验 (Real-World)

设置： 使用 xArm7 机械臂和 RealSense 深度相机，进行 4 个桌面操作任务（2 个见过，2 个未见）。
结果：
- UNILACT 在所有任务上的平均成功率达到 62.5%，比基线 Moto (52.5%) 提升了 10%。
- 定性分析： 在“将胡萝卜放入碗”的任务中，Moto 因深度判断不准导致碰撞，而 UNILACT 能准确判断距离并完成任务；在“移动茄子”任务中，UNILACT 展现了更精准的抓取和避障能力。

C. 消融实验 (Ablation Studies)

模态影响： 联合学习 RGB+Depth 的统一潜在表示（2.859）优于单独学习 RGB (2.601) 或 Depth (2.402)，也优于简单的多模态交替训练（2.080），证明了共享空间的重要性。
输出模态： 预训练时预测多种潜在类型（交叉模态监督），微调时仅预测统一潜在类型，效果最佳。
计算效率： UNILACT 与 Moto 参数量相同（89.8M），推理延迟相同（27ms），因为深度仅在训练时使用。

5. 意义与总结 (Significance)

范式创新： 本文首次证明了将几何结构（深度）直接嵌入潜在动作表示（而非仅仅作为输入特征）的有效性。这使得 VLA 模型在预训练阶段就能“理解”3D 空间关系。
实用价值： 该方法解决了机器人操作中对深度信息的依赖问题。虽然训练需要深度数据，但推理阶段仅需 RGB，极大地降低了部署成本，同时保留了深度带来的几何先验优势。
泛化能力： 实验表明，这种深度感知的潜在动作表示显著提升了机器人在未见任务（Zero-shot）和接触丰富场景下的鲁棒性和成功率，为未来构建更通用的具身智能体提供了新的技术路径。

总结： UNILACT 通过 UNILARN 框架成功地将 3D 几何信息蒸馏到 RGB 潜在动作空间中，使得基于纯视觉输入的 VLA 模型具备了更强的空间推理能力，在仿真和真实世界中均取得了显著的性能提升。