UniLACT: Depth-Aware RGB Latent Action Learning for Vision-Language-Action Models

本文提出了 UniLACT,一种通过 UniLARN 框架学习 RGB 与深度模态共享的几何感知潜在动作表示,从而在无需显式机器人动作监督的情况下增强视觉 - 语言 - 动作模型空间先验并提升其操作性能的方法。

Manish Kumar Govind, Dominick Reilly, Pu Wang, Srijan Das

发布于 2026-02-25
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种让机器人变得更聪明、更懂“空间感”的新方法。我们可以把这项技术想象成教机器人从“看热闹”进化到“看门道”。

1. 核心问题:机器人只有“平面眼”,没有“立体脑”

想象一下,你给一个机器人看一段视频,视频里有人把苹果放进碗里。

  • 以前的机器人(RGB 模式): 它就像是一个只看2D 照片的人。它知道苹果是红色的、碗是白色的,也知道苹果在碗的“上面”(在图片里)。但是,它不知道深度。它分不清苹果是离碗很近,还是离碗很远;它不知道手伸过去会不会撞到碗边。这就像你在玩一个没有 3D 效果的平面游戏,很难精准地抓取物体。
  • 现在的痛点: 很多机器人学习动作是靠人类手把手教(遥操作),这太贵、太慢了。大家想从网上海量的普通视频里自学,但普通视频只有颜色(RGB),没有深度信息,导致机器人学出来的动作“看起来像那么回事”,但一上手就撞东西。

2. 解决方案:UNILACT —— 给机器人装上“透视眼”

作者提出了一个叫 UNILACT 的模型,它的核心思想是:在机器人“做梦”(学习)的时候,让它同时看“彩色图”和“深度图”,但在“干活”(执行任务)的时候,只让它看“彩色图”。

这就好比教一个盲人厨师做菜:

  • 训练阶段(UNILARN): 我们给厨师看两种图:一张是普通的彩色照片,另一张是带有距离信息的“深度图”(就像雷达扫描,能看出物体离你有多远)。我们强迫厨师把这两种信息融合在一起,学会一种**“超级语言”**(统一潜在动作表示)。在这种语言里,不仅包含了“苹果是红的”,还包含了“苹果离手有 10 厘米”。
  • 推理阶段(UNILACT): 等厨师学会了这种“超级语言”,我们就不给他看深度图了。当他面对真实的厨房(只有彩色摄像头)时,他脑子里已经自动补全了深度信息。他不需要再问“这个碗有多远?”,因为他已经内化了这种空间感。

3. 具体是怎么做的?(三个步骤的比喻)

整个过程分为三个阶段,就像培养一个天才机器人:

  • 第一步:UNILARN(双修内功)
    这就好比让机器人同时看“彩色电影”和"3D 建模图”。它通过一种特殊的数学方法(逆向和正向动力学),把这两种图里的动作规律提取出来,压缩成一种**“通用密码”**。这种密码既懂颜色,又懂距离。

    • 比喻: 就像你学游泳,先在陆地上看教练的彩色动作视频,同时看教练在水下的 3D 骨骼动作分析。你把这两者结合,脑子里形成了一套完美的游泳肌肉记忆。
  • 第二步:UNILACT 预训练(背诵密码)
    机器人开始大量阅读这种“通用密码”。它看着任务指令(比如“打开抽屉”)和画面,预测下一个动作的密码是什么。因为它是在“彩色 + 深度”的环境下学的,所以它学到的密码里天然带着空间几何感

    • 比喻: 机器人开始疯狂背诵这本“带 3D 注释的字典”。它学会了,当看到“把手”时,不仅知道它是银色的,还知道它大概离手多远,怎么抓才不会滑脱。
  • 第三步:微调(实战演练)
    最后,用一点点真实的机器人操作数据(比如人类真的抓了一次苹果),把机器人从“背字典”变成“会干活”。这时候,它只需要看普通的彩色摄像头,就能输出精准的动作指令。

    • 比喻: 机器人终于下水了。虽然水里没有 3D 建模图,但它脑子里的“肌肉记忆”让它能精准地避开障碍物,把苹果稳稳放进碗里。

4. 效果如何?(实战表现)

作者在电脑模拟和真实的机械臂上都做了测试,效果惊人:

  • 在模拟世界里: 它的表现比只看彩色图的机器人强了 29.2%。特别是在那些需要精细操作(比如推滑块、拧灯泡)的任务上,优势巨大。
  • 在真实世界里:
    • 任务 A(把胡萝卜放进碗里): 旧机器人(只看颜色)经常因为算不准距离,把胡萝卜直接进碗里,甚至把碗推飞。而 UNILACT 能精准地悬停在碗上方,轻轻放下。
    • 任务 B(把茄子移到香蕉旁边): 旧机器人经常抓空或者撞到桌子。UNILACT 则能稳稳抓住,精准移动。

5. 总结:为什么这很酷?

这项技术的最大亮点在于**“训练时偷师,干活时隐身”**。

  • 以前: 想让机器人懂深度,就得一直给它装昂贵的深度摄像头,或者一直用深度数据训练,导致它离开深度摄像头就不会干活。
  • 现在(UNILACT): 我们利用深度数据在“幕后”帮机器人把空间感练好,然后把它“封印”在它的脑子里。等到它真正去干活时,只需要最普通的摄像头,就能展现出大师级的空间操作能力

一句话总结:
UNILACT 就像给机器人请了一位懂 3D 空间的“私教”,在训练时让机器人同时看 2D 和 3D 图,练出一身“透视神功”。等机器人出师后,哪怕只给它看 2D 照片,它也能像拥有 3D 视觉一样,精准、优雅地完成各种复杂的抓取任务。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →