VITA: Vision-to-Action Flow Matching Policy

本文提出了 VITA,一种无需迭代去噪和视觉条件输入的流匹配策略框架,通过联合训练动作自编码器与引入流潜在解码技术,实现了从视觉表征到潜在动作的直接映射,在显著降低推理延迟的同时保持了顶尖的性能表现。

Dechen Gao, Boqi Zhao, Andrew Lee, Ian Chuang, Hanchu Zhou, Hang Wang, Zhe Zhao, Junshan Zhang, Iman Soltani

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 VITA 的新机器人控制方法。为了让你轻松理解,我们可以把机器人学习如何做事,想象成学习做菜的过程。

1. 以前的做法:笨重的“边看边做”

想象一下,以前教机器人(比如机械臂)倒水或穿针引线,用的是传统的“流匹配”或“扩散模型”方法。这就像让一个新手厨师做菜:

  • 起点是“一团乱麻”:厨师一开始手里没有食材,只有一堆毫无意义的噪音(就像白噪音)。
  • 过程很繁琐:厨师必须一边看着菜谱(视觉信息),一边在脑海里反复想象:“哦,这里需要加点盐,那里需要切块”。
  • 问题:这个“看菜谱 - 想象 - 调整”的过程要重复很多次(迭代去噪)。每次调整都要重新读一遍菜谱,非常,而且费脑子(计算资源消耗大)。这就导致机器人反应慢,没法做那种需要毫秒级反应的精细动作。

2. VITA 的突破:直接“看图说话”

VITA 的核心思想是:别从噪音开始,直接从“视觉”跳到“动作”

  • 新的起点:VITA 不再让机器人从“一团乱麻”开始猜。它直接把机器人看到的画面(比如摄像头拍到的针和线)作为起点。
  • 直接流动:想象水流。以前的方法是把水从“大海”(噪音)慢慢引到“杯子”(动作)。VITA 的方法是,直接把水从“水龙头”(视觉画面)引到“杯子”(动作)。
  • 不需要“菜谱”:因为起点就是画面,机器人不需要在过程中反复去“看”画面来提醒自己该做什么。它就像是一个肌肉记忆极好的老厨师,看到食材(视觉),手直接就知道该怎么切(动作),中间不需要停下来思考。

3. 遇到的挑战:语言不通怎么办?

这里有个大难题:“画面”和“动作”完全不在一个维度上。

  • 画面:像是一本厚厚的百科全书,信息量巨大,维度很高(几百万像素)。
  • 动作:像是一张简单的购物清单,只有几个数字(比如手臂转多少度,手指夹多紧)。
  • 比喻:这就像让你把“一部 4K 高清电影”直接变成“一句话的指令”。如果直接转,信息会丢失,或者电影变成了一堆乱码。

VITA 的解决方案:建立一个“翻译官”(潜空间自动编码器)
VITA 发明了一个特殊的“翻译官”(动作自动编码器):

  1. 它把复杂的“动作清单”(原始动作)先翻译成一种高级的、结构化的“动作语言”(潜空间动作)。
  2. 这种“动作语言”的复杂程度,刚好和“电影画面”(视觉特征)一样高。
  3. 这样,机器人就可以顺畅地把“电影”直接“流”向“高级动作语言”,最后再翻译回具体的“动作清单”。

4. 最大的创新:防止“翻译走样”(流潜解码)

在训练过程中,VITA 发现了一个陷阱:

  • 训练时:机器人看着“标准答案”(专家演示的动作)来学习翻译。
  • 测试时:机器人要自己根据画面生成“高级动作语言”,然后翻译成动作。
  • 问题:如果训练时只盯着“标准答案”,机器人可能学不会怎么把“自己生成的语言”翻译回正确的动作。就像学生只背了标准答案,但考试时题目稍微变一下,他就不会做了。

VITA 的绝招:流潜解码 (Flow Latent Decoding)
VITA 在训练时,强制机器人走一遍完整的流程

  1. 从画面出发,生成“高级动作语言”。
  2. 立刻把这个生成的语言翻译回动作。
  3. 看看翻译出来的动作和真实动作差多少,然后把误差直接反馈回去,修正整个流程。

这就像教学生做菜时,不仅让他背菜谱,还让他真的做一遍菜,尝一口味道,如果咸了,就告诉他下次少放盐。这样,机器人就能确保自己生成的“高级语言”是真正有用的,不会“翻车”。

5. 成果:快如闪电,准如手术刀

  • 速度:因为省去了反复“看菜谱”的麻烦,VITA 的推理速度比传统方法快了 1.5 到 2 倍。这意味着机器人反应更快,能跟上人类的操作节奏。
  • 精度:在穿针引线、倒水进细管这种毫米级精度的任务中,VITA 表现极佳,甚至超过了目前最先进的其他方法。
  • 简单:以前的方法需要像“超级计算机”一样复杂的网络结构(比如 Transformer 加各种注意力机制),而 VITA 因为去掉了那些繁琐的“条件模块”,甚至可以用非常简单的多层感知机(MLP) 就能搞定高难度任务。

总结

VITA 就像给机器人装上了一套直觉系统。它不再让机器人笨拙地“看着图猜动作”,而是让机器人看着图直接动。通过巧妙的“翻译”和“自我纠错”机制,它让机器人变得更快、更准、更聪明,而且不需要消耗那么多算力。这对于让机器人真正走进家庭、工厂,像人类一样灵活工作,是一个巨大的进步。