EmboAlign: Aligning Video Generation with Compositional Constraints for Zero-Shot Manipulation

EmboAlign 提出了一种无需数据的框架,通过利用视觉语言模型提取的组合作为约束条件,在推理阶段对视频生成模型的输出进行筛选和轨迹优化,从而显著提升了零样本机器人操作的成功率。

Gehao Zhang, Zhenyang Ni, Payal Mohapatra, Han Liu, Ruohan Zhang, Qi Zhu

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 EmboAlign 的新系统,它的目标是让机器人能够“看一次就会做”,而且不需要专门针对每个任务进行训练(也就是所谓的“零样本”能力)。

为了让你更容易理解,我们可以把机器人做任务的过程想象成**“拍电影”和“拍电影指导”**的关系。

1. 核心问题:机器人为什么容易“翻车”?

现在的机器人如果要看视频学动作,通常依赖两类“老师”:

  • 视频生成模型(VGM)—— 像一位“脑洞大开的导演”
    这位导演看过互联网上无数的视频,所以它能想象出非常生动、流畅的动作画面。比如让它“把积木叠起来”,它能生成一段很酷的视频。

    • 缺点:这位导演太有想象力了,经常**“开脑洞”(幻觉)。它可能会让积木像液体一样变形,或者让物体凭空消失,甚至让两个物体穿模(互相穿透)。而且,它生成的只是“画面”,机器人要把画面变成真实的机械臂动作时,还需要把像素坐标转换成物理坐标,这个过程就像“翻译”**,很容易出错,导致动作变形。
  • 视觉语言模型(VLM)—— 像一位“严谨的物理学教授”
    这位教授不懂怎么拍电影,但他非常懂物理规则逻辑。他知道“积木不能变形”、“手要从上面拿”、“不能碰到旁边的瓶子”。

    • 缺点:他虽然懂规则,但自己不会“演”出动作,不知道具体怎么动才好看、流畅。

以前的做法:要么只听导演的(动作很花哨但物理上不可能实现),要么只听教授的(动作很安全但可能根本动不起来,或者卡在死胡同里)。

2. EmboAlign 的解决方案:让“导演”和“教授”联手

EmboAlign 就像是一个超级制片人,它把这两位老师结合在了一起,分两步走:

第一步:选片会(约束引导的视频选择)

  • 场景:导演(VGM)一口气拍出了 10 个不同版本的“叠积木”视频。
  • 动作:制片人(EmboAlign)请教授(VLM)来当评委。教授手里拿着一张**“物理规则清单”**(比如:积木不能变形、红色积木不能动、绿色积木必须放在红色上面)。
  • 结果:教授把那些“积木变软了”、“积木消失了”或者“放歪了”的视频统统淘汰。最后只留下一个既流畅又符合物理定律的“最佳视频”。
    • 比喻:就像选角导演在几百个演员里,只挑那个既演技好(视频流畅)又没违反剧本规定(物理约束)的人。

第二步:精修动作(基于约束的轨迹优化)

  • 场景:虽然选出了最好的视频,但把视频里的动作直接教给机器人手臂时,因为“翻译”误差,机器人可能会手抖或者抓偏。
  • 动作:制片人再次请教授出马。教授拿着刚才的“物理规则清单”,对机器人手臂的动作进行微调
    • 如果机器人手稍微偏了一点,教授会强制把它拉回正确的位置。
    • 如果机器人差点碰到旁边的瓶子,教授会立刻修正路径绕开。
  • 结果:机器人最终执行的动作,既保留了视频里的流畅感,又严格遵守了物理安全规则。

3. 这个系统有多厉害?

研究人员在真实的机器人上做了 6 个任务,比如:

  • 把盖子打开。
  • 把绿色积木叠在红色积木上。
  • 按订书机。
  • 用锤子敲东西。
  • 把水倒进碗里。
  • 把积木放到安全位置(避开旁边的水瓶)。

结果惊人
如果不加这个系统,机器人要么动作太飘(只看视频),要么动不起来(只看规则),成功率只有 20% 多
用了 EmboAlign 之后,成功率直接飙升到 68.3%!这意味着机器人从“经常搞砸”变成了“大部分时候都能成功”。

4. 总结:为什么要这样做?

这就好比你想让一个刚毕业的新手厨师(机器人)做一道复杂的菜:

  1. 你给他看一段美食纪录片(视频生成模型),让他模仿大厨的动作。但他可能会把盐当成糖,或者把锅烧穿(物理幻觉)。
  2. 你旁边站着一位老厨师长(视觉语言模型),他手里拿着烹饪守则(约束条件)。
  3. EmboAlign 的做法是:先让老厨师长从纪录片里挑出最靠谱的那一段(过滤掉错误的),然后在新手厨师动手时,老厨师长时刻盯着,一旦新手手抖或者要碰倒调料瓶,立刻纠正他的动作。

核心贡献

  • 不用重新训练:不需要给机器人喂几千次数据,它就能学会新任务。
  • 安全又精准:既利用了 AI 的创造力,又用物理规则锁住了它的“乱来”。
  • 通用性强:不管是叠积木还是倒水,这套“导演 + 教授”的搭档模式都能用。

简单来说,EmboAlign 就是给机器人装了一个**“物理纠错器”**,让它既能天马行空地想象动作,又能脚踏实地地安全执行。