NovaPlan: Zero-Shot Long-Horizon Manipulation via Closed-Loop Video Language Planning

NovaPlan 提出了一种分层框架,通过结合闭环视觉语言规划与基于生成视频中几何先验的机器人执行,实现了无需任何先验演示或训练即可在真实世界中完成复杂长程操作任务及自主错误恢复的零样本能力。

Jiahui Fu, Junyu Nan, Lingfeng Sun, Hongyu Li, Jianing Qian, Jennifer L. Barry, Kris Kitani, George Konidaris

发布于 2026-02-24
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 NovaPlan 的机器人系统。简单来说,它让机器人学会了"先想象,再动手,错了就改"的本领,而且不需要人类手把手教它具体怎么干(即“零样本”学习)。

为了让你更容易理解,我们可以把 NovaPlan 想象成一个拥有“超能力”的机器人管家

1. 核心难题:机器人为什么以前很笨?

以前的机器人就像是一个只会死记硬背的学徒

  • 如果你没教过它怎么把积木搭高,它就不会。
  • 如果你让它把东西放进抽屉,它可能会因为手滑或者看错了位置,把东西扔在地上,然后它就“死机”了,不知道该怎么办。
  • 以前的技术要么太死板(只能做教过的动作),要么太爱“做梦”(生成的视频很美好,但机器人真去抓的时候,手会穿模或者抓空)。

2. NovaPlan 的三大“超能力”

NovaPlan 通过三个步骤解决了这些问题,我们可以把它比作一个聪明的导演 + 一个精准的摄影师 + 一个灵活的演员

第一步:导演的大脑(视频语言规划)

  • 比喻:想象你给机器人一个任务:“把桌上的积木搭成一座塔”。NovaPlan 不会直接动手,而是先让它的“大脑”(一个强大的 AI 模型)在脑海里拍一部电影
  • 怎么做:它会生成好几个不同的“电影剧本”(视频),想象积木是怎么被拿起来、怎么被放下的。
  • 筛选:它会像挑剔的导演一样,检查这些剧本:“这个剧本里积木是不是飞起来了?(物理不对)”“那个剧本里手是不是抓错了东西?(逻辑不对)”。它只选那个最符合物理规律、最合理的剧本。

第二步:灵活的演员(混合流追踪)

  • 比喻:这是 NovaPlan 最厉害的地方。以前的机器人只看“物体”怎么动,如果物体被手挡住了,机器人就瞎了。但 NovaPlan 会同时看“物体”和“手”
  • 怎么做
    • 如果物体露在外面,它就盯着物体的轨迹走。
    • 如果物体被手挡住了(比如手在抓东西,挡住了视线),它立刻切换成盯着的轨迹走。
  • 效果:就像你在玩捉迷藏,即使对方被墙挡住了,你也能通过观察墙后那只露出来的手,猜出他在哪。这让机器人在视线受阻时也能稳稳地操作。

第三步:纠错的“后悔药”(闭环反馈)

  • 比喻:这是 NovaPlan 和以前机器人最大的不同。以前的机器人是“开环”的,就像蒙着眼睛射箭,射出去就不管了。NovaPlan 是“闭环”的,就像打篮球,投完篮要看进没进,没进就赶紧补一个。
  • 怎么做
    1. 机器人照着“电影剧本”做动作。
    2. 做完后,它立刻回头看一眼现实世界:“哎呀,积木没放正,歪了!”
    3. 这时候,它不会崩溃,而是立刻启动"急救模式"。它会重新拍一段“补救电影”:想象用手指轻轻推一下歪掉的积木,把它推正。
    4. 然后执行这个补救动作,直到任务完成。

3. 它有多强?(实验成果)

论文里展示了几个高难度任务,NovaPlan 都能搞定,而且完全没经过专门训练

  • 搭积木:把四个不同颜色的积木一层层叠起来,哪怕叠到最高层,它也能稳稳当当。
  • 找东西:把东西藏在两个抽屉里,它知道要一个个打开找,找到了再拿出来。
  • 精密组装:在“功能操作基准(FMB)”测试中,它能把形状奇怪的零件严丝合缝地装进底座里,精度达到毫米级。
  • 非抓取式补救:这是最酷的。如果零件卡住了,它不需要重新抓起来,而是像人一样,用手指轻轻戳一下(poke),把零件“捅”进正确的位置。

4. 总结

NovaPlan 就像是一个拥有“预知未来”能力的机器人

它不再只是机械地执行代码,而是:

  1. 先思考(在脑海里模拟各种可能);
  2. 再行动(根据模拟结果,灵活选择看物体还是看手);
  3. 会反思(发现错了立刻想办法补救,而不是死机)。

这项技术意味着,未来的机器人将不再需要人类为每一个新任务编写复杂的程序。你只需要告诉它“把桌子收拾干净”,它就能自己想办法、自己试错、自己解决问题,真正像人一样灵活地工作。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →