Each language version is independently generated for its own context, not a direct translation.
这篇论文介绍了一个名为 Mantis(螳螂) 的机器人“大脑”。你可以把它想象成一位既懂语言、又懂视觉,还能“预知未来”的超级机器人管家。
为了让你轻松理解,我们把机器人做任务的过程比作**“在厨房里帮主人做饭”**。
1. 以前的机器人遇到了什么麻烦?
以前的机器人(现有的 VLA 模型)就像是一个刚学会看菜谱的新手厨师:
- 看得懂字,但手跟不上:它能读懂“把杯子拿起来”这句话,也能看到杯子在哪,但让它真正动手时,它往往反应迟钝,或者动作笨拙。
- 顾此失彼:如果强行让它一边看菜谱(语言),一边预测下一秒杯子会怎么动(视觉),它的脑子就会“过载”。要么它忘了菜谱里的意思(不懂人话),要么它算得太慢(动作太慢),要么为了算得快,它把细节都丢了(动作不准)。
2. Mantis 的绝招:把“思考”和“预测”分开(解耦)
Mantis 的核心创新叫做**“解耦的视觉预见”(Disentangled Visual Foresight)。这就像给机器人装了一个“双核处理器”**:
核心 A(主脑):负责“懂人话”和“推理”
它保留了强大的语言理解能力。当主人说:“我渴了,帮我拿杯水。”它不仅能听懂,还能推理出“水”在哪里,杯子是什么,甚至知道如果杯子满了不能倒。它不需要去计算杯子下一秒会怎么动,所以它的大脑很轻松,理解力满分。核心 B(副脑):负责“预演未来”
这是 Mantis 最厉害的地方。它像一个**“时间旅行者”**。- 以前的做法:让主脑一边想“拿杯子”,一边在脑子里模拟“手伸过去、抓住、拿起来”的每一个像素变化。这太累了,而且容易算错。
- Mantis 的做法:它有一个专门的“预演模块”。它看着现在的画面,直接问自己:“如果机器人动了,下一帧画面会是什么样?”
- 关键点:它不需要把整个画面画得清清楚楚,它只需要捕捉**“变化”(比如手从左边移到了右边)。这种“变化”其实就是“动作”**。
- 比喻:就像你看电影时,不需要记住每一帧画面,你只需要记住**“剧情是怎么发展的”**。Mantis 通过预测“剧情(画面变化)”,自动推导出了“动作(手该怎么动)”。
3. 它是如何学习的?(循序渐进的食谱)
Mantis 不是生下来就什么都会的,它采用了**“三步走”**的渐进式训练法,就像教孩子学做饭:
- 第一步:看人类视频(学常识)
让它看 22 万段人类做家务的视频。这时候不教它具体怎么动,只让它看“人是怎么把东西从 A 放到 B 的”。这让它学会了**“世界是怎么运作的”**(比如杯子是易碎的,水会流动)。 - 第二步:看机器人演示(学动作)
给它看 7 万段机器人操作的视频。这时候开始把“画面变化”和“机械臂动作”对应起来。它学会了:“哦,原来画面里那个红点往右移,就是机械臂往右动。” - 第三步:听人说话(学指令)
最后,它开始大量阅读图文数据(38 个数据集)。这时候它把前两步学到的东西和语言结合起来。当主人说“把杯子放桌上”,它能瞬间调用之前的经验,既知道杯子在哪,也知道怎么放,还能听懂“放”这个字的含义。
4. 它的“自适应”技能(智能省力模式)
在真实世界里,Mantis 还有一个**“自适应时间集成”**(ATE)功能。
- 比喻:想象你在走钢丝。
- 当你走平地(比如只是把空杯子拿起来)时,Mantis 会**“快跑”**,减少计算次数,动作干脆利落,不浪费电。
- 当你走钢丝(比如要把水倒进一个很细的瓶口)时,Mantis 会**“慢走”**,增加计算次数,反复确认每一步,确保万无一失,不会洒出来。
- 这种**“该快则快,该慢则慢”**的策略,让它既高效又稳定。
5. 结果怎么样?
- 在模拟考试中(LIBERO 基准):Mantis 的得分高达 96.7%,打败了几乎所有现有的机器人模型。而且它学得非常快,收敛速度惊人。
- 在真实世界中:
- 如果你让它做常规任务(比如“把杯子放桌上”),它做得很好。
- 如果你给它没见过的指令(比如“把杯子放在那个像钢铁侠一样的玩偶上”),它也能通过推理(知道钢铁侠是红色的、有盔甲)成功完成。
- 相比之下,其他模型(比如 )在面对这种需要“动脑筋”的指令时,往往就懵了,或者完全听不懂。
总结
Mantis 就像是一个**“懂事的实习生”:
它不再试图用一颗大脑同时处理所有杂事。它把“理解指令”和“预测动作”**分开了。
- 它听得懂人话(保留了强大的语言理解力)。
- 它能预知未来(通过预测画面变化来指导动作)。
- 它懂得变通(根据任务难度自动调整计算量)。
这篇论文证明了,让机器人学会“预知未来”的画面变化,是让它变得更聪明、更灵活的关键钥匙。
在收件箱中获取类似论文
根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。