VLANeXt: Recipes for Building Strong VLA Models

本文提出了名为 VLANeXt 的视觉 - 语言 - 动作(VLA)模型,通过统一框架系统性地分析了 VLA 设计空间并总结出 12 项关键发现,从而在基准测试和真实世界实验中实现了超越现有最先进方法的性能。

Xiao-Ming Wu, Bin Fan, Kang Liao, Jian-Jian Jiang, Runze Yang, Yihang Luo, Zhonghua Wu, Wei-Shi Zheng, Chen Change Loy

发布于 2026-02-24
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一份**“机器人烹饪大师的终极食谱”**。

想象一下,现在的机器人界(特别是那些能听懂人话、看懂世界并动手做事的“机器人厨师”)正处于一种**“大乱炖”**的状态。虽然有很多人在尝试做这道菜(也就是训练机器人),但大家用的锅不一样、火候不同、调料比例也五花八门。结果就是,虽然有些机器人做得不错,但我们不知道到底是因为“厨师”本身厉害,还是因为“盐放得刚好”。

这篇论文的作者们决定:别乱炖了,我们来搞个标准化厨房,看看到底哪些步骤才是做出美味佳肴(强机器人)的关键。

他们最终做出来了一个叫 VLANeXt 的新机器人模型,它虽然个头不大(只有 25 亿参数,比很多竞争对手的 70 亿参数要小),但做出来的菜(任务完成度)却是最香的。

以下是他们发现的12 条“烹饪秘籍”,用大白话和比喻来讲:

1. 核心架构:别只靠“复读机”,要请个“专业副厨”

  • 以前的做法:让大语言模型(VLM,也就是机器人的“大脑”)直接输出动作,就像让一个只会写诗的大厨直接指挥手去炒菜,有点“隔行如隔山”。
  • VLANeXt 的做法:在大脑和手之间,专门加了一个**“副厨”(Policy Head)**。这个副厨专门负责把大脑的“想法”翻译成具体的“手部动作”。
  • 比喻:就像你(大脑)想“把盘子拿起来”,你不需要自己伸手,而是喊一声“副厨,把盘子拿起来”,副厨(专门的策略模块)会精准地执行。而且,副厨的“肌肉”(层数)要练得强壮一点,才能干好活。

2. 动作预测:别“一步一停”,要“预判未来”

  • 以前的做法:机器人每动一下,都要停下来思考一下下一步。
  • VLANeXt 的做法:一次预测未来 8 步的动作(Action Chunking)。
  • 比喻:就像开车,老式机器人是“走一步看一步”,容易顿挫;VLANeXt 是**“老司机”**,一眼能看出去 8 秒的路,动作连贯流畅,不会急刹车。

3. 学习数学题:别死记硬背,要“理解规律”

  • 以前的做法:把动作像分类题一样,硬生生切成 256 个格子,选一个(分类法)。这就像背乘法表,死板。
  • VLANeXt 的做法:用**“流匹配”(Flow Matching)**。这就像学游泳,不是背动作,而是感受水的流动规律,直接生成平滑的动作曲线。
  • 比喻:分类法是“选 A、B、C 哪个动作”,流匹配法是“画出动作的优美轨迹”。后者更自然,机器人动作更像人。

4. 大脑升级:换个更聪明的“大脑”

  • 以前的做法:用普通的语言模型做视觉理解。
  • VLANeXt 的做法:换用了更强大的 Qwen3-VL 模型作为视觉语言骨干。
  • 比喻:以前是用“初中学历”的机器人看世界,现在换成了“博士学历”的机器人。看得更清,理解更深,自然干得更好。

5. 大脑与副厨的连接:别太生硬,也别太疏远

  • 以前的做法:要么完全分开(太生疏),要么层对层硬连(太生硬)。
  • VLANeXt 的做法:用一种**“软连接”**。在大脑和副厨之间加了一层“可学习的提问机制”(MetaQuery)。
  • 比喻:就像老板(大脑)和员工(副厨)之间,不是老板直接吼命令,也不是完全不管,而是老板先问:“你觉得这事儿该咋办?”员工心里有个“缓冲带”思考一下,再给出最佳方案。这种**“软沟通”**效率最高。

6. 感知输入:别只看一眼,要看“全景”

  • 以前的做法:只给机器人看一个固定角度的摄像头画面。
  • VLANeXt 的做法:同时给机器人看**“第三人称视角”(像观众看)和“手腕视角”**(像机器人自己看)。
  • 比喻:就像你下棋,以前只能看棋盘的一半,现在360 度无死角,连棋子底下的缝隙都看得清清楚楚,当然不容易出错。

7. 本体感觉:别只靠眼睛,要“感觉身体”

  • 以前的做法:机器人不知道自己的关节角度和力度,只靠眼睛看。
  • VLANeXt 的做法:把机器人的**“本体感觉”**(关节角度、速度等数据)直接喂给“大脑”(VLM),而不是只给“副厨”。
  • 比喻:就像盲人摸象,如果只靠手摸(副厨),可能摸不准;如果让大脑先知道“我的手现在是什么姿势”,大脑就能指挥得更精准。让大脑先“感觉”到身体,比让手自己去猜要聪明得多。

8. 时间历史:别翻旧账,看“当下”就好

  • 以前的做法:把过去很多帧的画面都塞给机器人,让它回忆。
  • VLANeXt 的做法:发现给太多过去的画面反而让机器人**“分心”**,直接看当前画面效果最好。
  • 比喻:就像你开车,盯着后视镜看太久反而容易撞车,**盯着前方(当前帧)**才是最重要的。

9. 动作的“频率”:像听歌一样做动作

  • 创新点:作者发现机器人的动作像音乐一样,有节奏和频率。他们加了一个小任务,让机器人在**“频率域”**(Frequency Domain)去优化动作。
  • 比喻:就像调音师不仅听声音大小,还要听音调(频率)。这个技巧让机器人的动作更顺滑,而且几乎不增加计算成本,是性价比极高的“作弊码”。

10. 世界模型:虽然有用,但太“费电”

  • 尝试:让机器人预测“下一秒世界会变成什么样”(世界模型)。
  • 结论:虽然这能提升一点性能,但训练时间要翻三倍,太贵了。
  • 比喻:就像为了做一道菜,专门去建一个农场种菜。虽然菜好吃,但成本太高,对于日常做饭来说,直接去超市买(用现有数据)更划算。所以 VLANeXt 没选这个。

11. 最终成果:VLANeXt

  • 综合以上所有“秘籍”,作者做出了 VLANeXt
  • 战绩:在标准的机器人考试(LIBERO 和 LIBERO-plus)中,它打败了所有比它大的模型(包括 70 亿参数的 OpenVLA)。
  • 现实表现:在真实的物理世界里(比如擦桌子、开抽屉、双手提篮子),它也能稳稳完成任务,甚至能举一反三,适应不同的环境变化(比如灯光变了、背景变了)。

12. 开源精神:把菜谱公开

  • 作者不仅做了菜,还把厨房、菜谱、调料配方全部开源了。
  • 意义:以后大家不用各自闭门造车,可以站在同一个起跑线上,基于这个统一的框架去探索更好的机器人。

总结

这篇论文的核心思想就是:机器人变强,不一定非要堆砌巨大的参数(大模型),而是要把“怎么教”、“怎么看”、“怎么动”这些基础设计(Recipe)做到极致。

就像做菜,食材(数据)固然重要,但**火候、刀工和调味(设计选择)**才是决定一道菜是“黑暗料理”还是“米其林三星”的关键。VLANeXt 就是这份经过千锤百炼的“米其林食谱”。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →