VLANeXt: Recipes for Building Strong VLA Models

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一份**“机器人烹饪大师的终极食谱”**。

想象一下，现在的机器人界（特别是那些能听懂人话、看懂世界并动手做事的“机器人厨师”）正处于一种**“大乱炖”**的状态。虽然有很多人在尝试做这道菜（也就是训练机器人），但大家用的锅不一样、火候不同、调料比例也五花八门。结果就是，虽然有些机器人做得不错，但我们不知道到底是因为“厨师”本身厉害，还是因为“盐放得刚好”。

这篇论文的作者们决定：别乱炖了，我们来搞个标准化厨房，看看到底哪些步骤才是做出美味佳肴（强机器人）的关键。

他们最终做出来了一个叫 VLANeXt 的新机器人模型，它虽然个头不大（只有 25 亿参数，比很多竞争对手的 70 亿参数要小），但做出来的菜（任务完成度）却是最香的。

以下是他们发现的12 条“烹饪秘籍”，用大白话和比喻来讲：

1. 核心架构：别只靠“复读机”，要请个“专业副厨”

以前的做法：让大语言模型（VLM，也就是机器人的“大脑”）直接输出动作，就像让一个只会写诗的大厨直接指挥手去炒菜，有点“隔行如隔山”。
VLANeXt 的做法：在大脑和手之间，专门加了一个**“副厨”（Policy Head）**。这个副厨专门负责把大脑的“想法”翻译成具体的“手部动作”。
比喻：就像你（大脑）想“把盘子拿起来”，你不需要自己伸手，而是喊一声“副厨，把盘子拿起来”，副厨（专门的策略模块）会精准地执行。而且，副厨的“肌肉”（层数）要练得强壮一点，才能干好活。

2. 动作预测：别“一步一停”，要“预判未来”

以前的做法：机器人每动一下，都要停下来思考一下下一步。
VLANeXt 的做法：一次预测未来 8 步的动作（Action Chunking）。
比喻：就像开车，老式机器人是“走一步看一步”，容易顿挫；VLANeXt 是**“老司机”**，一眼能看出去 8 秒的路，动作连贯流畅，不会急刹车。

3. 学习数学题：别死记硬背，要“理解规律”

以前的做法：把动作像分类题一样，硬生生切成 256 个格子，选一个（分类法）。这就像背乘法表，死板。
VLANeXt 的做法：用**“流匹配”（Flow Matching）**。这就像学游泳，不是背动作，而是感受水的流动规律，直接生成平滑的动作曲线。
比喻：分类法是“选 A、B、C 哪个动作”，流匹配法是“画出动作的优美轨迹”。后者更自然，机器人动作更像人。

4. 大脑升级：换个更聪明的“大脑”

以前的做法：用普通的语言模型做视觉理解。
VLANeXt 的做法：换用了更强大的 Qwen3-VL 模型作为视觉语言骨干。
比喻：以前是用“初中学历”的机器人看世界，现在换成了“博士学历”的机器人。看得更清，理解更深，自然干得更好。

5. 大脑与副厨的连接：别太生硬，也别太疏远

以前的做法：要么完全分开（太生疏），要么层对层硬连（太生硬）。
VLANeXt 的做法：用一种**“软连接”**。在大脑和副厨之间加了一层“可学习的提问机制”（MetaQuery）。
比喻：就像老板（大脑）和员工（副厨）之间，不是老板直接吼命令，也不是完全不管，而是老板先问：“你觉得这事儿该咋办？”员工心里有个“缓冲带”思考一下，再给出最佳方案。这种**“软沟通”**效率最高。

6. 感知输入：别只看一眼，要看“全景”

以前的做法：只给机器人看一个固定角度的摄像头画面。
VLANeXt 的做法：同时给机器人看**“第三人称视角”（像观众看）和“手腕视角”**（像机器人自己看）。
比喻：就像你下棋，以前只能看棋盘的一半，现在360 度无死角，连棋子底下的缝隙都看得清清楚楚，当然不容易出错。

7. 本体感觉：别只靠眼睛，要“感觉身体”

以前的做法：机器人不知道自己的关节角度和力度，只靠眼睛看。
VLANeXt 的做法：把机器人的**“本体感觉”**（关节角度、速度等数据）直接喂给“大脑”（VLM），而不是只给“副厨”。
比喻：就像盲人摸象，如果只靠手摸（副厨），可能摸不准；如果让大脑先知道“我的手现在是什么姿势”，大脑就能指挥得更精准。让大脑先“感觉”到身体，比让手自己去猜要聪明得多。

8. 时间历史：别翻旧账，看“当下”就好

以前的做法：把过去很多帧的画面都塞给机器人，让它回忆。
VLANeXt 的做法：发现给太多过去的画面反而让机器人**“分心”**，直接看当前画面效果最好。
比喻：就像你开车，盯着后视镜看太久反而容易撞车，**盯着前方（当前帧）**才是最重要的。

9. 动作的“频率”：像听歌一样做动作

创新点：作者发现机器人的动作像音乐一样，有节奏和频率。他们加了一个小任务，让机器人在**“频率域”**（Frequency Domain）去优化动作。
比喻：就像调音师不仅听声音大小，还要听音调（频率）。这个技巧让机器人的动作更顺滑，而且几乎不增加计算成本，是性价比极高的“作弊码”。

10. 世界模型：虽然有用，但太“费电”

尝试：让机器人预测“下一秒世界会变成什么样”（世界模型）。
结论：虽然这能提升一点性能，但训练时间要翻三倍，太贵了。
比喻：就像为了做一道菜，专门去建一个农场种菜。虽然菜好吃，但成本太高，对于日常做饭来说，直接去超市买（用现有数据）更划算。所以 VLANeXt 没选这个。

11. 最终成果：VLANeXt

综合以上所有“秘籍”，作者做出了 VLANeXt。
战绩：在标准的机器人考试（LIBERO 和 LIBERO-plus）中，它打败了所有比它大的模型（包括 70 亿参数的 OpenVLA）。
现实表现：在真实的物理世界里（比如擦桌子、开抽屉、双手提篮子），它也能稳稳完成任务，甚至能举一反三，适应不同的环境变化（比如灯光变了、背景变了）。

12. 开源精神：把菜谱公开

作者不仅做了菜，还把厨房、菜谱、调料配方全部开源了。
意义：以后大家不用各自闭门造车，可以站在同一个起跑线上，基于这个统一的框架去探索更好的机器人。

总结

这篇论文的核心思想就是：机器人变强，不一定非要堆砌巨大的参数（大模型），而是要把“怎么教”、“怎么看”、“怎么动”这些基础设计（Recipe）做到极致。

就像做菜，食材（数据）固然重要，但**火候、刀工和调味（设计选择）**才是决定一道菜是“黑暗料理”还是“米其林三星”的关键。VLANeXt 就是这份经过千锤百炼的“米其林食谱”。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

随着大基础模型（Foundation Models）的兴起，视觉 - 语言 - 动作（Vision-Language-Action, VLA）模型已成为通用机器人策略学习的主流方向。然而，当前的 VLA 研究生态存在以下问题：

碎片化与探索性：尽管许多团队提出了各自的 VLA 模型，但训练协议和评估设置的不一致，使得难以判断哪些设计选择真正有效。
缺乏系统性理解：早期的 VLA 探索如同“原始汤”（primordial soup），想法丰富但缺乏清晰的结构。
设计空间未明确：从基础组件、感知输入到动作建模，存在大量设计变量（如 VLM 与策略模块的连接方式、感知模态的融合、动作的表示形式等），但缺乏统一的基准来评估这些选择的影响。

核心目标：在统一的框架和评估设置下，重新审视 VLA 的设计空间，提炼出构建强性能 VLA 模型的“食谱”（Recipes），并由此构建一个名为 VLANeXt 的高效模型。

2. 方法论 (Methodology)

作者从一个类似于 RT-2 和 OpenVLA 的简单基线模型出发，系统地解构了 VLA 设计的三个维度，通过消融实验（Ablation Study）逐步优化模型。

2.1 基础组件 (Foundational Components)

策略模块设计 (Policy Module)：
- 发现将动作预测从语言 Token 空间中解耦，使用**独立的策略头（Separate Policy Head）**比直接复用文本 Token 效果更好。
- 引入MetaQuery 风格的设计，使用多个可学习的 Token（16 个）和更深的网络层（12 层）作为策略模块，显著提升了性能。
动作分块 (Action Chunking)：
- 采用动作分块（Chunking）策略，一次预测多个未来动作（Chunk Size=8），而非单步预测。这提供了更连贯的动作序列视角，提升了推理效率和生成质量。
动作学习目标 (Action Learning Objective)：
- 对比了分类（Binning）、回归、扩散模型（Diffusion）、流匹配（Flow Matching）和 VQ-VAE。
- 结论：回归（Regression）和流匹配（Flow Matching）表现最佳，因为它们更适合基准测试中近似高斯分布的动作空间。最终选择Flow Matching，因为它能更好地处理复杂或多模态分布。
VLM 骨干网络 (VLM Backbone)：
- 验证了更强的 VLM 骨干（如 Qwen3-VL-4B/2B）能带来更好的 VLA 性能。最终选用 Qwen3-VL-2B 作为平衡性能与效率的选择。
VLM 与策略模块的连接 (VLM-Policy Connection)：
- 对比了松散连接（Loose）、紧密连接（Tight）和软连接（Soft）。
- 软连接（在层与层之间插入可学习的查询 Token 作为潜在缓冲区）表现最佳，有助于更好地传递表征信息。

2.2 感知要素 (Perception Essentials)

时间观测历史 (Temporal History)：
- 实验发现，输入多帧历史图像并未提升性能，反而可能引入噪声。仅使用当前帧效果最好。
多视角输入 (Multi-view)：
- 结合第三人称视角和**手腕视角（In-hand/Wrist）**显著提升了性能，因为多视角提供了互补的几何线索，有助于解决空间歧义。
本体感知条件化 (Proprioception Conditioning)：
- 对比了将本体感知输入到 VLM、策略模块或两者。
- 结论：将本体感知作为输入条件化在 VLM 端效果最好。这允许本体感知与视觉和语言输入在更高层级进行融合，而不是直接注入策略模块。

2.3 动作建模视角 (Action Modeling Perspectives)

世界模型 (World Modelling)：
- 引入辅助的世界模型目标（预测未来图像帧）能提升性能，但训练时间增加了近 3 倍，性价比低，因此最终未采用。
时间序列预测 (Time Series Forecasting)：
- 引入频域辅助损失（Frequency-domain Loss）。利用离散余弦变换（DCT）将动作序列转换到频域，最小化预测与真实值在频域的 MSE。
- 这种方法以极小的计算开销显著提升了动作生成的结构化程度和准确性。

3. 核心贡献 (Key Contributions)

系统化的设计空间探索：在统一的框架下，对 VLA 的三大维度（基础组件、感知、动作建模）进行了全面的消融实验，消除了不同工作间评估标准不一致的干扰。
提炼出 12 条关键发现（Recipes）：
- 使用独立的、深层的策略模块（MetaQuery 风格）。
- 采用动作分块（Chunking）和流匹配（Flow Matching）目标。
- 使用更强的 VLM 骨干（Qwen3-VL）。
- 采用“软连接”策略模块与 VLM。
- 多视角输入（第三人称 + 手腕）和 VLM 端的本体感知条件化。
- 引入频域辅助损失。
提出 VLANeXt 模型：基于上述最佳实践构建的模型，参数量仅 2.5B（对比 OpenVLA-OFT 的 7B），但性能更优。
开源统一代码库：发布了一个轻量级、易于使用的代码库，旨在标准化 VLA 的训练和评估，促进社区复现和进一步探索。

4. 实验结果 (Results)

4.1 基准测试 (Benchmarks)

LIBERO 基准：VLANeXt 在空间（Spatial）、物体（Object）、目标（Goal）和长程（Long）四个套件上均取得了**最先进（SOTA）**的性能，平均成功率达到 97.4%，超越了 OpenVLA-OFT (97.1%) 和 UniVLA 等模型。
LIBERO-plus 基准（鲁棒性与泛化性测试）：
- 在引入视觉、物理和语义扰动（如光照变化、背景噪声、物体布局改变）的极端测试下，VLANeXt 展现了极强的泛化能力。
- 在 LIBERO-plus 上的平均成功率达到 80.1%，比之前的 SOTA 方法 OpenVLA-OFT (69.6%) 提升了 10.5%。

4.2 真实世界实验 (Real-World Evaluations)

任务设置：在 Franka Emika 单臂和 Aloha 双臂系统上测试了 4 个任务（清洁桌子、抽屉操作、提篮子、双臂清洁）。
结果：
- VLANeXt 在单臂任务（14/20 成功）和双臂任务（15/20 成功）上均优于 OpenVLA-OFT 和 $\pi_0$ 。
- 展示了出色的跨形态适应能力：仅在单臂数据上预训练，微调后也能在双臂机器人上取得良好表现。

5. 意义与影响 (Significance)

范式转变：该工作表明，构建强大的 VLA 模型不一定依赖于激进的模型缩放（Scaling）或特定的任务工程，而是源于统一框架下的原则性设计选择。
效率与性能平衡：VLANeXt 证明了通过优化架构设计（如软连接、频域损失）和感知融合策略，可以用较小的模型（2.5B）超越更大的模型（7B+），为资源受限的机器人部署提供了新路径。
社区标准化：通过发布统一的代码库和明确的“食谱”，该工作有助于结束 VLA 领域的碎片化状态，推动社区从“随意尝试”转向“受控的系统性探索”。
未来方向：强调了信息注入位置（如本体感知在 VLM 端）的重要性，以及将动作生成视为结构化序列建模（如频域建模）的有效性，为未来的机器人学习研究提供了新的视角。

总结：VLANeXt 不仅是一个性能卓越的 VLA 模型，更是一份关于“如何构建强 VLA 模型”的详尽指南，通过科学的方法论揭示了当前领域中被忽视的关键设计要素。