Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 VLA-JEPA 的新机器人学习方法。为了让你轻松理解，我们可以把机器人学习控制技能的过程，想象成教一个刚出生的婴儿如何抓玩具。

1. 以前的方法出了什么问题？（“看视频学动作”的陷阱）

以前的机器人（或者叫 VLA 模型）想学会抓东西，通常会看大量的互联网视频（比如人类做家务的视频）。它们试图通过观察“上一帧画面”和“下一帧画面”的区别来学习动作。

但这就像让婴儿学走路时，只盯着衣服花纹的变化或者背景里路人经过的影子，而不是盯着脚是怎么迈出去的。这导致了三个大问题：

被“皮相”迷惑：如果视频里光线变了，或者背景里有人走过，机器人会误以为这是“动作”，其实那只是无关的干扰（比如背景里的猫在动，机器人以为那是它要抓的东西）。
作弊（信息泄露）：有些方法在训练时，偷偷把“未来的画面”也塞给了机器人看。这就像让婴儿做数学题时，直接把答案写在题目旁边。机器人学会了“猜答案”，而不是真正理解“怎么做”。一旦到了新环境，没有答案可猜，它就彻底不会了。
过程太复杂：以前的方法需要分好几步走：先学看图，再学猜动作，最后学控制。这就像教人开车，先考理论，再考模拟，最后上路，中间还要换教练，效率低且容易出错。

2. VLA-JEPA 是怎么做的？（“只看不猜”的聪明老师）

VLA-JEPA 提出了一种全新的思路，核心思想叫 “无泄露的状态预测”。我们可以用两个生动的比喻来理解：

比喻一：蒙眼猜谜 vs. 看着答案猜

旧方法：就像让机器人看着“现在的画面”和“未来的画面”一起猜动作。它很容易偷懒，直接背下未来的画面，而不是理解动作。
VLA-JEPA：
- 老师（目标编码器）：看着“未来的画面”，在心里默默记下“接下来世界变成了什么样”（提取出核心状态，忽略光线、背景等杂音）。
- 学生（机器人）：只看着“现在的画面”，完全看不到未来。
- 考试：老师问学生：“根据现在的画面，你觉得接下来世界会变成什么样？”学生必须自己推理出答案。
- 关键点：因为学生看不到未来的画面，它无法作弊。它必须真正理解物体是怎么移动的、手是怎么动的，才能答对。

比喻二：学游泳不看水花，看水流

以前的机器人学游泳，盯着水花溅起的样子（像素变化），结果发现水花大不代表游得快。
VLA-JEPA 让机器人直接学习水流的规律（潜在状态）。它不管水花多乱、背景多吵，只关心“身体位置怎么变”、“手怎么划水”。这样，哪怕换了一个游泳池（新环境），只要水流规律一样，它就能游得很好。

3. 它的两大绝招

只学“本质”，不学“皮相”：
它不直接预测下一帧图片长什么样（那是像素级的，太琐碎），而是预测抽象的“状态”。就像你学开车，记住的是“方向盘打多少度，车会转多少”，而不是记住“路边的树长什么样”。这让机器人对光线变化、背景杂乱变得非常抗造（鲁棒）。
两步走，简单高效：
- 第一步（预训练）：在海量的人类视频里，用上面的“蒙眼猜谜”法，让机器人学会理解世界是怎么运动的（建立“世界模型”）。
- 第二步（微调）：给机器人装上“手”，教它把刚才学到的运动规律，转化成具体的机械臂动作。
  不需要像以前那样搞复杂的“三步走”或“多阶段”训练，简单直接。

4. 效果怎么样？（实战表现）

作者在电脑模拟环境和真实的机械臂上做了测试：

更聪明：在复杂的任务（比如把东西从 A 放到 B）中，成功率比以前的顶尖方法更高。
更抗揍：当把灯光变暗、背景换掉、或者把物体摆得乱七八糟时，旧方法经常“傻眼”失败，而 VLA-JEPA 依然能稳稳完成任务。
会“重试”：这是一个很有趣的发现。因为看了大量人类视频，机器人学会了“抓不住就再抓一次”的重试策略。以前的机器人如果第一次抓空了，就不知道该怎么办了；而 VLA-JEPA 会像人一样，松开手，调整位置，再试一次。

总结

VLA-JEPA 就像是一个聪明的导师，它教机器人学习时：

不让你看答案（防止作弊/信息泄露）；
让你关注核心规律（忽略光线背景等干扰）；
让你举一反三（从人类视频中学到的通用技能，能直接用到机器人身上）。

这让机器人不再是一个只会死记硬背画面的“复读机”，而是一个真正理解物理世界、能灵活应对各种突发状况的“实干家”。

Each language version is independently generated for its own context, not a direct translation.

VLA-JEPA 技术总结

1. 研究背景与核心问题

随着机器人学习从互联网规模视频中提取策略的兴起，视觉 - 语言 - 动作（VLA）模型备受关注。然而，现有的基于“潜在动作（Latent Action）”的预训练方法存在四个主要缺陷，导致模型难以学习到真正对控制有用的状态转移语义：

像素级目标的偏差：现有方法常通过预测未来像素或压缩帧间差异来定义“动作”。这导致模型过度关注纹理、光照、背景杂乱等外观变化，而非可控制的状态转移。
现实视频中的噪声运动：在人类视频或野外视频中，相机运动和背景变化往往比交互引起的状态变化更显著。基于帧差的方法容易将这些**无关运动（Nuisance Motion）**编码为潜在动作。
信息泄露（Information Leakage）：许多方法在训练时将“当前观测”和“未来观测”同时输入模型，导致潜在动作直接编码了未来帧的信息（捷径），而非学习状态如何随动作演变的动力学。这使得学到的“动作”在语义上是空洞的。
多阶段训练的复杂性：为了解决上述问题，现有方案通常采用复杂的多阶段流程（表示预训练 -> 潜在动作对齐 -> 策略学习），增加了工程难度和不稳定性。

核心痛点：现有的潜在动作目标往往被像素变化“锚定”，学习到的动力学虽然具有预测性，但缺乏以动作（Action-centric）为核心的控制语义。

2. 方法论：VLA-JEPA

为了解决上述问题，作者提出了 VLA-JEPA，一种基于 JEPA（联合嵌入预测架构） 风格的预训练框架。其核心设计理念是无泄露的状态预测（Leakage-free State Prediction）。

2.1 模型架构

骨干网络：采用 Qwen3-VL 作为核心视觉 - 语言模型（VLM），使用 SigLIP-2 作为视觉编码器。
潜在世界模型（Latent World Model）：
- 目标编码器（Target Encoder）：使用冻结的 V-JEPA2 编码器，从未来帧（Future Context）中提取潜在状态目标（Latent Targets）。
- 学生路径（Student Pathway）：VLM 仅接收当前观测（Current Observation）和语言指令，绝不接收未来帧作为输入。
- 预测机制：VLM 生成可学习的潜在动作 Token（ $\langle latent_i \rangle$ ），结合当前状态，通过一个自回归的 Transformer 预测未来的潜在状态。
- 对齐损失：通过最小化预测的潜在状态与目标编码器生成的未来潜在状态之间的差异（JEPA 对齐损失）来训练。

2.2 关键设计创新

杜绝信息泄露：未来帧仅作为监督目标（由冻结的编码器生成），绝不作为 VLM 的输入。这迫使模型必须学习“当前状态 + 动作 $\rightarrow$ 未来状态”的因果动力学，而不是简单地记忆未来帧。
潜在空间预测：直接在潜在空间（Latent Space）进行预测，而非像素空间。这使得模型对相机运动、背景变化等低层噪声具有天然的鲁棒性，专注于语义抽象。
两阶段简化流程：
- 阶段一（预训练）：在人类视频（无标签）和机器人数据（有标签）上进行联合预训练。人类视频用于学习通用的状态转移动力学，机器人数据用于对齐动作空间。
- 阶段二（微调）：直接微调动作头（Action Head），无需复杂的多阶段对齐。
条件流匹配（Conditional Flow Matching）：在微调阶段，利用学习到的潜在动作表示作为条件，通过流匹配生成连续的机器人末端执行器轨迹。

3. 主要贡献

理论分析：深入剖析了现有潜在动作预训练方法为何会偏离动作语义（像素锚定、噪声敏感、信息泄露），并指出了多阶段训练的弊端。
VLA-JEPA 框架：提出了一种无泄露、基于状态层面的 JEPA 预训练方案。它通过预测和对齐未来潜在状态来学习动作相关的转移语义，无需像素重建，且仅需单阶段预训练。
性能与鲁棒性提升：在多个基准测试和真实世界实验中，证明了该方法在泛化性和鲁棒性上优于现有方法，同时简化了训练流程。

4. 实验结果

作者在 LIBERO、LIBERO-Plus、SimplerEnv 以及 真实世界 Franka 机器人 上进行了广泛评估。

LIBERO 基准：VLA-JEPA 在 4 个任务套件中的 2 个取得了 SOTA 性能，平均成功率最高（97.2%）。相比 UniVLA、LAPA 等依赖人类视频的方法，VLA-JEPA 表现更优，证明了其学到的动力学更纯粹。
SimplerEnv 基准：在 Google Robot 和 WidowX Robot 上均取得了最佳或次佳性能。值得注意的是，VLA-JEPA 使用的训练数据量远少于 Villa-X 等竞品，但效果更优，体现了预训练方法的高效性。
LIBERO-Plus 鲁棒性测试：在 7 种扰动（相机、机器人、语言、光照、背景、噪声、布局）中，VLA-JEPA 在 5 种扰动下表现最佳。特别是在语言、光照、背景和布局扰动下优势明显，证明其潜在动作能有效处理任务无关的干扰。
真实世界实验：
- 在桌面对象操作任务中，VLA-JEPA 在分布内（ID）和对象布局分布外（OOD）设置下均表现优异。
- 安全性与稳定性：相比 $\pi0.5$ ，VLA-JEPA 虽然对文本指令的细粒度推理稍弱，但其执行轨迹更稳定，极少违反机器人安全边界。
- 重复抓取能力：VLA-JEPA 展现了“重复抓取”（失败后重新张开夹爪再尝试）的能力，这是从人类视频中习得的技能，而纯机器人数据训练的模型（如 $\pi0$ ）缺乏此能力。

消融实验发现

人类视频的作用：人类视频主要增强了模型的鲁棒性和稳定性（如重复抓取），而非直接提供新的物理动力学知识。高质量机器人数据对于基础性能更为关键。
统一预训练：相比传统的两阶段预训练，统一预训练简化了流程并提升了效果。
未来视界（Horizon）：视频预测视界 $T$ 的选择对性能有影响，接近预定义动作视界时效果最佳。

5. 意义与展望

范式转变：VLA-JEPA 证明了通过无泄露的潜在状态预测，可以直接从互联网规模视频中学习到高质量的机器人控制动力学，无需复杂的像素重建或多阶段对齐。
可扩展性：该框架具有高度的可扩展性，能够自然地融合机器人数据、人类视频以及文本推理数据，为构建通用、鲁棒的具身智能体提供了新的路径。
工程价值：将复杂的潜在动作学习简化为“JEPA 预训练 + 动作头微调”的两步流程，降低了 VLA 模型的开发门槛和训练成本。

总结：VLA-JEPA 通过引入 JEPA 架构解决信息泄露和外观偏差问题，成功从互联网视频中提取出以动作为核心的状态转移语义，显著提升了机器人策略的泛化能力和鲁棒性，是机器人学习领域的一项重要进展。

VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model