BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 BitVLA 的机器人“大脑”。为了让你更容易理解，我们可以把机器人控制模型想象成一个正在学习如何做饭的超级大厨。

1. 核心问题：大厨太“重”了，带不动

现在的机器人（比如机械臂）想要学会像人一样灵活地抓取物体、倒水、叠衣服，需要非常聪明的“大脑”（也就是 AI 模型）。

现状：目前最聪明的大厨（比如 OpenVLA 模型），脑子里装的知识太多、太复杂了。这就好比一个背着 15 公斤重的百科全书在厨房干活。
后果：
- 太慢：每做一个动作，大脑都要花很长时间去翻书（高延迟）。
- 太贵：需要非常昂贵的超级电脑才能跑动（高内存占用）。
- 难落地：普通的家用机器人或小型设备根本背不动这么重的“包袱”，没法在真实世界里用。

2. BitVLA 的解决方案：给大脑“瘦身”

BitVLA 的作者想出了一个绝妙的办法：不是等大厨学会了再让他减肥，而是直接教他一套“极简烹饪法”。

核心创新一：1-bit 的“极简思维” (1-bit Vision-Language-Action)

传统做法：传统模型里的每一个参数（知识单元）都像是一个高精度的浮点数，比如 3.1415926...，非常精细，但也占地方。
BitVLA 的做法：它把大脑里的所有知识都强制简化为只有三种状态：{-1, 0, 1}。
- 比喻：想象一下，以前大厨做菜要精确到“加 3.14 克盐”，现在 BitVLA 的大厨只记三种指令：“多放点”（1）、“少放点”（-1）或者“不放”（0）。
- 效果：虽然听起来很粗糙，但作者发现，只要训练得当，这种“极简思维”不仅能记住怎么做菜，而且体积只有原来的 1/11，速度提升了 4.4 倍！

核心创新二：先“压缩”再“蒸馏” (Quantize-then-Distill)

这是最精彩的部分。通常我们压缩模型，就像把大象塞进冰箱，容易把大象挤坏（性能下降）。BitVLA 换了一种聪明的训练方式：

第一步：先学全，再压缩
先让一个“全精度”的超级大厨（老师）和一个"1-bit 的学徒”（学生）一起看视频、学做菜。
第二步：老师手把手教（蒸馏）
在训练过程中，老师（全精度模型）会时刻盯着学生（1-bit 模型），告诉它：“虽然你只能用 -1, 0, 1 来思考，但你的思考逻辑要尽量和老师一样。”
- 比喻：就像老师教学生做数学题。老师用复杂的公式解题，学生只能用简单的加减法。老师会引导学生：“虽然你不用微积分，但你算出来的结果要和我一样准。”
结果：学生不仅学会了简化版思维，还保留了老师的“直觉”和“经验”，没有因为变瘦而变笨。

3. 实际效果：小身材，大能量

论文通过实验证明了 BitVLA 有多厉害：

内存占用：以前的大厨需要 15GB 的内存（像背着一台笔记本电脑），BitVLA 只需要 1.4GB（就像背了一本小册子）。这意味着它可以直接运行在普通的笔记本电脑甚至更小的设备上。
速度：它的反应速度是传统模型的 4.4 倍。以前机器人抓东西可能需要反应半秒，现在只要 0.1 秒，动作流畅多了。
能力：在模拟环境和真实的机器人实验中，BitVLA 的表现和那些“巨无霸”模型几乎一样好。它能成功地把面包放进篮子、把铃铛翻正，甚至能处理没见过的物体（泛化能力）。

总结

BitVLA 就像是给机器人装了一个“轻量级但超级聪明”的芯片。

它告诉我们：未来的机器人不需要背着沉重的“超级电脑”才能干活。通过从一开始就设计好精简的架构，并配合聪明的教学策略，我们可以让机器人变得更轻、更快、更便宜，从而真正走进千家万户，帮我们要做家务、整理房间。

一句话概括：BitVLA 把原本笨重迟缓的机器人“大脑”，通过“极简思维”和“名师指导”，变成了一个身轻如燕、反应神速的功夫大师。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文 《BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation》 的详细技术总结。

1. 研究背景与问题 (Problem)

随着视觉 - 语言 - 动作（VLA）模型在机器人操作任务中的快速发展，其巨大的模型体积和计算需求成为了在边缘设备（如嵌入式机器人、移动端硬件）上部署的主要瓶颈。现有的 VLA 模型通常依赖全精度参数，导致：

内存占用高：难以在资源受限的硬件上运行。
推理延迟大：无法满足实时控制的需求。
能效低：浮点运算消耗大量能量。

虽然现有的后训练量化（Post-training Quantization）技术可以压缩模型，但往往会导致显著的性能下降，且未与训练过程协同优化。此外，极低位宽（如 1-bit）模型在纯语言领域（LLM）已取得成功，但在多模态感知和机器人控制领域的扩展仍属空白。

核心问题：如何设计一种既具备强大任务能力，又能在严格资源约束下高效部署的 VLA 模型？

2. 方法论 (Methodology)

作者提出了 BitVLA，这是首个完全原生的 1-bit 视觉 - 语言 - 动作模型。其核心设计理念是“训练时效率 - 精度协同设计”，而非单纯的后处理压缩。

2.1 模型架构

基础骨干：基于开源的 1-bit LLM BitNet b1.58 2B4T。
参数定义：模型中所有参数均为三值（Ternary），即 $\{-1, 0, 1\}$ 。
视觉编码器：使用 SigLIP-L 作为视觉编码器。为了进一步降低显存，提出了 Quantize-then-Distill 策略，将全精度视觉编码器压缩为 1.58-bit 权重 和 INT8 激活值。
连接器与动作头：保持全精度（BF16），因为参数量占比极小，对整体内存影响可忽略。

2.2 训练范式 (三阶段流程)

BitVLA 的训练分为三个关键阶段（如图 2 所示）：

多模态预训练 (Multimodal Training)：
- 将 1-bit LLM 骨干与全精度视觉编码器配对。
- 遵循 LLaVA 范式：先训练连接器对齐视觉与语言空间，再冻结视觉编码器训练 LLM 以增强指令遵循能力。
量化 - 蒸馏 (Quantize-then-Distill)：
- 目标：将全精度视觉编码器压缩为 1.58-bit 权重。
- 方法：采用知识蒸馏。全精度编码器作为“教师”模型（冻结），1.58-bit 编码器作为“学生”模型（可训练）。
- 损失函数：结合语言建模损失（指令遵循）和辅助的表示对齐损失（Representation Alignment Loss），强制学生模型的中间层特征与教师模型对齐，防止量化导致的表征漂移。
- 优势：此阶段仅需少量数据（数十亿 token）即可保持全精度性能，极大降低了视觉骨干的内存占用。
机器人训练 (Robotics Training)：
- 在大规模机器人轨迹数据（Open X-Embodiment，约 100 万样本）上进行预训练。
- 采用自回归动作预测目标，将动作离散化为 256 个桶。
- 使用动作分块（Action Chunking）策略（一次输出多个时间步的动作），提高推理吞吐量。

2.3 量化细节

权重量化：使用 absmean 量化器将权重量化为 $\{-1, 0, 1\}$ 。
激活量化：使用 per-token absmax 量化器将激活值量化为对称 INT8 $[-128, 127]$ 。
推理优化：利用自定义内核（BitBLAS）执行三值权重与 INT8 激活的矩阵乘法，将核心计算从浮点乘加（MAC）转换为整数累加，显著降低能耗。

3. 关键贡献 (Key Contributions)

首个原生 1-bit VLA 模型：提出了 BitVLA，所有参数均为三值，为具身智能策略建立了新的极低比特基线。
Quantize-then-Distill 策略：提出了一种轻量级的量化感知训练策略，成功将视觉骨干压缩至 1.58-bit 权重，同时通过蒸馏保持了多模态对齐和下游任务性能。
性能与效率的突破：证明了在大幅减少内存和延迟的同时，模型仍能保持与全精度大模型相当的机器人操作能力。

4. 实验结果 (Results)

4.1 仿真环境 (LIBERO Benchmark)

性能对比：BitVLA（30 亿参数）在 LIBERO 基准测试中的平均成功率达到 96.0%。
- 与 OpenVLA-OFT（77 亿参数，全精度）相比，性能仅下降 1.1%，但内存占用减少了 11 倍。
- 显著优于同量级的 $\pi_0$ （35 亿参数）和 SmolVLA，特别是在长视野任务（LIBERO-Long）上，BitVLA 比 $\pi_0$ 高出 7.6%。
后训练量化对比：BitVLA 的性能优于对 OpenVLA-OFT 进行 INT4 量化后的版本，且内存占用仅为后者的 1/3 左右。

4.2 真实世界任务 (Real-World Tasks)

任务表现：在“抓取西瓜”、“放入面包”、“翻转铃铛”等真实机器人任务中，BitVLA 的表现优于 $\pi_0$ ，并与更大的 OpenVLA-OFT 相当。
泛化能力 (OOD)：在未见过的物体（如抓取海绵）和视觉干扰（如桌布遮挡）场景下，BitVLA 展现了与强基线相当的鲁棒性。
预训练的重要性：消融实验表明，如果没有大规模机器人预训练，仅靠微调的 1-bit 模型成功率接近于零，证明了预训练对具身策略的关键作用。

4.3 推理效率

延迟：BitVLA 在 NVIDIA A100 上的端到端延迟为 73 ms。
吞吐量：达到 341.1 Hz。
加速比：相比 OpenVLA-OFT+，延迟降低了 4.4 倍，吞吐量提高了 4.4 倍。
显存占用：仅需 1.4 GB 内存，可在消费级显卡（如 RTX 3050 Ti Laptop, 4GB）上运行。

5. 意义与展望 (Significance)

边缘部署的可行性：BitVLA 证明了高性能 VLA 模型可以部署在内存受限的边缘机器人平台上，无需依赖昂贵的服务器集群。
能效优化：通过将计算从浮点运算转变为整数运算，BitVLA 显著降低了算术能耗，为未来设计专用的 1-bit VLA 硬件加速器奠定了基础。
训练范式转变：该工作表明，对于具身智能，不应仅依赖后处理压缩，而应在训练阶段就引入量化约束（Training-time Co-design），以实现效率与精度的最佳平衡。

总结：BitVLA 通过创新的架构设计和训练策略，成功打破了 VLA 模型在资源受限设备上的部署壁垒，为未来低成本、高效率的通用机器人控制提供了极具潜力的解决方案。代码和模型权重已开源。