QuantVLA: Scale-Calibrated Post-Training Quantization for Vision-Language-Action Models

本文提出了 QuantVLA,这是首个针对视觉 - 语言 - 动作(VLA)模型的免训练后量化框架,它通过引入选择性量化布局、注意力温度匹配和输出头平衡等尺度校准组件,成功实现了对扩散 Transformer 动作头的量化,在无需额外训练的情况下显著降低了内存占用并提升了任务成功率。

Jingxuan Zhang, Yunta Hsieh, Zhongwei Wan, Haokun Lin, Xin Wang, Ziqi Wang, Yingtie Lei, Mi Zhang

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 QuantVLA 的新方法,它的目标是让机器人变得更“聪明”且更“省钱”。

为了让你轻松理解,我们可以把现在的机器人模型想象成一位超级天才大厨(这就是 VLA 模型,即视觉 - 语言 - 动作模型)。

1. 现在的困境:天才大厨的“豪华厨房”

这位大厨非常厉害,他能看懂图片(视觉),听懂你的指令(语言),还能做出复杂的动作(比如“把瓶子放进抽屉”)。但是,这位大厨有个大问题:

  • 太占地儿了:他的菜谱和工具(模型参数)巨大无比,需要超级大的冰箱(内存)和超级快的灶台(算力)才能运转。
  • 太娇气了:如果你试图把菜谱简化一下(比如把精确到小数点后 10 位的数字简化成整数),大厨就会晕头转向,做出来的菜(动作)要么太生硬,要么完全失败。特别是他最后切菜下锅的那个环节(扩散 Transformer 动作头),稍微有点误差,整个动作就变形了。

这就导致很多机器人只能在昂贵的实验室里跑,没法装进家里的小机器人或者手机里。

2. 解决方案:QuantVLA —— 给大厨做“瘦身手术”

QuantVLA 就像一位精明的营养师,它不需要重新训练这位大厨(不需要大厨重新学做菜),而是直接对他的“厨房装备”进行量化压缩(Quantization)。

简单来说,就是把原本用“高精度浮点数”(像用精密天平称重)记录的数据,变成“低精度整数”(像用普通勺子量杯)。这样能节省 70% 的内存空间,让大厨能在小厨房里干活。

但是,直接简化会出问题
就像你如果把菜谱里的“盐 3.14159 克”改成"3 克”,大厨可能会觉得味道不对,甚至把菜炒糊了。特别是那个负责最后切菜的环节(动作头),对数字的微小变化极其敏感。

3. QuantVLA 的三大“独门秘籍”

为了解决这个问题,QuantVLA 用了三个巧妙的办法,就像给大厨配了三个“校准器”:

秘籍一:选择性瘦身(Selective Quantization)

  • 比喻:大厨的脑子里有很多部分。QuantVLA 发现,语言理解部分(比如听懂“把瓶子放好”)和中间思考部分(比如规划动作)可以大胆地简化(变成整数),因为它们很结实。
  • 但是注意力机制(比如大厨盯着瓶子看的那一瞬间)和最后的切菜动作(输出动作)必须保持高精度(浮点数)。
  • 效果:就像给大厨的“思考大脑”换成了轻便的笔记本,但保留了“眼睛”和“双手”的精密仪器。这样既省了空间,又没弄坏最关键的环节。

秘籍二:温度匹配(Attention Temperature Matching)

  • 比喻:想象大厨在做菜时,对“火候”(注意力)非常敏感。简化数据后,原本温和的火候可能突然变得太猛(太尖锐)或者太弱(太平淡)。
  • 做法:QuantVLA 加了一个小小的“温控旋钮”(标量 α\alpha)。在推理时,它会自动调整这个旋钮,让简化后的“火候”和原来大厨心里的“火候”保持一致。
  • 效果:不管数据怎么简化,大厨盯着目标时的专注度(注意力分布)始终和原来一样精准。

秘籍三:输出平衡(Output Head Balancing)

  • 比喻:大厨做完菜端出来时,盘子里的分量(能量)可能会因为简化而变多或变少,导致动作幅度不对(比如手伸得太远或太近)。
  • 做法:QuantVLA 在输出端加了一个“量杯”(标量 β\beta)。它会自动测量分量,如果变少了就加一点,变多了就减一点,确保端出来的菜分量正好。
  • 效果:无论中间怎么简化,最后做出来的动作(比如抓取瓶子)力度和位置都刚刚好,不会手抖。

4. 最终成果:更聪明、更轻便

经过这套“瘦身 + 校准”组合拳:

  • 省空间:内存占用减少了约 70%
  • 不降反升:在著名的机器人测试(LIBERO)中,简化后的大厨不仅没变笨,完成任务的成功率甚至比原来的“全精度”大厨还要高
  • 无需重练:不需要让大厨重新学习几个月,直接就能用。

总结

QuantVLA 就像是给机器人模型穿上了一件高科技的“压缩衣”。它聪明地知道哪里可以压缩,哪里必须保留,并且通过两个小小的“调节旋钮”(温度和分量校准),确保机器人穿上这件衣服后,动作依然灵活、精准,甚至比以前更好。

这意味着,未来我们可以在更便宜、更小的机器人,甚至手机和平板上,运行非常强大的 AI 机器人,让它们真正走进我们的日常生活。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →