DyQ-VLA: Temporal-Dynamic-Aware Quantization for Embodied Vision-Language-Action Models

本文提出了 DyQ-VLA 框架,通过利用实时运动学代理进行感知敏感的位宽切换与动态分配,解决了具身视觉 - 语言 - 动作模型在静态量化中面临的时序动态敏感性与实时分配难题,在显著降低内存占用的同时保持了高性能并提升了推理速度。

Zihao Zheng, Hangyu Cao, Sicheng Tian, Jiayu Chen, Maoliang Li, Xinhao Sun, Hailong Zou, Zhaobo Zhang, Xuanzhe Liu, Donggang Cao, Hong Mei, Xiang Chen

发布于 Tue, 10 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 DyQ-VLA 的新技术,旨在让机器人变得更聪明、更快速,同时还能在普通的硬件上运行。

为了让你轻松理解,我们可以把 VLA 模型(视觉 - 语言 - 动作模型)想象成一个正在学习做菜的“机器人主厨”

1. 现在的困境:主厨太“较真”了

目前的机器人主厨(VLA 模型)非常强大,它能看懂图片、听懂指令,然后指挥机械臂去抓东西。但是,它有个大毛病:太“较真”了,而且太“费脑子”

  • 问题一:全程高精度,浪费资源。
    想象一下,这个主厨在切菜时,无论是把土豆从案板这头搬到那头(粗动作),还是把土豆切成极薄的丝(精细动作),他都坚持用显微镜级别的精度去控制每一毫米。

    • 后果:在搬土豆这种简单动作时,用显微镜是杀鸡用牛刀,浪费了大量电力和内存;但在切丝时,他又必须保持这种高精度,否则菜就废了。
    • 现状:为了安全起见,现有的技术让机器人全程都保持这种“显微镜模式”,导致它反应慢、占用的内存巨大,普通的小电脑根本带不动。
  • 问题二:不知道什么时候该“放松”。
    现有的技术不知道什么时候该用“显微镜”,什么时候该用“肉眼”。它们要么全程用显微镜(太慢),要么全程用肉眼(容易切到手或切坏菜)。

2. DyQ-VLA 的解决方案:聪明的“动态切换”

DyQ-VLA 就像给这位主厨配了一位聪明的“副手”,这位副手能实时观察主厨的动作,并告诉主厨:“现在该用显微镜,现在可以放松用肉眼了。”

这个副手主要做了两件事:

第一招:看“动作幅度”来判断(运动学指标)

副手不看复杂的数学公式,而是看机器人手臂的动作特征

  • 当手臂在快速、大幅度地移动时(比如把盘子从桌子这头端到那头): 副手发现动作很“粗犷”,误差一点点没关系。于是它大喊:"放松!用 2 位或 4 位精度(肉眼模式)!"这样计算速度飞快,非常省电。
  • 当手臂在精细操作时(比如把筷子插进瓶口,或者抓取易碎的鸡蛋): 副手发现动作变得非常微小、剧烈抖动(就像手在发抖),这时候误差一点点就是灾难。于是它立刻大喊:"警惕!切换回 16 位全精度(显微镜模式)!"确保万无一失。

比喻:就像你开车。在高速公路上直线行驶(粗动作),你可以稍微放松一点,不用死死盯着方向盘;但当你需要把车倒进一个极窄的车位(精细动作)时,你必须全神贯注,动作要极其精准。DyQ-VLA 就是那个知道什么时候该放松、什么时候该紧张的“老司机”。

第二招:防抖动机制(滞后切换)

如果副手太敏感,主厨的动作稍微抖一下,它就频繁地在“显微镜”和“肉眼”之间切换,反而会让系统卡顿。

  • 解决方案:DyQ-VLA 加了一个“缓冲期”。只有当动作真的稳定下来,确认不需要高精度了,才切换到低精度;反之,一旦检测到危险信号,立刻切换回高精度,绝不犹豫。这就像家里的空调,不会因为你稍微动了一下就立刻开关,而是有一个合理的判断过程。

3. 成果:又快又省,还不掉链子

通过这种“该快则快,该准则准”的策略,DyQ-VLA 取得了惊人的效果:

  • 省内存:它只需要原来 30.9% 的内存空间。就像把原本需要大仓库才能装下的货物,压缩到了一个小行李箱里,普通电脑也能跑。
  • 速度快:在模拟环境中快了 1.49 倍,在真实世界里也快了 1.43 倍。机器人反应更灵敏了。
  • 不牺牲质量:虽然大部分时间用了“肉眼模式”,但因为关键时刻用了“显微镜”,它的任务成功率依然保持了 99.5%。也就是说,它既快又准,几乎没有犯错。

总结

DyQ-VLA 的核心思想就是:不要“一刀切”

以前的机器人是“全程紧绷”,既累又慢。DyQ-VLA 教会了机器人**“张弛有度”**:在简单任务时“摸鱼”(降低精度以换取速度),在关键时刻“全力以赴”(提高精度以保证安全)。这让机器人能够真正走出实验室,在普通的边缘设备上实时运行,去帮我们做更多实际的家务和搬运工作。