OxyGen: Unified KV Cache Management for Vision-Language-Action Models under Multi-Task Parallelism

本文提出了名为 OxyGen 的统一 KV 缓存管理范式,通过将 KV 缓存作为跨任务共享资源,消除了冗余计算并实现了跨任务与跨帧的连续批处理,从而在保持动作质量的同时显著提升了多任务并行下的具身智能推理效率。

Xiangyu Li, Huaizhi Tang, Xin Ding, Weijun Wang, Ting Cao, Yunxin Liu

发布于 2026-03-17
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 OxyGen 的新系统,它的目标是让机器人变得更聪明、更灵活,同时运行得更快。

为了让你轻松理解,我们可以把这篇论文的核心内容想象成**“如何优化一个超级忙碌的机器人管家的工作流程”**。

1. 背景:机器人管家面临的“手忙脚乱”

想象一下,你家里有一个超级智能的机器人管家(这就是论文里的 MoT VLA 模型)。它不仅能干活(比如把杯子从桌上拿起来),还能聊天(告诉你“我把杯子放好了”),甚至能记日记(记住今天家里发生了什么)。

在以前,这个机器人管家虽然脑子里有这些能力,但干活时却很笨拙:

  • 重复劳动:每当它要干活和聊天时,它都要先把眼前的场景(比如看到桌子)重新“看”一遍,重新在大脑里处理一遍。这就像你一边做饭一边写日记,每写一句话都要重新把菜洗一遍,非常浪费时间。
  • 资源打架:它只有一个大脑(GPU),当它忙着干活时,聊天就卡住了;忙着聊天时,干活就慢了。就像一个人同时做两件事,如果两件事互不干扰,他应该能同时做,但以前的系统让他“先做完 A 再做 B",或者让 A 和 B 互相抢着用大脑,导致效率极低。

2. 核心问题:大脑里的“临时笔记”没共享

在 AI 的世界里,处理信息时会生成一种叫 KV Cache(键值缓存)的东西。你可以把它想象成机器人大脑里的“临时笔记”

  • 当机器人“看”到一张桌子时,它会在笔记里写下关于桌子的所有细节。
  • 旧系统的问题:当机器人要“干活”时,它抄写一遍笔记;当它要“聊天”时,它又重新抄写一遍完全一样的笔记。而且,干活和聊天这两个任务在抢着用这支“笔”(计算资源),导致谁都快不起来。

3. OxyGen 的解决方案:统一笔记管理

OxyGen 就像给机器人管家请了一位超级高效的“行政主管”,它做了一件关键的事:把“临时笔记”变成了全公司共享的资源

它通过两个绝招来提速:

绝招一:跨任务共享笔记(Cross-task KV Sharing)

  • 比喻:以前,机器人看一次桌子,就要记两遍笔记(一份给干活用,一份给聊天用)。现在,行政主管说:“不用了!大家共用这一份笔记!”
  • 效果:机器人只需要“看”一次桌子,生成一份笔记,然后干活和聊天两个任务直接共用这份笔记。这就省去了大量重复的“抄写”时间。

绝招二:跨帧连续批处理(Cross-frame Continuous Batching)

  • 比喻
    • 干活(动作):就像炒菜,必须在规定时间内(比如 1 秒内)把菜炒好端上桌,不能等。
    • 聊天(语言):就像写长篇小说,可以慢慢写,写一段存一段,不需要一次性写完。
  • 旧系统:每过 1 秒,机器人就停下来,先拼命把菜炒好,然后再开始写小说。如果小说写不完,下一轮炒菜就得等。
  • OxyGen 的做法:行政主管把“写小说”的任务打散。
    • 第 1 秒:机器人炒好今天的菜,同时写小说的第 1 句
    • 第 2 秒:机器人炒好明天的菜,同时把第 1 句和第 2 句一起写出来(批量处理)。
    • 它把不同时间点的“写小说”任务打包在一起,利用大脑的空闲时间并行处理。
  • 效果:机器人既能保证炒菜(动作)的速度极快(达到 70 次/秒),又能让写小说(语言)的速度飞快(每秒 200 多个字),互不耽误。

4. 成果:快得惊人

通过这套“共享笔记”和“批量处理”的方法,OxyGen 在测试中取得了惊人的成绩:

  • 速度提升:比以前的方法快了 3.7 倍
  • 双管齐下:机器人既能以 70 Hz 的高频控制动作(像专业运动员一样灵活),又能以 200+ 词/秒 的速度流畅聊天。
  • 省电省内存:因为减少了重复计算,它甚至更省电了。

总结

简单来说,OxyGen 就是给机器人装了一个智能调度系统。它不再让机器人“重复劳动”或“互相抢资源”,而是让机器人学会**“一次观察,多方共享”以及“化整为零,批量处理”**。

这让未来的机器人不仅能像人一样灵活地干活,还能像人一样边干活边聊天、边思考,真正实现了**“一心多用”,而且是用得又快又省**。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →