OxyGen: Unified KV Cache Management for Vision-Language-Action Models under Multi-Task Parallelism

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 OxyGen 的新系统，它的目标是让机器人变得更聪明、更灵活，同时运行得更快。

为了让你轻松理解，我们可以把这篇论文的核心内容想象成**“如何优化一个超级忙碌的机器人管家的工作流程”**。

1. 背景：机器人管家面临的“手忙脚乱”

想象一下，你家里有一个超级智能的机器人管家（这就是论文里的 MoT VLA 模型）。它不仅能干活（比如把杯子从桌上拿起来），还能聊天（告诉你“我把杯子放好了”），甚至能记日记（记住今天家里发生了什么）。

在以前，这个机器人管家虽然脑子里有这些能力，但干活时却很笨拙：

重复劳动：每当它要干活和聊天时，它都要先把眼前的场景（比如看到桌子）重新“看”一遍，重新在大脑里处理一遍。这就像你一边做饭一边写日记，每写一句话都要重新把菜洗一遍，非常浪费时间。
资源打架：它只有一个大脑（GPU），当它忙着干活时，聊天就卡住了；忙着聊天时，干活就慢了。就像一个人同时做两件事，如果两件事互不干扰，他应该能同时做，但以前的系统让他“先做完 A 再做 B"，或者让 A 和 B 互相抢着用大脑，导致效率极低。

2. 核心问题：大脑里的“临时笔记”没共享

在 AI 的世界里，处理信息时会生成一种叫 KV Cache（键值缓存）的东西。你可以把它想象成机器人大脑里的“临时笔记”。

当机器人“看”到一张桌子时，它会在笔记里写下关于桌子的所有细节。
旧系统的问题：当机器人要“干活”时，它抄写一遍笔记；当它要“聊天”时，它又重新抄写一遍完全一样的笔记。而且，干活和聊天这两个任务在抢着用这支“笔”（计算资源），导致谁都快不起来。

3. OxyGen 的解决方案：统一笔记管理

OxyGen 就像给机器人管家请了一位超级高效的“行政主管”，它做了一件关键的事：把“临时笔记”变成了全公司共享的资源。

它通过两个绝招来提速：

绝招一：跨任务共享笔记（Cross-task KV Sharing）

比喻：以前，机器人看一次桌子，就要记两遍笔记（一份给干活用，一份给聊天用）。现在，行政主管说：“不用了！大家共用这一份笔记！”
效果：机器人只需要“看”一次桌子，生成一份笔记，然后干活和聊天两个任务直接共用这份笔记。这就省去了大量重复的“抄写”时间。

绝招二：跨帧连续批处理（Cross-frame Continuous Batching）

比喻：
- 干活（动作）：就像炒菜，必须在规定时间内（比如 1 秒内）把菜炒好端上桌，不能等。
- 聊天（语言）：就像写长篇小说，可以慢慢写，写一段存一段，不需要一次性写完。
旧系统：每过 1 秒，机器人就停下来，先拼命把菜炒好，然后再开始写小说。如果小说写不完，下一轮炒菜就得等。
OxyGen 的做法：行政主管把“写小说”的任务打散。
- 第 1 秒：机器人炒好今天的菜，同时写小说的第 1 句。
- 第 2 秒：机器人炒好明天的菜，同时把第 1 句和第 2 句一起写出来（批量处理）。
- 它把不同时间点的“写小说”任务打包在一起，利用大脑的空闲时间并行处理。
效果：机器人既能保证炒菜（动作）的速度极快（达到 70 次/秒），又能让写小说（语言）的速度飞快（每秒 200 多个字），互不耽误。

4. 成果：快得惊人

通过这套“共享笔记”和“批量处理”的方法，OxyGen 在测试中取得了惊人的成绩：

速度提升：比以前的方法快了 3.7 倍。
双管齐下：机器人既能以 70 Hz 的高频控制动作（像专业运动员一样灵活），又能以 200+ 词/秒 的速度流畅聊天。
省电省内存：因为减少了重复计算，它甚至更省电了。

总结

简单来说，OxyGen 就是给机器人装了一个智能调度系统。它不再让机器人“重复劳动”或“互相抢资源”，而是让机器人学会**“一次观察，多方共享”以及“化整为零，批量处理”**。

这让未来的机器人不仅能像人一样灵活地干活，还能像人一样边干活边聊天、边思考，真正实现了**“一心多用”，而且是用得又快又省**。

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于**具身智能（Embodied AI）**中多任务并行推理优化的技术论文总结。论文提出了一种名为 OxyGen 的系统，旨在解决混合 Transformer（MoT）架构的视觉 - 语言 - 动作模型（VLA）在设备端部署时，面对多任务并行执行（如同时操作、对话、记忆构建）时的效率瓶颈。

以下是该论文的详细技术总结：

1. 研究背景与问题 (Problem)

应用场景需求：具身智能体（如家庭机器人）需要在共享观测输入（Observation）的同时，并行执行多种异构任务。例如：一边进行机械臂操作（Action），一边生成语言描述（Language）或构建长期记忆。这些任务具有不同的时间约束（Action 需要硬实时，Language 可以是流式软实时）。
现有架构：最新的 MoT-VLA（Mixture-of-Transformers Vision-Language-Action Models，如 $\pi_0.5$ ）在架构上支持通过共享主干网络（Backbone）和不同专家模块（Experts）来生成多种模态输出。
核心痛点：现有的推理系统（如 openpi）采用**隔离执行（Isolated Execution）**范式。
- 冗余计算：即使多个任务共享相同的输入观测，系统也会为每个任务单独进行 Prefill（预填充），重复计算 KV Cache，导致计算浪费。
- 资源争用：不同任务在有限的硬件资源（如单张 GPU）上竞争，且由于缺乏统一的调度，长时任务（如语言生成）会阻塞短时任务（如动作控制），导致动作频率下降。
- 结果：现有系统无法在设备端实现高效的多任务并行，导致推理速度慢、动作频率低。

2. 核心方法论 (Methodology)

作者提出了 OxyGen 系统，其核心创新在于统一 KV Cache 管理（Unified KV Cache Management）。该系统将 KV Cache 视为跨任务和跨时间的“一等公民”共享资源，而非每个任务私有。

2.1 统一 KV Cache 管理器

系统引入一个统一的 KV Cache 管理器（Manager），负责维护所有进行中的请求状态。

状态表示：每个请求的状态 $\sigma_t$ 包含 KV Cache、生成的 Token 缓冲区和终止标志。
持久化接口：提供 Store, Retrieve, Update, Remove 等操作，支持请求在帧（Frame）之间的中断与恢复，无需重新计算。

2.2 两大关键优化技术

跨任务 KV 共享 (Cross-Task KV Sharing)
- 原理：在同一帧 $t$ 内，当多个任务（动作生成和语言生成）共享相同的观测输入 $o_t$ 时，系统只执行一次 VLM 主干的 Prefill，生成共享的 KV Cache $K_t$ 。
- 效果：动作专家（Action Expert）和语言专家（Language Expert）直接复用 $K_t$ ，消除了针对同一观测的重复 Prefill 计算。
跨帧连续批处理 (Cross-Frame Continuous Batching)
- 原理：解耦语言生成的推理流与固定的控制循环。
  - 动作任务：严格遵循硬实时约束，在每帧内完成。
  - 语言任务：作为流式任务，跨越多个帧连续处理。管理器将来自不同帧的活跃语言请求（Active Requests）聚合为一个 Batch。
- 执行流程：
  1. 新帧到来时，生成共享 KV Cache。
  2. 动作专家立即使用 $K_t$ 生成动作。
  3. 语言管理器将当前帧的新请求与之前未完成的请求合并，进行并行批处理解码（Batched Decoding）。
- 效果：充分利用 GPU 的并行计算能力，摊销解码成本，显著提高 Token 吞吐量，同时不阻塞动作生成的实时性。

3. 主要贡献 (Key Contributions)

问题定义：首次将 MoT-VLA 中的多任务并行（具有非对称截止时间）形式化为一个推理场景，并指出“隔离的 KV Cache 管理”是现有系统效率低下的根本原因。
新范式：提出了“统一 KV Cache 管理”的推理范式，将 KV Cache 抽象为跨任务和时间的共享资源。
系统实现：基于流行的 MoT VLA 模型 $\pi_0.5$ 和开源框架 openpi 实现了 OxyGen 系统。
性能验证：在代表性机器人硬件（NVIDIA RTX 4090）和基准测试（LIBERO, DROID, ALOHA）上进行了全面评估。

4. 实验结果 (Results)

实验在单张 NVIDIA RTX 4090 GPU 上进行，对比了顺序隔离执行（Baseline）和并行隔离执行（Parallel）：

速度提升：
- 动作频率：最高提升 3.7 倍（从约 19 Hz 提升至 70.5 Hz），满足灵巧操作的高频控制需求。
- 语言吞吐量：最高提升 3.7 倍，达到 212.9 tokens/s。
- 综合性能：实现了动作频率和语言吞吐量的同时提升，而非此消彼长。
消融实验：
- 跨任务 KV 共享：在短解码步骤下提供约 1.4 倍加速（消除冗余 Prefill）。
- 跨帧连续批处理：在长解码步骤下至关重要，防止了随着解码长度增加而导致的动作频率急剧下降（从 49.9 Hz 降至 19.1 Hz 的问题被解决）。
质量验证：在 LIBERO 基准测试中，任务成功率与原始 openpi 系统相当（统计误差范围内），证明优化未降低动作质量。
能效与内存：
- 相比基线，OxyGen 仅增加约 15% 的显存开销。
- 相比 naive 并行化（Parallel），OxyGen 将每请求能耗降低了 78%，平均功耗降低了 47%。

5. 意义与影响 (Significance)

推动具身智能落地：解决了 MoT-VLA 在资源受限的设备端（On-device）部署的关键瓶颈，使得机器人能够真正实现在执行复杂操作的同时进行自然对话和记忆构建。
架构与系统协同：展示了如何通过系统级的调度优化（KV Cache 管理）来释放模型架构（MoT）的潜力，而非仅仅依赖模型压缩或剪枝。
通用性：提出的“统一 KV Cache 管理”思想不仅适用于 VLA，也为其他需要处理多模态、多任务且时间约束异构的生成式 AI 系统提供了新的优化思路。

总结：OxyGen 通过重新定义 KV Cache 的管理方式，成功打破了多任务并行推理中的性能壁垒，实现了高频率动作控制与高吞吐量语言生成的共存，是具身智能从“单一任务”迈向“多任务协同”的重要一步。