DepthCache: Depth-Guided Training-Free Visual Token Merging for Vision-Language-Action Model Inference

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 DepthCache 的新方法，旨在让机器人“看”得更快、反应更灵敏，而且不需要重新训练机器人模型。

为了让你轻松理解，我们可以把机器人控制大脑（VLA 模型）想象成一位正在下棋的大师，而摄像头拍到的画面就是棋盘上的成千上万个棋子（Token）。

🤖 核心问题：大师“想”得太慢

现在的机器人虽然聪明，但有个大毛病：反应太慢。

原因：摄像头每秒钟拍几百张照片，每张照片都被切分成几百个小方块（视觉 Token）。这些方块都要送进大脑里处理。
后果：就像大师要同时盯着棋盘上 500 个棋子，还要思考每一步棋，导致他下棋犹豫不决（延迟高）。在需要快速反应的抓东西任务中，这种犹豫会让机器人动作卡顿，甚至抓空。

🛠️ 现有方法的缺陷：粗暴的“大扫除”

以前的方法为了加速，通常有两种做法：

直接扔掉（Pruning）：觉得某些棋子不重要，直接扔掉。
- 比喻：就像为了下棋快，直接把棋盘边缘的棋子全扔了。结果是大师看不清棋子的相对位置，导致判断失误。
均匀合并（Merging）：把相邻的棋子强行捏成一个。
- 比喻：不管棋子是关键的“王”还是无关的“背景”，都一视同仁地捏在一起。结果是把“王”和旁边的“兵”捏混了，导致机器人分不清哪里是手，哪里是杯子。

💡 DepthCache 的妙招：像人类眼睛一样“有重点”地看

DepthCache 的核心思想是：利用“深度图”（距离信息）来指导机器人怎么“看”。它不需要重新教机器人，而是给机器人加了一个“智能滤镜”。

1. 远近有别（空间上的“变焦”）

人类直觉：当你伸手去抓桌上的苹果时，你的眼睛会死死盯着苹果和手（近处），而身后的墙壁和远处的书架（远处）虽然也能看见，但只需要模糊处理，不需要看清细节。
DepthCache 的做法：
- 近处（工作区）：保留高清细节，绝不压缩。这是机器人抓东西的关键区域。
- 远处（背景）：大胆压缩，把远处的墙壁、天花板合并成几个大色块。
- 比喻：就像给照片加了景深效果，主体清晰，背景虚化。既减少了数据量，又没丢关键信息。

2. 细水长流（时间上的“平滑”）

人类直觉：当你连续抓东西时，上一秒和下一秒的画面其实大部分是一样的。
DepthCache 的做法：它不是一次性把画面压缩完，而是分几帧慢慢压缩。
- 比喻：就像给视频做“慢动作转场”，而不是突然把画面变糊。这样机器人看到的画面是连续流畅的，不会因为突然少了一堆数据而“发呆”或动作卡顿。

3. 动态保护（双重保险）

智能保护：系统会同时盯着两个信号：
- 语义信号：语言指令说“抓杯子”，系统就保护“杯子”附近的像素。
- 几何信号：深度图显示这里有“边缘”（比如杯沿），系统就保护这些边缘。
- 比喻：就像保镖，既知道老板（任务目标）在哪，也知道哪里是危险边界，确保关键区域绝对安全。

4. 手腕摄像头的“状态机”

如果是装在机器人手腕上的摄像头：
- 移动时：画面全是模糊的（因为手在动），这时候直接压缩，省算力。
- 抓东西时：画面清晰且关键，这时候立刻恢复高清，确保抓得准。
- 比喻：就像手机摄像头的“防抖模式”，手抖时自动模糊处理，手稳时自动高清。

🚀 效果如何？

在实验室和真实机器人上的测试表明：

速度提升：机器人的反应速度提升了 1.28 倍（就像从 60 帧变成了 77 帧，动作更丝滑）。
准确率：抓东西的成功率几乎没有下降（损失小于 1%）。
对比：以前的方法为了提速，往往会让成功率暴跌 20% 以上，而 DepthCache 做到了“鱼和熊掌兼得”。

🌟 总结

DepthCache 就像给机器人装上了一副智能的“人眼”：
它知道看哪里（近处清晰，远处模糊），知道怎么看（慢慢过渡，不突然变糊），还知道什么时候该看（移动时省流，操作时高清）。

最重要的是，它不需要重新训练机器人，直接就能用在现有的各种机器人模型上，让老旧的机器人也能瞬间变“快”变“灵”。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

核心痛点：
视觉 - 语言 - 动作（VLA）模型虽然实现了通用机器人操作，但在实际部署中面临严重的推理延迟瓶颈。

原因： 大型语言模型（LLM）骨干网络需要处理海量的视觉 Token（每个摄像头视角通常生成 256-576 个 Patch Token）。在多视角设置下，Token 数量成倍增加，导致推理延迟无法满足机器人实时控制（通常需 5-20Hz）的需求。
现有方法的局限性：
- Token 剪枝 (Pruning)： 直接丢弃低分 Token。虽然能加速，但会破坏 Token 间的空间关系，导致精细的空间推理能力下降（如抓取时的几何理解），在机器人操作中风险极大。
- Token 合并 (Merging)： 现有合并方法（如 ToMe, ToSA）通常在视觉编码器内部逐层进行，且采用均匀合并策略（Uniform Merge Ratio），即对前景（近场工作区）和背景（远场）一视同仁。这忽略了机器人操作中“近场重要、远场冗余”的空间特性，且不同 VLA 模型需要定制化的视觉编码器修改，缺乏通用性。

2. 方法论 (Methodology)

作者提出了 DepthCache，这是一个无需训练 (Training-Free) 的视觉 Token 压缩框架。其核心思想是利用深度图 (Depth Map) 作为结构先验，指导 Token 的差异化合并。

2.1 核心设计理念

空间差异化 (Spatial Differentiation)： 利用深度信息将场景划分为不同区域。近场工作区（高信息密度）保留高分辨率，远场背景（低信息密度）进行激进压缩。
时间一致性 (Temporal Coherence)： 将合并过程分布在连续帧的时间轴上，而不是单帧内一次性完成，避免动作抖动和特征不连续。
多视角自适应 (Multi-view Adaptivity)： 针对第三视角（主视角）和手腕视角（辅助视角）采用不同的压缩策略。

2.2 主要流程

A. 主视角流水线 (Primary View Pipeline) - 第三视角摄像头
这是一个循环过程：初始化 $\rightarrow$ 深度分区 $\rightarrow$ 渐进式合并 $\rightarrow$ 变化检测 $\rightarrow$ 重新初始化。

场景初始化与双重保护 (Dual Protection)：
- 在初始 $N$ $N$ 帧（Warmup）中，收集两个保护信号，确保关键 Token 不被压缩：
  - 语义保护 (Attention-based)： 累积 LLM 的交叉注意力图，识别任务相关物体（如目标物体、容器）。
  - 几何保护 (Depth-based)： 利用深度图的梯度检测物体边界和遮挡轮廓。
- 被保护的 Token 集合 $P$ 在整个周期内保持全分辨率。
基于深度的区域划分 (Depth-Based Partitioning)：
- 对未受保护的 Token，根据其深度值进行 K-Means 聚类，划分为 $K$ 个区域。
- 每个区域 $R_k$ 分配一个与平均深度 $\bar{d}_k$ 成正比的合并比例 $r_k$ 。距离越远，合并比例越高。
渐进式 Token 合并 (Progressive Token Merging)：
- 机制： 不是一次性完成所有合并，而是在 $W$ 个连续帧的时间窗口内线性分布合并任务。
- 优势： 避免了单帧合并带来的特征突变，利用连续帧的高重叠度实现时间上连贯的压缩，减少动作犹豫。
动态恢复与重新初始化 (Dynamic Recovery & Re-initialization)：
- 变化检测： 监控深度变化。如果某区域内动态物体比例超过阈值，该区域立即恢复全分辨率。
- 重新初始化： 当检测到目标物体发生独立位移（非机械臂携带移动）时，触发重新初始化，更新保护集和深度分区。

B. 辅助视角流水线 (Auxiliary View Pipeline) - 手腕摄像头

采用轻量级状态机，根据机械臂末端执行器的运动状态动态调整压缩策略。
合并状态 (Merge)： 机械臂在移动或运输过程中（运动模糊，信息量低），进行高压缩。
全视状态 (Full-View)： 机械臂进行精细操作（抓取/释放）时，保持全分辨率。
通过预测动作块（Action Chunk）提前切换状态，消除时间滞后。

3. 关键贡献 (Key Contributions)

首个利用深度作为结构先验的 VLA 推理框架： 将深度图从“感知输入”重新定义为“结构先验”，用于指导推理时的 Token 压缩，无需模型微调。
时空协同的压缩流水线： 结合了深度比例的区域划分（空间）和跨帧的渐进式合并（时间），解决了现有方法中空间均匀合并和帧间不稳定的问题。
通用性与零修改： 框架位于视觉编码器外部，无需修改任何 VLA 模型架构，可即插即用。
双重保护机制： 结合语义注意力与深度边缘检测，确保关键任务信息（物体、边界）在压缩过程中不被破坏。

4. 实验结果 (Results)

实验在 LIBERO 仿真基准和真实物理机器人（PIPER 机械臂）上进行，测试了三种架构各异的 VLA 模型（ $\pi0.5$ , OpenVLA, GR00T）。

仿真基准 (LIBERO)：
- 速度提升： 实现了 1.07x - 1.28x 的推理加速。
- 成功率 (SR)： 平均成功率下降 < 1%。
- 对比优势： 相比之下，现有的剪枝方法（如 FastV）导致 12-20% 的成功率下降；均匀合并方法（ToSA）导致 24% 的下降且无加速。
- Token 保留率： 在保持高性能的同时，将 Token 数量从 512 减少到约 300。
真实世界实验：
- 任务表现： 在“抓取放置”、“堆叠积木”、“开抽屉放置”等任务中，成功率与基线持平。
- 延迟敏感场景： 在“多物体排序”任务中，总任务时间减少了 22.7%。
- 抗扰动能力： 在物体被人为移动的场景下，由于推理延迟降低，机器人能更频繁地重规划，恢复时间缩短了 21.3%，成功率略有提升。
消融实验：
- 深度分区是性能最关键的因素（移除后 SR 下降 18.2%），证明了空间差异化压缩的重要性。
- 渐进式合并次之（移除后 SR 下降 16.6%），证明了时间平滑对动作轨迹稳定性的必要性。

5. 意义与结论 (Significance)

理论突破： 证明了深度信息不仅可以作为感知输入，还可以作为推理时的结构先验，为 VLA 模型的轻量化提供了新的范式。
实用价值： 解决了 VLA 模型在实时机器人控制中的延迟瓶颈，使得在保持高精度的同时实现更快的闭环控制成为可能。
通用性： 该方法不依赖特定模型架构，易于推广到各种 VLA 系统和多模态机器人任务中。
未来方向： 作者指出当前方法受限于 Amdahl 定律（仅加速视觉部分，未加速动作解码），未来可结合 KV-Cache 优化或深度感知训练进一步提升性能。

总结： DepthCache 通过巧妙利用深度图的空间结构和时间冗余，在不牺牲机器人操作精度的前提下，显著降低了 VLA 模型的推理延迟，是迈向实时、高效通用机器人操作的重要一步。