Efficient Long-Horizon Vision-Language-Action Models via Static-Dynamic Disentanglement

本文提出了 SD-VLA 框架,通过解耦视觉输入中的静态与动态令牌来显著降低长程上下文长度并复用 KV 缓存,从而在提升长时程任务成功率的同时实现了推理加速。

Weikang Qiu, Tinglin Huang, Rex Ying

发布于 2026-02-17
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种让机器人变得更聪明、反应更快的新方法,叫做 SD-VLA

为了让你轻松理解,我们可以把现在的机器人控制模型想象成一位正在做复杂家务的“超级管家”

1. 现在的管家遇到了什么麻烦?(痛点)

目前的机器人管家(VLA 模型)虽然很厉害,能听懂人话、看懂图片并做出动作,但它们有两个大毛病:

  • 记性不好(长程记忆缺失): 如果主人说:“先把苹果放在炉子上热 30 秒,然后拿下来,再放个罐头。”
    • 普通的管家可能只记得“现在”看到了什么。当它热完苹果后,它可能忘了“苹果刚才放哪了”或者“罐头还没热”。它就像金鱼,只有 7 秒记忆,做长任务时容易乱套。
  • 脑子转得太慢(计算太累): 为了记住刚才发生了什么,管家必须把过去几十秒看到的每一帧画面(几百个细节)都重新在大脑里过一遍。
    • 这就好比每走一步路,都要把刚才走过的整条街重新画一遍地图,再重新分析一遍。这导致它反应很慢,而且特别费电(计算量大),没法在真实的家里快速干活。

2. 他们的解决方案:SD-VLA(动静分离法)

作者发现了一个生活中的常识:在机器人干活时,大部分东西其实是不动的。
比如,你让机器人去拿桌上的苹果,桌子、墙壁、背景在几秒钟内是完全静止的,只有苹果、机械手在动。

于是,他们给管家装了一个**“动静分离”的大脑**:

核心比喻:把信息分成“背景板”和“演员”

想象你在拍一部电影:

  • 静态信息(背景板): 墙壁、地板、桌子。这些在整场戏里都不变。
  • 动态信息(演员): 苹果、机器人手臂、正在移动的物体。这些每秒钟都在变。

SD-VLA 的做法是:

  1. 只拍一次背景板: 既然墙壁和桌子不动,管家只需要在开始时“看”一次,把这张背景图存在脑子里(缓存),后面就不用再看了。
  2. 只盯着演员看: 每一秒,管家只需要快速处理苹果和手臂的变化。
  3. 智能刷新机制(Recache Gate): 管家会时刻监控:“嘿,背景板是不是被挡住了?或者桌子被挪动了?”
    • 如果背景没变,它就直接调用脑子里存好的旧背景图(不用重新计算,极快!)。
    • 如果背景变了(比如有人把桌子推了),它就立刻刷新一下背景图。

3. 这样做有什么好处?

  • 记性变好了(长程推理):
    因为省下了处理“背景板”的精力,管家现在可以把更多的“脑容量”用来记住过去发生的事情
    • 例子: 它能轻松记住“刚才那个苹果热了 30 秒,现在该拿下来了”,因为它不需要把 30 秒前的每一帧背景都重新算一遍,它只需要调用存好的背景,专注于计算时间。
  • 反应变快了(效率提升):
    因为大部分时间不需要重新计算背景,机器人的反应速度直接提升了 2 倍多(论文中提到 2.26 倍加速)。
    • 比喻: 以前是“每走一步都要重新画地图”,现在是“拿着地图走,只有路变了才更新地图”。

4. 他们怎么证明这招管用?

作者设计了一个**“记忆测试游戏”**(LIBERO-Memory 基准):

  • 任务: 让机器人先拿 A 罐子加热,等一会儿放回原位;再拿 B 罐子加热。
  • 挑战: 机器人必须记住:A 罐子原来的位置在哪?加热了多久?哪个罐子已经热过了?
  • 结果: 普通的机器人管家在这个游戏里经常失败(成功率低),而用了 SD-VLA 的管家,成功率提升了近 40%,而且干活速度还更快。

总结

这篇论文的核心思想就是:别把力气浪费在重复看静止的东西上。

通过把“不动的背景”和“动的物体”分开处理,并聪明地复用旧信息,SD-VLA 让机器人既拥有了过目不忘的长程记忆力,又保持了闪电般的反应速度。这让未来的家庭机器人能真正胜任像“做一顿复杂的晚餐”这样需要长时间记忆和快速反应的复杂任务。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →