RAPID: Redundancy-Aware and Compatibility-Optimal Edge-Cloud Partitioned Inference for Diverse VLA models

针对现有边缘云协同推理框架在处理视觉语言动作(VLA)模型时易受视觉噪声干扰且忽视任务冗余导致运动不连续的问题,本文提出了名为 RAPID 的新框架,通过冗余感知与兼容性优化实现了最高 1.73 倍的推理加速,同时仅引入 5%~7% 的额外开销。

Zihao Zheng, Sicheng Tian, Hangyu Cao, Chenyue Li, Jiayu Chen, Maoliang Li, Xinhao Sun, Hailong Zou, Guojie Luo, Xiang Chen

发布于 Tue, 10 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 RAPID 的新系统,它的任务是让机器人(比如机械臂)变得更聪明、反应更快,同时又不需要太昂贵的硬件。

为了让你轻松理解,我们可以把机器人想象成一个正在做饭的厨师,把VLA 模型(一种超级复杂的 AI 大脑)想象成一位拥有百科全书知识的“米其林主厨”

🍳 核心问题:厨师太忙了,但厨房设备太简陋

现在的机器人(VLA 模型)非常强大,能看懂视频、听懂指令并做出动作。但是,这个“米其林主厨”太聪明了,脑子转得太快,导致:

  1. 本地设备(小厨房)跑不动:如果让机器人自己(边缘设备)全权处理,就像让一个小工人在简陋的厨房里做满汉全席,速度慢,甚至会把菜做糊(延迟太高,机器人动不起来)。
  2. 云端(大餐厅)太遥远:如果把所有任务都发给云端的主厨,虽然快,但网络传输有延迟,而且如果网络不好,主厨的指令传不过来,机器人就僵住了。

现有的解决方案(边云协同)有个大毛病:
以前的系统就像是一个只看监控摄像头的保安

  • 问题一(怕干扰): 只要摄像头里出现一点光影变化、灰尘或者有人晃过(视觉噪声),保安就以为出大事了,立刻把任务扔给云端。结果就是:明明只是擦个桌子,保安却大喊“着火了!”,导致云端频繁介入,效率极低。
  • 问题二(不懂轻重): 保安分不清什么时候该“全神贯注”,什么时候可以“摸鱼”。比如机器人手在空气中慢慢移动时(冗余阶段),其实不需要主厨操心,保安却还在频繁呼叫云端,浪费资源。

🚀 RAPID 的解决方案:换个“身体感觉”来指挥

RAPID 团队想出了一个绝妙的主意:别光看眼睛(摄像头),要感受身体(本体感觉)。

他们给机器人装了一个**“身体感知器”,专门监测机器人的关节加速度关节扭矩**(简单说,就是感受机器人动得有多快、用了多大力气)。

1. 兼容性优化:用“身体感觉”代替“眼睛”

  • 比喻:以前的保安只看监控,下雨天(视觉噪声)就误报。现在的 RAPID 就像是一个闭着眼睛练太极的高手
  • 原理:不管外面光线怎么变、有没有人晃来晃去,机器人关节的加速度受力是骗不了人的。
    • 如果机器人只是平稳地移动,关节受力很稳,说明环境很安全,不需要云端帮忙。
    • 如果机器人突然急刹车、或者要抓一个滑溜溜的物体(关键动作),关节受力会瞬间剧烈变化。这时候,系统才会立刻呼叫云端主厨。
  • 好处:不管环境多乱,系统都能稳稳当当,不会因为一点风吹草动就乱指挥。

2. 冗余感知:知道什么时候该“偷懒”

  • 比喻:想象你在开车。
    • 高速巡航时(高冗余):路很直,车很稳,你可以把脚放在油门上,甚至开一会儿自动驾驶(边缘设备自己处理),不需要每秒钟都问导航(云端)。
    • 急转弯或过减速带时(低冗余):这时候必须全神贯注,甚至需要导航实时修正路线(云端介入)。
  • 原理:RAPID 发现,机器人在平稳接近物体时,动作是重复且可预测的(冗余高),这时候让本地小设备自己跑就行。只有当机器人真正接触物体、需要精细操作(比如抓鸡蛋、拧螺丝)时,关节扭矩会剧烈波动,这时候才把任务交给云端。
  • 好处:该偷懒时偷懒,该努力时努力,极大减少了不必要的网络传输。

⚙️ RAPID 是怎么工作的?(双阈值机制)

RAPID 就像一个智能交通指挥官,它手里有两个仪表盘:

  1. 速度表(加速度):监测机器人是不是突然急转弯或急停。
  2. 压力表(扭矩):监测机器人是不是在用力抓东西。

它的决策逻辑是这样的:

  • 如果机器人正在快速移动,指挥官主要看速度表。如果速度突变,立刻呼叫云端。
  • 如果机器人正在慢速操作(比如精细抓取),指挥官主要看压力表。如果压力突变,立刻呼叫云端。
  • 冷却机制:一旦呼叫了云端,它会设置一个“冷静期”,防止因为连续的动作波动而反复呼叫云端,避免网络拥堵。

🏆 结果如何?

实验证明,RAPID 非常成功:

  • 速度快:比以前的方法快了 1.73 倍。就像原本做一道菜要 10 分钟,现在只要 6 分钟。
  • 省资源:只增加了 5%~7% 的额外计算开销(就像给厨师多戴了一块智能手表,几乎不增加负担)。
  • 更稳:即使环境很乱(有噪音、有干扰),机器人也不会像以前那样频繁“卡壳”或乱指挥。

📝 总结

简单来说,RAPID 就是给机器人换了一种更聪明的指挥方式
不再依赖容易受干扰的“眼睛”(摄像头),而是利用身体感觉(关节受力)来判断什么时候该自己干,什么时候该找“云端大神”帮忙。

这让机器人既反应灵敏,又不浪费资源,就像一位既懂太极又懂烹饪的聪明厨师,在嘈杂的厨房里也能优雅地做出完美菜肴。