BFA++: Hierarchical Best-Feature-Aware Token Prune for Multi-View Vision Language Action Model

本文提出了 BFA++,一种专为多视角视觉语言动作模型设计的动态令牌剪枝框架,通过层级化的视角内与视角间重要性预测机制,在显著降低计算延迟的同时提升了机器人操作的成功率。

Haosheng Li, Weixin Mao, Zihan Lan, Hongwei Xiong, Hongan Wang, Chenyang Si, Ziwei Liu, Xiaoming Deng, Hua Chen

发布于 2026-02-25
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 BFA++ 的新方法,旨在解决机器人“看”世界时太“贪心”、太“累”的问题。

想象一下,你正在教一个机器人做复杂的家务,比如把香蕉放进盘子里。为了看清全局,你给机器人装了三个摄像头:一个在头顶(看大局),两个在手腕上(看细节)。

1. 机器人的“视力疲劳”症

现在的机器人模型(VLA)非常聪明,但它们有个大毛病:太贪心
不管你在做什么,机器人都会把三个摄像头拍到的所有画面、所有的像素点,一股脑儿全塞进大脑里处理。

  • 问题所在:这就好比你让一个厨师在切菜时,不仅要盯着菜,还要盯着厨房的地板、窗外的云彩、甚至冰箱上的贴纸。
  • 后果
    1. 反应慢:大脑处理的信息太多,机器人动作迟缓,跟不上实时操作。
    2. 容易分心:因为信息太杂,机器人反而看不清真正重要的东西(比如手里的香蕉),导致任务失败。

2. BFA++ 的解决方案:聪明的“剪辑师”

BFA++ 就像是一个超级智能的剪辑师,它不直接让机器人看所有东西,而是教机器人**“学会忽略”**。它通过两个步骤来给机器人的视觉做“减法”:

第一步:宏观剪辑(决定看哪个镜头)

  • 比喻:就像拍电影。
    • 当机器人只是走近桌子时,只需要头顶摄像头的大全景就够了,手腕的特写镜头是多余的,直接剪掉。
    • 当机器人开始抓取香蕉时,头顶的大全景反而看不清细节,这时候手腕摄像头的特写才是关键,必须保留,头顶的镜头可以少看一点。
  • 作用:BFA++ 能根据任务阶段,动态决定哪个摄像头的画面最重要。

第二步:微观剪辑(决定看画面里的哪一块)

  • 比喻:就像在一张大照片里找重点。
    • 即使在看手腕的特写,画面里也有背景、桌子、地板。
    • BFA++ 会告诉机器人:“别管地板和背景,只盯着你的机械手和那个香蕉,其他的地方都是噪音,直接忽略!”
  • 作用:在单个画面里,只保留和任务最相关的部分,剔除背景噪音。

3. 它是如何学会的?

以前的方法让机器人自己瞎猜哪些重要,结果经常猜错。
BFA++ 采用了一种**“带老师教”**的方法(监督学习):

  • 研究人员先给机器人看很多成功的操作视频,并人工(或利用 AI)标注出:“在这个时刻,头顶镜头最重要”、“在这个时刻,机械手周围的像素最重要”。
  • 然后,BFA++ 就像个学生,看着这些标注好的“标准答案”进行训练,学会了如何像人类专家一样,快速识别并剪掉那些没用的信息。

4. 效果有多好?

实验结果显示,用了 BFA++ 的机器人:

  • 跑得更快:处理速度提升了 1.5 到 1.8 倍(就像从 60 帧的卡顿视频变成了丝滑的 100 帧)。
  • 干得更漂亮:任务成功率提高了 10%。因为它不再被背景里的杂物分心,能更精准地抓取物体。

总结

简单来说,BFA++ 就是给机器人装上了一副“智能眼镜”
这副眼镜不会让机器人“看不见”,而是让它**“看得更准、想得更快”**。它教会机器人在复杂的环境中,自动过滤掉无关的干扰,只把注意力集中在真正需要动手的关键点上。这让机器人从“笨拙的巨人”变成了“敏捷的工匠”。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →