AVA-VLA: Improving Vision-Language-Action models with Active Visual Attention

该论文针对现有视觉 - 语言 - 动作(VLA)模型忽视历史交互信息的局限,提出了基于部分可观测马尔可夫决策过程视角的 AVA-VLA 框架,通过引入循环状态表征任务历史并设计动态重加权视觉 token 的主动视觉注意力机制,显著提升了机器人在标准基准及真实世界双臂操作任务中的序列决策性能。

原作者: Lei Xiao, Jifeng Li, Juntao Gao, Feiyang Ye, Yan Jin, Jingjing Qian, Jing Zhang, Yong Wu, Xiaoyuan Yu

发布于 2026-04-13
📖 1 分钟阅读☕ 轻松阅读

这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 AVA-VLA 的新方法,旨在让机器人变得更聪明、更灵活。为了让你轻松理解,我们可以把机器人想象成一个正在学做菜的“新手大厨”

1. 以前的机器人:只有“金鱼记忆”的厨师

目前的很多机器人(基于 VLA 模型)就像是一个只有 7 秒记忆的金鱼

  • 工作方式:每过一秒钟,它只看一眼眼前的画面,然后立刻决定下一步做什么。它完全不记得上一秒发生了什么,也不记得自己刚才做了什么动作。
  • 比喻:想象你在切菜,切了一刀后,突然有人把你眼睛蒙上,然后告诉你“继续切”。如果你不记得刚才切到了哪里,你就不知道下一刀该切多深,很容易切到手或者切坏食材。
  • 问题:现实世界是复杂的。比如你要把锅放在炉灶上,如果你只看一眼,可能因为角度问题没看清炉灶开关在哪;或者你刚才已经推了一下桌子,但现在的画面里桌子位置变了,如果你不记得“刚才推过”,你就无法理解为什么桌子现在在这里。

2. 这篇论文的创新:给机器人装上“记事本”和“聚光灯”

作者提出了 AVA-VLA,它给机器人加了两样神器:

A. 核心概念:从“金鱼”变成“有记忆的侦探” (POMDP 视角)

  • 旧方法:把机器人控制看作“马尔可夫决策过程”(MDP),意思是只看现在,不管过去
  • 新方法:把机器人控制看作“部分可观测马尔可夫决策过程”(POMDP)。意思是:现在的画面只是冰山一角,真正的状态藏在过去的记忆里
  • 比喻:机器人不再只看眼前,而是手里拿着一个智能记事本(循环状态 Recurrent State)。每做一步,它就把刚才看到的、做过的记下来。这个记事本就像一个“信念”,告诉它:“虽然我现在没看到那个开关,但我记得刚才往左移了一点,所以开关应该在那边。”

B. 核心技术:主动视觉注意力 (AVA) —— 智能聚光灯

有了记事本后,机器人怎么利用这些信息呢?这就用到了 AVA(主动视觉注意力) 模块。

  • 旧方法:机器人看图片时,像拿着一个广角手电筒,把整个画面照得一样亮,不管哪里重要,它都一视同仁地看。
  • 新方法:AVA 就像给机器人装了一个智能聚光灯
    • 这个聚光灯会根据“记事本”里的历史信息和当前的任务指令,自动调整焦点
    • 比喻
      • 如果任务是“把茄子放进桶里”,而机器人刚才已经拿起了茄子,那么现在的聚光灯就会自动变暗,忽略背景里的桌子和墙壁,只把最亮的光打在“桶”和“茄子”上
      • 如果机器人刚才没对准,聚光灯就会自动扫描它刚才“以为”应该在那里的位置,而不是盲目地重新扫描整个房间。

3. 这个系统是怎么工作的?(简单流程)

想象机器人正在执行任务:

  1. 看过去:机器人先看看手里的“记事本”(上一时刻的状态),回想刚才做了什么。
  2. 看现在:它看眼前的摄像头画面。
  3. 开聚光灯 (AVA):结合“刚才的记忆”和“现在的任务”,它告诉大脑:“别管背景里的椅子了,把注意力全集中在那个炉灶开关上,因为根据记忆,我刚才离它很近,现在必须找到它。”
  4. 做决定:基于这个经过筛选、重点突出的画面,机器人决定下一步动作(比如:伸手去按开关)。
  5. 记下来:做完动作后,它把新的状态记入“记事本”,准备进行下一轮。

4. 效果如何?

论文在电脑模拟环境(LIBERO, CALVIN)和真实的机器人手臂上做了大量测试:

  • 更准:在复杂的长任务中(比如“打开抽屉 -> 拿蓝色积木 -> 推进去”),它比以前的模型成功率更高。
  • 更稳:即使环境有点变化(比如光线变了、背景乱了),因为它记得“过去”,所以不容易迷路。
  • 更聪明:它能像人类一样,根据上下文主动寻找关键物体,而不是被动地看所有东西。

总结

AVA-VLA 就像是给机器人装上了长期记忆主动思考的能力。

  • 以前的机器人是:“我看一眼,做一步,忘一步。”
  • 现在的机器人是:“我记得刚才发生了什么,所以我现在知道该盯着哪里看,从而做出最正确的动作。”

这让机器人从“只会机械反应的机器”,进化成了“能理解任务背景、灵活应对变化的智能助手”。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →