AerialVLA: A Vision-Language-Action Model for UAV Navigation via Minimalist End-to-End Control

本文提出了 AerialVLA,一种面向无人机导航的极简端到端视觉 - 语言 - 动作模型,它通过双视图感知、模糊方向提示及统一控制空间,在无需密集先验引导或外部检测器的情况下实现了连续控制与精准着陆,并在未见场景中展现出远超现有基线的泛化能力。

Peng Xu, Zhengnan Deng, Jiayan Deng, Zonghua Gu, Shaohua Wan

发布于 2026-03-17
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一个名为 AerialVLA 的新系统,它的目标是让无人机(UAV)像人一样,仅凭“眼睛”(摄像头)和“耳朵”(语言指令)就能在复杂的三维世界里自主飞行、寻找目标并安全降落,而无需依赖任何外部的“拐杖”。

为了让你更容易理解,我们可以把这项技术想象成教一个新手飞行员如何在没有导航仪和副驾驶的荒野中飞行

1. 以前的无人机是怎么飞的?(“拐杖”依赖症)

在 AerialVLA 出现之前,大多数让无人机听懂人话并飞行的方法,就像是在教一个完全依赖拐杖的盲人走路:

  • 依赖“上帝视角”的拐杖(Oracle Guidance): 以前的系统需要有人(或超级计算机)实时告诉无人机:“现在向右转 30 度”、“再飞 5 米”。这就像有人拿着拐杖一直戳着盲人的背,告诉他往哪走。一旦这个“上帝视角”消失,无人机就懵了,因为它根本没学会自己看路。
  • 依赖“外挂眼睛”的拐杖(External Detectors): 当无人机需要降落时,它自己看不清哪里是目标,必须调用一个额外的、笨重的“识别软件”(比如 Grounding DINO)来告诉它:“嘿,前面有个红车,停那里!”如果这个外挂软件坏了,无人机就不知道什么时候该停,甚至可能直接撞上去。

结果: 这种系统很脆弱,一旦离开训练好的环境,或者外挂软件失效,无人机就飞不动了。

2. AerialVLA 是怎么做的?(“极简主义”的直觉飞行)

AerialVLA 提出了一种极简主义(Minimalist) 的端到端方案。它不再依赖那些复杂的“拐杖”,而是训练无人机像经验丰富的老飞行员一样,凭直觉和观察直接行动。

我们可以用三个生动的比喻来理解它的核心创新:

比喻一:极简的“双镜头”眼镜(Minimalist Dual-View Perception)

  • 以前的做法: 给无人机装 5 个摄像头(前、后、左、右、下),像戴了一副全景 VR 眼镜,信息量太大,处理起来慢吞吞,而且很多信息是多余的。
  • AerialVLA 的做法: 只装两个最关键的镜头:
    1. 前视镜头: 像人的眼睛,看前面有没有树、房子,目标在哪。
    2. 下视镜头: 像人的脚,看地面是不是平的,离地多高,方便降落。
  • 效果: 就像把复杂的 VR 眼镜换成了轻便的普通眼镜,无人机反应更快,而且只关注最重要的信息,不会被周围的杂乱背景干扰。

比喻二:模糊的“路标”而非精确的“坐标”(Fuzzy Directional Prompting)

  • 以前的做法: 指令是精确的数学题:“向右转 45.3 度”。无人机像个机器人一样死板执行,一旦环境变了(比如风大了),它就不知道该怎么调整。
  • AerialVLA 的做法: 指令是模糊的“路标”,比如:“往右前方飞,找那个红色的摩托车”。
    • 这就像你给一个本地人指路,你不会说“向东偏北 15 度走 300 米”,而是说“往东边那个路口走”。
    • 无人机必须自己主动观察环境,结合这个模糊的提示,自己决定怎么飞。这迫使它学会了真正的“空间推理”,而不是死记硬背路线。

比喻三:自带“刹车”的自动驾驶(Unified 3-DoF Control & Intrinsic Landing)

  • 以前的做法: 飞行的控制(油门、方向)和降落(什么时候停)是两码事。飞的时候是一个大脑,快到了要停的时候,得呼叫另一个“外部专家”来确认:“可以停了吗?”
  • AerialVLA 的做法: 它把飞行和降落统一成了一个本能
    • 它直接输出连续的飞行指令(比如:向前 0.5 米,向左转 10 度)。
    • 当它发现目标就在眼前,或者指令里出现了"LAND"(降落)这个词时,它就像老司机看到红灯一样,自然地减速、悬停、降落。不需要外部软件来喊“停”,它自己就能感觉到“该停了”。

3. 它厉害在哪里?(实战表现)

研究人员在名为 TravelUAV 的测试场里进行了大考,结果非常惊人:

  • 在熟悉的环境里: 它比目前最先进的其他方法都要好,成功率高出很多。
  • 在完全陌生的环境里(Unseen Scenarios): 这是最关键的!当无人机飞到从未见过的地图,或者目标变成了从未见过的物体(比如训练时没见过大象,现在让它找大象):
    • 其他方法(依赖外挂和精确指令的)成功率跌到了10% 左右,几乎全废。
    • AerialVLA 的成功率却高达37% 以上,是其他方法的三倍

为什么? 因为它没有死记硬背地图,也没有依赖外挂软件。它学会了通用的视觉 - 动作直觉。就像教孩子认路,你教他“看路标、找参照物”,他就能去任何地方;如果你只教他“背地图”,换个地方他就迷路了。

总结

AerialVLA 就像给无人机装上了一个拥有“老司机直觉”的大脑

它不再需要别人拿着拐杖(精确指令)和手电筒(外部探测器)来带路。它只需要你给它一个模糊的方向(“去那边找那个红车”),它就能自己看前看后,灵活地避开障碍物,精准地找到目标并安全降落。

这项技术让无人机真正具备了自主性,未来在搜救、巡检等复杂且没有 GPS 信号的野外环境中,它们将变得更加可靠和智能。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →