OnFly: Onboard Zero-Shot Aerial Vision-Language Navigation toward Safety and Efficiency

本文提出了 OnFly,一种完全机载的实时零样本航拍视觉语言导航框架,通过共享感知双智能体架构、混合记忆机制以及语义几何验证与规划模块,有效解决了现有方法决策不稳定、长程监控不可靠及安全效率难以兼顾的问题,显著提升了任务成功率并验证了其在真实飞行中的可行性。

Guiyong Zheng, Yueting Ban, Mingjie Zhang, Juepeng Zheng, Boyu Zhou

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 OnFly 的新系统,它的目标是让无人机(UAV)能够像听指挥的“智能飞行员”一样,仅凭人类的一句自然语言指令(比如“飞到那棵树的后面”),就能在复杂的三维环境中自主飞行、避障并完成任务。

以前的技术虽然也能做,但经常“脑子乱”、“记性差”或者“太保守不敢飞”。OnFly 通过三个巧妙的创新,解决了这些问题。我们可以用**“一个聪明的飞行团队”**来比喻这个系统:

1. 核心痛点:以前的无人机为什么“笨”?

想象一下,你让一个无人机去执行任务,以前的系统就像是一个既要看路、又要记日记、还要开飞机的“单兵”

  • 决策混乱:它要同时处理“现在立刻转弯”(高频动作)和“我是不是已经走到终点了?”(低频判断)。这两个任务频率不同,混在一起做,就像一边开车一边写长篇小说,容易手忙脚乱,导致反应迟钝或判断失误。
  • 记性不好:它记不住刚才飞过的路。如果任务很长,它飞着飞着就忘了“我是谁,我要去哪”,导致在原地打转或迷路。
  • 安全与效率的矛盾:为了安全,它飞得很慢,像蜗牛一样走走停停;为了快,它又容易撞墙。

2. OnFly 的解决方案:一个高效的“三人飞行小队”

OnFly 把任务拆给了一个**“共享感知的双人小组”,外加一个“安全教练”**。

🚁 角色一:高频决策员(The Pilot)

  • 任务:负责**“现在往哪飞”**。
  • 比喻:就像赛车手,眼睛死死盯着前方,每秒钟都要决定方向盘打多少度。他不需要思考“我离终点还有多远”,只需要专注于当下的动作。
  • 创新:以前系统里,这个“赛车手”经常被“记日记”的任务打断。OnFly 让他专心致志,所以反应极快,飞行流畅。

📝 角色二:低频监控员(The Navigator)

  • 任务:负责**“我们走到哪了?任务完成了吗?”**
  • 比喻:就像副驾驶手里拿着地图和计时器。他不需要每秒钟都说话,而是每隔几秒看一眼大局。
  • 创新(混合记忆法)
    • 以前的系统像用**“滑动窗口”**记日记:写新内容就把旧内容挤掉,飞久了就忘了起点。
    • OnFly 的监控员用**“混合记忆”:他手里拿着三样东西**:
      1. 出发时的照片(记住起点);
      2. 几个关键路标的照片(记住路过的地标);
      3. 现在的照片(看眼前)。
    • 这样,无论飞多远,他都能把“起点”、“路标”和“现在”连起来,既不会迷路,也不会因为记太多细节而变慢。

🛡️ 角色三:安全教练(The Safety Verifier & Planner)

  • 任务:负责**“检查目标是否安全”“规划具体路线”**。
  • 比喻:决策员指了一个方向,但那个方向可能正好有棵树。安全教练会立刻说:“不行,那里有树!我们稍微偏一点,但还是要朝那个方向去。”
  • 创新
    • 语义 - 几何验证:如果无人机说“去那棵树”,但传感器发现那里其实是墙,教练会纠正它,确保它既听懂了指令(语义),又不会撞墙(几何安全)。
    • 动态规划:一旦确认目标安全,教练会算出一条最平滑、最省时的飞行轨迹,让无人机不再“走走停停”。

3. 成果如何?(实战表现)

  • 在模拟测试中:以前的最强系统,任务成功率只有 26.4%(也就是 10 次任务有 7 次失败或撞车)。OnFly 把这个数字提升到了 67.8%,几乎翻了 2.5 倍!而且撞车率极低。
  • 在真实世界中:作者真的把这套系统装在了无人机上(完全在无人机自己的电脑里运行,不需要连云端)。在真实的走廊、草坪、甚至二楼平台上,无人机都能听懂指令,灵活避障,精准降落。

总结

OnFly 就像给无人机配备了一个分工明确的精英团队

  • 有人专心开车(高频决策);
  • 有人聪明地记路(混合记忆监控);
  • 有人时刻盯着安全(验证与规划)。

这套系统让无人机从“容易迷路、反应迟钝的初学者”,变成了“既能听懂人话、又能灵活避障、还能高效完成任务的资深飞行员”。这为未来无人机在搜救、巡检、城市配送等复杂场景中的应用打下了坚实的基础。