OnFly: Onboard Zero-Shot Aerial Vision-Language Navigation toward Safety and Efficiency

Das Paper stellt OnFly vor, ein vollständig onboardes Echtzeit-Framework für die zero-shot Luftbild-Vision-Sprach-Navigation, das durch eine geteilte Wahrnehmungs-Architektur, hybrides Gedächtnis und semantisch-geometrische Verifikation die Entscheidungsstabilität, die Langzeitüberwachung sowie die Sicherheit und Effizienz von UAVs in komplexen 3D-Umgebungen signifikant verbessert.

Guiyong Zheng, Yueting Ban, Mingjie Zhang, Juepeng Zheng, Boyu Zhou

Veröffentlicht 2026-03-12
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie geben einem kleinen, fliegenden Roboter (einer Drohne) eine einfache Sprachanweisung wie: „Flieg zum roten Briefkasten und halte dort an."

Das Problem ist: Die Drohne sieht die Welt nur durch eine Kamera, hat keine menschliche Intuition und muss in einer komplexen 3D-Welt (mit Bäumen, Gebäuden, anderen Drohnen) sicher und schnell navigieren. Bisherige Systeme waren oft wie ein verwirrter Pilot, der gleichzeitig versuchen muss, die Landebahn zu finden, den Treibstoff zu überwachen und die Flugbahn zu berechnen – dabei stolpert er oft, macht unnötige Stopp-and-Go-Manöver oder fliegt direkt gegen eine Wand.

Die Forscher haben mit OnFly eine Lösung entwickelt, die dieses Chaos in einen gut organisierten Flugbetrieb verwandelt. Hier ist die Erklärung, wie das funktioniert, mit ein paar einfachen Vergleichen:

1. Das Zwei-Piloten-System (Dual-Agent)

Stellen Sie sich das Gehirn der Drohne nicht als einen einzelnen, überlasteten Menschen vor, sondern als ein Team aus zwei Spezialisten, die sich die Arbeit teilen:

  • Der schnelle Pilot (Decision Agent): Dieser Typ ist hyperaktiv. Er schaut ständig durch das Fenster (die Kamera) und sagt alle paar Millisekunden: „Jetzt ein bisschen nach links!", „Jetzt geradeaus!". Er sorgt dafür, dass die Drohne flüssig und schnell fliegt, ohne zu zögern.
  • Der ruhige Navigator (Monitoring Agent): Dieser Typ ist der erfahrene Kapitän. Er schaut nicht auf den nächsten Baum, sondern auf die gesamte Reise. Er prüft: „Haben wir den Briefkasten schon gesehen? Sind wir vom Kurs abgekommen? Müssen wir aufhören?"

Der Clou: Früher musste ein Gehirn beides gleichzeitig tun. Das führte zu Verzögerungen und Fehlern. OnFly trennt diese Aufgaben. Der schnelle Pilot fliegt, während der Navigator ruhig den Überblick behält. Sie nutzen sogar dieselben „Augen" (Kameradaten), aber jeder hat sein eigenes Notizbuch, damit sie sich nicht gegenseitig stören.

2. Das Gedächtnis-Album (Hybrid Memory)

Wenn eine Drohne lange fliegt, vergisst sie oft, wo sie herkommt. Frühere Systeme nutzten ein „Schlittenfenster"-Gedächtnis: Sie behielten nur die letzten paar Sekunden im Kopf und warfen alles Alte weg. Das ist wie ein Film, bei dem man die ersten 10 Minuten ständig löscht – am Ende weiß man nicht mehr, wo die Reise begann.

OnFly nutzt ein intelligentes Fotoalbum:

  • Es behält das erste Foto (Startpunkt) immer fest.
  • Es speichert wichtige Schlüsselfotos (z. B. an jeder Straßenecke oder jedem markanten Gebäude).
  • Und es hat das aktuelle Foto (wo wir gerade sind).

Dadurch weiß die Drohne immer noch, wo sie gestartet ist, auch nach einer langen Reise. Das ist wie ein GPS, das nicht nur „vor 5 Sekunden" zeigt, sondern den ganzen Weg im Kopf behält. Das verhindert, dass die Drohne sich verläuft oder ewig weiterfliegt, obwohl sie ihr Ziel schon erreicht hat.

3. Der Sicherheits-Check (Semantic-Geometric Verifier)

Manchmal sagt die künstliche Intelligenz: „Flieg zu dem roten Punkt da drüben!" Aber was, wenn hinter dem roten Punkt eine unsichtbare Wand ist? Oder wenn der rote Punkt eigentlich ein Vogel ist, der gerade wegfliegt?

OnFly hat einen doppelten Sicherheitscheck:

  1. Der Semantik-Check: „Passt das überhaupt zum Auftrag?" (Ist das wirklich der rote Briefkasten?)
  2. Der Geometrie-Check: „Ist der Weg frei?" (Gibt es dort einen Baum oder eine Mauer?)

Wenn die KI einen gefährlichen Punkt vorschlägt, korrigiert das System ihn sofort, genau wie ein erfahrener Fluglotsen, der sagt: „Nein, da vorne ist ein Hindernis, wir fliegen lieber 2 Meter weiter rechts."

4. Der flüssige Flugplan (Receding-Horizon Planner)

Sobald das Ziel sicher ist, berechnet ein spezieller Algorithmus die perfekte Flugbahn. Er sorgt dafür, dass die Drohne nicht nur „hin und her wackelt", sondern elegante Kurven fliegt und Kollisionen vermeidet. Das ist wie ein Rennfahrer, der nicht nur auf das Ziel schaut, sondern die Kurven so nimmt, dass er schnell und sicher ans Ziel kommt, ohne gegen die Leitplanken zu fahren.

Das Ergebnis

In Tests hat sich gezeigt, dass OnFly viel besser funktioniert als alles, was es vorher gab:

  • Mehr Erfolg: Die Drohne findet ihr Ziel viel öfter (von ca. 26 % auf fast 68 %).
  • Sicherer: Sie fliegt kaum noch gegen Hindernisse.
  • Schneller: Sie macht weniger unnötige Stopps und kommt schneller an.

Und das Beste: Alles läuft direkt auf der Drohne (onboard). Es braucht keine Internetverbindung oder einen Supercomputer im Hintergrund. Die Drohne ist also völlig autark und kann auch in abgelegenen Gebieten oder Katastrophengebieten eingesetzt werden.

Zusammenfassend: OnFly ist wie ein Drohnen-Team, bei dem ein schneller Pilot und ein kluger Navigator zusammenarbeiten, ein gutes Gedächtnis haben und immer auf Sicherheit achten – alles in einem kleinen Computer, der direkt auf der Drohne sitzt.