ViSA-Enhanced Aerial VLN: A Visual-Spatial Reasoning Enhanced Framework for Aerial Vision-Language Navigation

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een drone bestuurt die als een slimme koerier door een grote stad vliegt. De opdracht is simpel: "Ga naar dat rode autootje dat achter het tramdepot staat."

Maar hier is het probleem: de drone kijkt vanuit de lucht (een vogelperspectief), en de stad is een wirwar van gebouwen, straten en auto's. De oude methoden om deze drones te besturen waren als een mens die probeert een stad te navigeren door alleen een lijstje met woorden te lezen, zonder echt naar de kaart te kijken. Ze maakten vaak fouten: ze dachten dat een auto ergens was, terwijl hij ergens anders stond, of ze raakten de weg kwijt omdat de taal ("achter", "tussen", "onder") verwarrend was.

De auteurs van dit paper, ViSA, hebben een nieuwe manier bedacht om deze drone slim te maken. Ze noemen hun systeem een "Visueel-Spatieel Redenerend Raamwerk". Laten we dit uitleggen met een paar creatieve vergelijkingen.

1. Het oude probleem: De "Woordenboeken-Drones"

Vroeger probeerden drones om objecten te vinden door eerst een lijst te maken van wat ze zagen (bijv. "auto", "gebouw") en dit om te zetten in tekst. Vervolgens probeerden ze op basis van die tekst te redeneren.

De analogie: Dit is alsof je een blindeman bent die iemand vraagt om een rode auto te vinden. De blindeman laat iemand anders een lijstje maken met "rode auto's" en "gebouwen", en probeert dan op basis van die lijst te raden waar de auto staat. Het werkt niet goed, omdat de ruimte (de afstand, de richting) verloren gaat in de tekst. De drone raakt in de war en hallucineert (droomt) dat er objecten zijn die er niet zijn.

2. De ViSA-oplossing: De "Drie-Fase Detective"

ViSA lost dit op door de drone te laten denken als een slimme detective die direct naar de foto kijkt, in plaats van naar een beschrijving. Ze hebben het proces opgedeeld in drie stappen, zoals een goed georganiseerd team:

Stap 1: De "Sticker-Maker" (Perceptie)

Stel je voor dat de drone een foto maakt van de stad. In plaats van de foto gewoon te laten zien, plakt de drone stickers op de foto.

Hoe het werkt: Een slimme AI (een Vision-Language Model) kijkt naar de foto en plakt een sticker met een nummer (bijv. ①, ②, ③) op elke auto, elk gebouw en elke straat.
De analogie: Het is alsof je een foto van een drukke markt maakt en met een stift op de foto schrijft: "Hier is de bakker", "Daar is de rode auto". Dit maakt het voor de drone veel makkelijker om te praten over specifieke plekken. "Kijk naar sticker ①" is veel duidelijker dan "kijk naar die auto ergens links".

Stap 2: De "Drie-Stage Controleur" (Verificatie)

Nu heeft de drone de foto met stickers. Maar de opdracht was: "De rode auto achter het tramdepot". De drone moet nu controleren of dit klopt. Dit doet het in drie lagen, net als een veiligheidscontrole op een vliegveld:

Letterlijke Check: Is het object wel een rode auto? (Ja/Neen).
Ruimtelijke Check: Staat die auto echt achter het depot? Of staat hij er voor? De drone kijkt direct naar de foto en de stickers, niet naar een tekst.
Locatie-Check: Zit de auto op de juiste straat?

De analogie: Stel je voor dat je een detective bent die een verdachte zoekt. Je kijkt niet alleen of hij een rode jas draagt (Stap 1), maar je kijkt ook of hij echt achter het politiebureau staat (Stap 2) en of hij op het juiste adres is (Stap 3). Als de drone ziet dat de "rode auto" eigenlijk voor het depot staat, zegt hij: "Nee, dat is niet de juiste!" en zoekt hij verder. Dit voorkomt dat de drone in de war raakt door slechte taal.

Stap 3: De "Piloot" (Uitvoering)

Zodra de "Controleur" zegt: "Ja, dit is de juiste auto!", moet de drone er naartoe vliegen.

De analogie: De "Controleur" is de strateeg die zegt: "We gaan naar die plek." Maar de "Piloot" is de handelaar die de knoppen indrukt. Ze zijn gescheiden. De strateeg zegt niet "draai links, ga 1 meter vooruit", maar zegt gewoon "Ga naar die coördinaten". De piloot regelt dan zelf hoe hij daar komt. Dit zorgt ervoor dat de drone niet vastloopt in een eindeloze lus van kleine bewegingen.

Waarom is dit zo goed?

De paper laat zien dat deze methode 70% beter werkt dan de beste bestaande methoden, zelfs zonder dat de drone eerst duizenden uren heeft geoefend (zero-shot).

Geen hallucinaties: Omdat de drone direct naar de foto kijkt en stickers gebruikt, droomt hij niet dat er auto's zijn die er niet zijn.
Slimme taal: Als de opdracht zegt "onder het parkeergarage" (wat fysiek onmogelijk is vanuit de lucht), begrijpt de drone dat dit waarschijnlijk "op het parkeergarage" betekent, omdat hij naar de visuele werkelijkheid kijkt.
Snelheid: Het werkt direct, zonder dat je eerst een hele dure training nodig hebt.

Samenvattend

ViSA is als het geven van een bril aan een drone die eerst in de war was. In plaats van te vertrouwen op een verwarrende tekstbeschrijving, plakt de drone stickers op de echte wereld (de foto's), laat een slimme controleur alles drie keer checken tegen de foto, en stuurt dan een gespecialiseerde piloot om het doel te bereiken. Het resultaat is een drone die veel minder fouten maakt en precies weet waar hij moet zijn, zelfs in een complexe stad.

Each language version is independently generated for its own context, not a direct translation.

Titel: ViSA-Enhanced Aerial VLN: Een Visueel-Ruimtelijk Redenerings Framework voor Aeriële Visueel-Taal Navigatie

1. Het Probleem

Aeriële Visueel-Taal Navigatie (VLN) vereist dat onbemande luchtvaartuigen (UAV's) complexe omgevingen navigeren op basis van natuurlijke taal-instructies. In tegenstelling tot grondrobots die zich beperken tot 2D-vlakken, opereren UAV's in een 3D-ruimte, wat unieke uitdagingen stelt op het gebied van ruimtelijk redeneren en omgevingsbegrip.

Bestaande methoden lijden onder drie kritieke beperkingen:

Gebrek aan ruimtelijk redeneren: Traditionele pipelines gebruiken een "detectie-en-planning"-benadering waarbij open-vocabulaire detectie wordt omgezet in discrete tekstuele scenes graphs. Dit leidt tot onvoldoende ruimtelijke redenering.
Taalambiguïteit en hallucinaties: Discrete tekstuele representaties kunnen continue ruimtelijke lay-outs niet reconstrueren, wat leidt tot "relatie-hallucinaties" (waarbij de agent ruimtelijke relaties verzonnen die niet overeenkomen met de visuele feiten).
Domeinverschil: Bestaande Vision-Language Models (VLM's), vaak getraind op gronddata, worstelen met de unieke top-down perspectieven en schaalvariaties van aeriële beelden, wat resulteert in beperkte ruimtelijke scherpte.

2. Methodologie: Het ViSA Framework

De auteurs stellen ViSA (Visual-Spatial Reasoning) voor, een zero-shot framework dat geen extra training vereist. Het framework gebruikt een triple-phase collaboratieve architectuur om ruimtelijk redeneren strikt binnen het visuele modus te houden, in plaats van te vertrouwen op tekstuele tussenrepresentaties.

De drie fasen zijn:

Fase 1: Perceptie (Visual Prompt Generator - VPG)
- De VPG verwerkt ruwe vogelvluchtopnames (bird's-eye view) en gebruikt de native open-vocabulaire detectiecapaciteiten van een VLM.
- In plaats van alleen objecten te detecteren, partitioneert de VPG het beeld in gebieden met variërende granulariteit en overlapt deze met Set-of-Mark (SoM) annotaties (numerieke ID's zoals ①, ②).
- Dit creëert een gestructureerde visuele representatie ( $V_{som}$ ) die het VLM in staat stelt om precieze ruimtelijke analyse uit te voeren zonder voorafgaande filtering op vertrouwen.
Fase 2: Verificatie (Verification Module - VM)
- Deze module voert een expliciete Three-Stage Verification Reasoning uit direct op het beeldvlak om hallucinaties te voorkomen:
  1. Letterlijke Attribuut Matching: Controleert of zichtbare kenmerken overeenkomen met de instructie (bijv. "rode auto").
  2. Ruimtelijke Topologie Verificatie: Verifieert ruimtelijke relaties (bijv. "achter", "naast") door te verwijzen naar de SoM-ID's in plaats van tekstuele scene graphs.
  3. Geografische Grensvalidatie: Controleert of kandidaten binnen de juiste geografische context liggen ten opzichte van bekende landmarks.
- Als de bewijslast onvoldoende is, geeft de VM een natuurlijke taal-feedbacksignaal ( $g$ ) terug naar de VPG om de zoekopdracht te verfijnen (gesloten lus).
Fase 3: Executie (Semantic-Motion Decoupled Executor)
- Deze module koppelt hoge-level semantische beslissingen los van lage-level bewegingscontrole.
- Het vertaalt beslissingen naar drie taakprimitieven:
  - Stop: Projecteert het 2D-pixelcentrum van het doel naar 3D-wereldcoördinaten (gebaseerd op camera-intrinsiek en hoogte) om direct naartoe te vliegen.
  - Move: Vliegt naar vooraf berekende waypoints die zijn gegenereerd op basis van landmark-contouren.
  - Ascend/Descend: Past de hoogte aan om het gezichtsveld (FOV) te optimaliseren.

3. Belangrijkste Bijdragen

ViSA Framework: Een zero-shot architectuur die ruimtelijke redeneringshallucinaties in aeriële navigatie aanpakt door de taak te herstructureren in Perceptie, Verificatie en Executie.
Gestructureerde Visuele Prompting: Introductie van een VPG die SoM-annotaties gebruikt om het VLM te voorzien van een gestructureerde visuele representatie voor nauwkeurige ruimtelijke analyse.
Expliciete Drie-Staps Verificatie: Een nieuwe redeneringsmethode die ruimtelijke logica strikt verankert in het visuele modus, wat superieur is aan tekstcentrische benaderingen.
Semantic-Motion Decoupling: Een Executor die semantische beslissingen koppelt aan fysieke acties via landmark-gebaseerde waypoint-generatie, waardoor de kloof tussen redeneren en vliegen wordt overbrugd.

4. Resultaten

Het framework is geëvalueerd op de CityNav benchmark (een dataset met aeriële beelden en instructies).

Prestaties t.o.v. State-of-the-Art (SOTA):
- ViSA behaalde een Success Rate (SR) van 36,11% op de Test-Unseen split.
- Dit is een verbetering van 70,3% ten opzichte van de volledig getrainde SOTA-methode (FlightGPT), die 21,20% SR behaalde.
- ViSA overtreft ook andere getrainde methoden zoals MGP (SR verbetering van 466%) en Seq2Seq.
Zero-Shot Vergelijking:
- ViSA presteert aanzienlijk beter dan andere zero-shot methoden (zoals GeoNav en Qwen3-VL-PLUS) op alle moeilijkheidsgraden (Easy, Medium, Hard).
- De Success Rate voor ViSA op de "Easy" taak is 30,19%, vergeleken met 26,53% voor GeoNav.
Ablatie Studies:
- Het verwijderen van de Visual Prompting (VPG) of de Verificatie-Redenering leidt tot een drastische daling in SR (van 30,19% naar respectievelijk 20,83% en 20,14%).
- Het verwijderen van de Executor (waardoor het VLM direct lage-level acties moet uitvoeren) resulteert in een bijna volledig falen (SR daalt naar 9,51%), wat aantoont dat de decoupling essentieel is.

5. Betekenis en Toekomstperspectief

Dit werk toont aan dat gespecialiseerde training niet noodzakelijk is om superieure aeriële navigatie te bereiken. Door slimme architecturale ontwerpen (gestructureerde visuele prompts en expliciete verificatie) kunnen algemene VLM's beter presteren dan gespecialiseerde, getrainde modellen.

Beperkingen en Toekomstig Werk:

Latentie: Afhankelijkheid van grote VLM-API's beperkt real-time inzet op randapparatuur.
3D Perceptie: Het huidige systeem mist actieve 3D-perceptie (zoals kantelen van de camera) om verticale obstructies volledig op te lossen.
Afhankelijkheid van Priors: Het framework is momenteel afhankelijk van vooraf bekende landmark-contouren. Toekomstig werk richt zich op het integreren van multimodale wereldmodellen voor volledig autonome exploratie in onbekende omgevingen zonder priors.

Samenvattend biedt ViSA een robuust, schaalbaar en hoogpresterend alternatief voor bestaande aeriële VLN-systemen door de nadruk te leggen op visuele continuïteit en expliciete ruimtelijke verificatie.