WildOS: Open-Vocabulary Object Search in the Wild

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot bent die de opdracht krijgt: "Zoek de grote NASA-bord" of "Vind de oranje vlag". Je staat midden in een onbekend, wild landschap met struiken, heuvels en misschien wel een omheining. Je hebt geen kaart, geen GPS en je kunt alleen kijken wat er direct voor je neus is.

Dit is het probleem dat de onderzoekers van WildOS proberen op te lossen. Hun robot moet niet alleen veilig lopen, maar ook slim nadenken over waar hij naartoe moet, zelfs als hij het doel niet direct kan zien.

Hier is hoe WildOS werkt, vertaald in een simpel verhaal met een paar creatieve vergelijkingen:

1. Het Probleem: De "Blinde Vlek"

Stel je voor dat je een zaklamp hebt die maar 10 meter verlicht. Alles daarbuiten is donker.

De oude manier: Robots kijken alleen naar wat ze kunnen zien (de 10 meter). Als er een muur in de weg staat, proberen ze er rechtstreeks tegenaan te lopen of draaien ze pas als ze er tegenaan stoten. Ze hebben geen idee dat er een smalle doorgang is die 50 meter verderop ligt, omdat hun "licht" daar niet komt.
Het doel: De robot moet kunnen "zien" met zijn ogen (de camera) tot ver voorbij de zaklamp, en begrijpen dat die smalle doorgang een goede route is, terwijl een muur een slechte route is.

2. De Oplossing: WildOS (De Slimme Verkenner)

WildOS is als een robot met twee superkrachten die samenwerken: een strategische kaart en een slimme bril.

Kracht 1: De Strategische Kaart (Het Netwerk)

Stel je voor dat de robot een spinnenweb bouwt terwijl hij loopt.

Elke keer als hij een stukje veilige grond loopt, zet hij een stip op zijn web.
Hij onthoudt waar hij al geweest is en waar de muren zijn.
Dit is zijn navigatiegrafiek. Het zorgt ervoor dat hij niet in cirkels loopt of dezelfde struik twee keer probeert te passeren. Het is zijn geheugen.

Kracht 2: De Slimme Bril (ExploRFM)

Dit is het echte wonder. De robot draagt een bril die is getraind op duizenden foto's van de wereld. Deze bril heet ExploRFM.

Wat ziet hij? Hij kijkt niet alleen naar "muur" of "weg". Hij begrijpt de betekenis. Hij ziet: "Dat is gras, daar kan ik over lopen," of "Dat is een pad dat verder gaat," of "Dat is een opening tussen bomen."
De Visuele Horizon: Waar de zaklamp (de laser) ophoudt, begint de bril te kijken. De bril kan zien dat er 100 meter verderop een mooi pad is, zelfs als de robot dat nog niet fysiek kan bereiken.

3. Hoe werken ze samen? (De Dans tussen Kaart en Bril)

Normaal gesproken kiezen robots alleen voor de dichtstbijzijnde rand van hun kaart. WildOS doet iets slimmers:

De Scan: De robot kijkt naar zijn "spinnenweb" en kijkt naar de randen (de plekken waar hij nog niet is geweest).
De Score: Hij projecteert die randen op zijn camera-beeld. Zijn "slimme bril" geeft een score:
- Is daar een muur? -> Slechte score.
- Is daar een mooi pad dat naar het doel leidt? -> Goede score.
- Zie ik ergens een opening tussen struiken? -> Zeer goede score!
De Beslissing: De robot kiest niet de dichtstbijzijnde rand, maar de rand met de beste score. Hij loopt dus niet blindelings naar het doel, maar zoekt de makkelijkste route die de bril ziet.

4. Het Magische Gokje: Drie-dimensionaal Schatzoeken

Wat als het doel (bijvoorbeeld de "NASA-bord") 200 meter weg is, achter een heuvel? De robot kan het zien, maar weet niet precies waar het is in de ruimte.

WildOS gebruikt een trucje met deeltjes (zoals stofjes in een zonnestraal).
De robot neemt foto's vanuit verschillende hoeken. Hij "gokt" waar het object zou kunnen zijn op basis van hoe het eruitziet.
Door deze gokken te combineren, krijgt hij een grove schatting: "Het doel zit daar, ergens in die richting."
Hierdoor kan de robot alvast plannen om daar naartoe te gaan, zelfs voordat hij het doel precies kan aanraken.

5. Het Resultaat: Waarom is dit beter?

In tests in het veld (met echte robots die over ongelijk terrein lopen) bleek WildOS veel slimmer dan de oude methoden:

Oude robots: Liepen vaak vast in doodlopende straten of liepen in cirkels omdat ze hun eerdere fouten niet onthielden.
WildOS: Ziet de doodlopende straat al van ver (via de bril), draait slim om, en kiest het andere pad dat eruitziet als een goede route. Het gedraagt zich meer als een mens die intuitief voelt welke weg veilig is.

Samenvatting in één zin

WildOS is als een robot die een kaart van zijn verleden heeft én een slimme bril die de toekomst ziet, waardoor hij niet vastloopt in het onbekende, maar slim en veilig zijn weg vindt naar elk doel dat je hem noemt.

Each language version is independently generated for its own context, not a direct translation.

Titel: WildOS: Open-Vocabulary Object Search in the Wild

Auteurs: Hardik Shah et al. (JPL/Caltech, ETH Zürich, FieldAI Inc., Stanford, UC Berkeley)

1. Probleemstelling

Autonome robots die opereren in complexe, ongestructureerde buitenomgevingen (zoals zoek- en reddingsoperaties of milieu-monitoring) staan voor drie fundamentele uitdagingen:

Beperkt waarnemingsbereik: Robots vertrouwen vaak op LiDAR of dieptekamers, maar deze hebben een beperkt bereik (vaak <10-15m). Voorbij dit bereik wordt de omgeving onbekend en is dieptedata schaap of ruis. Bestaande systemen die puur op geometrie vertrouwen, worden hierdoor "kortzichtig" (myopisch) en kiezen vaak inefficiënte routes of botsen met onzichtbare obstakels.
Gebrek aan semantisch inzicht: Puur geometrische exploratie negeert waardevolle visuele informatie in afbeeldingen (zoals paden tussen bomen of veilige doorgangen) die verder reiken dan het dieptebereik. Bestaande visuele methoden missen echter vaak ruimtelijk geheugen, wat leidt tot herhaaldelijk verkennen van dezelfde gebieden of oscillerend gedrag.
Open-vocabulary doelen: Robots moeten objecten vinden die worden beschreven in natuurlijke taal (bijv. "vind het huis") zonder vooraf bestaande kaarten. Het lokaliseren van deze doelen die ver buiten het directe sensorbereik liggen, is moeilijk omdat er geen nauwkeurige 3D-coördinaten beschikbaar zijn.

Het doel is een systeem te bouwen dat veilige geometrische exploratie combineert met semantisch visueel redeneren voor langeafstands-navigatie en objectzoekopdrachten.

2. Methodologie: Het WildOS Systeem

WildOS is een unified, real-time systeem dat vijf hoofdcomponenten integreert om visuele en geometrische redenering te combineren:

A. Navigatiegrafiek (Navigation Graph)

In plaats van een dichte voxel-kaart (die te veel geheugen vraagt), bouwt WildOS een spare topologische grafiek.

Knopen: Vertegenwoordigen bereikbare locaties.
Randen: Encoderen de doorloopbaarheid (traversability) tussen knopen.
Geometrische frontiers: Knopen aan de grens van bekende en onbekende ruimte dienen als kandidaten voor exploratie.
Voordeel: Dit biedt een geheugen-efficiënte structuur voor ruimtelijk geheugen over lange afstanden, waardoor de robot weet waar hij al geweest is.

B. ExploRFM (Exploration and Object Reasoning Foundation Model)

Dit is het visuele "brein" van het systeem, gebaseerd op een Vision Foundation Model (RADIO). Het verwerkt de huidige RGB-afbeelding en een tekstquery om drie dichte kaarten te voorspellen:

Visuele doorloopbaarheid ( $T^{vis}$ ): Bepaalt welke pixels veilig zijn om over te lopen (bijv. gras vs. water), zelfs ver voorbij het LiDAR-bereik.
Visuele frontiers ( $F^{vis}$ ): Identificeert gebieden in de afbeelding die leiden tot nieuwe observaties (bijv. het einde van een pad of een opening tussen obstakels).
Object-similariteit ( $S^{vis}$ ): Lokaliseert gebieden in de afbeelding die overeenkomen met de tekstquery (bijv. "NASA-logo").

C. Grof Doel-Lokalisatie (Coarse Goal Localization)

Om doelen te lokaliseren die ver buiten het bereik van de LiDAR liggen, gebruikt WildOS een partikelfilter-gebaseerde triangulatie.

Wanneer het object in meerdere beelden wordt gedetecteerd, worden 3D-deeltjes gegenereerd langs de stralen van de camera's.
Deze deeltjes worden gewogen op basis van hun consistentie met meerdere zichtlijnen.
Het resultaat is een ruwe 3D-schatting van de doellocatie ( $\hat{p}_{goal}$ ), wat het mogelijk maakt om gerichte plannen te maken voor doelen die honderden meters weg zijn.

D. Scored Navigation Graph (Gegradeerde Navigatiegrafiek)

Dit is de kerninnovatie: het combineren van de geometrische grafiek met visuele scores.

Geometrische frontiers worden geprojecteerd op het beeldvlak.
Elke frontier krijgt een visueel-semantische score gebaseerd op:
- Doel-gerichtheid: Hoe goed wijst de frontier naar het geschatte doel?
- Bereikbaarheid: Is er een veilig pad in de afbeelding naar een visuele frontier?
- Frontier-kwaliteit: Is het een veelbelovend gebied om te verkennen?
De planner gebruikt deze scores om te kiezen welke frontier het meest belooft, in plaats van blind naar het doel te lopen.

E. Hiërarchische Planning

Een hoog-niveau planner zoekt een pad door de gegradeerde grafiek naar het geschatte doel.
Een lokaal planner (Nav2) voert de bewegingen uit en zorgt voor dynamische haalbaarheid en veiligheid op korte afstand.

3. Belangrijkste Bijdragen

WildOS Systeem: Een unificatie van geometrische en visuele redenering voor langeafstands-navigatie in ongestructureerde omgevingen.
ExploRFM Module: Een op foundation models gebaseerd netwerk dat doorloopbaarheid, visuele frontiers en object-similariteit gelijktijdig voorspelt in beeldruimte.
Visueel Gegradeerde Grafiek: Een nieuwe topologische mapping-aanpak die geometrische frontiers scant met semantische cues, waardoor exploratie prioriteit krijgt richting visueel veelbelovende gebieden.
Lokalisatie voorbij het Horizon: Een partikelfilter-estimator die doelen lokaliseert buiten het dieptebereik van de robot, wat doelbewuste planning mogelijk maakt.
Veldvalidatie: Uitgebreide gesloten-lus experimenten in diverse terreinen (off-road en stedelijk) die aantonen dat het systeem superieur is aan bestaande methoden.

4. Resultaten en Experimenten

De auteurs hebben WildOS getest op een Boston Dynamics Spot-robot in diverse omgevingen (off-road, bossen, stedelijke gebieden).

Object Zoekopdrachten: Het systeem slaagde erin om objecten zoals een "NASA-logo", "oranje vlag" en "golfkar" te vinden en te bereiken op basis van tekst, zelfs als deze ver weg of gedeeltelijk verstop waren. De triangulatie leverde nauwkeurige 3D-schattingen op.
Vergelijking met Baselines:
- Tegenover puur geometrische methoden (Vanilla GraphNav): WildOS was aanzienlijk efficiënter. Waar de geometrische methode recht op obstakels liep en pas omkeerde toen ze dichtbij waren, zag WildOS de openingen in de afbeelding en koos direct de beste route.
- Tegenover puur visuele methoden (LRN): LRN faalde vaak door gebrek aan geheugen, wat leidde tot oscillerend gedrag (heen en weer gaan) in doorgangen of doodlopende wegen. WildOS gebruikte de grafiek om doodlopen te herkennen en effectief om te sturen.
Generalisatie: Het systeem generaliseerde uitstekend naar nieuwe omgevingen (zoals stedelijke gebieden) zonder extra training, dankzij de kracht van de foundation model-features.
Kwantitatieve verbetering: WildOS toonde kortere trajecten, minder reistijd en lagere variantie in prestaties vergeleken met state-of-the-art baselines.

5. Betekenis en Conclusie

WildOS markeert een belangrijke stap in de richting van robuuste, autonome robots voor "in het wild" toepassingen. Het paper demonstreert dat:

Visuele foundation modellen effectief kunnen worden gebruikt voor robotica, niet alleen voor classificatie, maar voor actieve navigatie en planning.
De combinatie van ruimtelijk geheugen (grafiek) en semantisch inzicht (visie) essentieel is voor langeafstands-navigatie. Zonder geheugen raakt de robot de weg kwijt; zonder visie loopt de robot vast in obstakels die verder weg liggen dan de sensoren kunnen zien.
Het mogelijk is om robots te laten navigeren naar objecten die beschreven zijn in natuurlijke taal, zonder vooraf bestaande kaarten of menselijke tussenkomst.

De auteurs benadrukken dat dit werk de weg vrijmaakt voor meer algemene, doelgerichte robotische exploratie in complexe, onbekende werelden.