WildOS: Open-Vocabulary Object Search in the Wild

Dit paper introduceert WildOS, een geïntegreerd systeem dat fundatieel visuele modellen combineert met veilige geometrische verkenning en deeltjesfilter-lokalisatie, waardoor robots open-vocabulaire objecten kunnen zoeken in complexe, ongestructureerde buitenomgevingen zonder vooraf bestaande kaarten.

Hardik Shah, Erica Tevere, Deegan Atha, Marcel Kaufmann, Shehryar Khattak, Manthan Patel, Marco Hutter, Jonas Frey, Patrick Spieler

Gepubliceerd 2026-02-24
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot bent die de opdracht krijgt: "Zoek de grote NASA-bord" of "Vind de oranje vlag". Je staat midden in een onbekend, wild landschap met struiken, heuvels en misschien wel een omheining. Je hebt geen kaart, geen GPS en je kunt alleen kijken wat er direct voor je neus is.

Dit is het probleem dat de onderzoekers van WildOS proberen op te lossen. Hun robot moet niet alleen veilig lopen, maar ook slim nadenken over waar hij naartoe moet, zelfs als hij het doel niet direct kan zien.

Hier is hoe WildOS werkt, vertaald in een simpel verhaal met een paar creatieve vergelijkingen:

1. Het Probleem: De "Blinde Vlek"

Stel je voor dat je een zaklamp hebt die maar 10 meter verlicht. Alles daarbuiten is donker.

  • De oude manier: Robots kijken alleen naar wat ze kunnen zien (de 10 meter). Als er een muur in de weg staat, proberen ze er rechtstreeks tegenaan te lopen of draaien ze pas als ze er tegenaan stoten. Ze hebben geen idee dat er een smalle doorgang is die 50 meter verderop ligt, omdat hun "licht" daar niet komt.
  • Het doel: De robot moet kunnen "zien" met zijn ogen (de camera) tot ver voorbij de zaklamp, en begrijpen dat die smalle doorgang een goede route is, terwijl een muur een slechte route is.

2. De Oplossing: WildOS (De Slimme Verkenner)

WildOS is als een robot met twee superkrachten die samenwerken: een strategische kaart en een slimme bril.

Kracht 1: De Strategische Kaart (Het Netwerk)

Stel je voor dat de robot een spinnenweb bouwt terwijl hij loopt.

  • Elke keer als hij een stukje veilige grond loopt, zet hij een stip op zijn web.
  • Hij onthoudt waar hij al geweest is en waar de muren zijn.
  • Dit is zijn navigatiegrafiek. Het zorgt ervoor dat hij niet in cirkels loopt of dezelfde struik twee keer probeert te passeren. Het is zijn geheugen.

Kracht 2: De Slimme Bril (ExploRFM)

Dit is het echte wonder. De robot draagt een bril die is getraind op duizenden foto's van de wereld. Deze bril heet ExploRFM.

  • Wat ziet hij? Hij kijkt niet alleen naar "muur" of "weg". Hij begrijpt de betekenis. Hij ziet: "Dat is gras, daar kan ik over lopen," of "Dat is een pad dat verder gaat," of "Dat is een opening tussen bomen."
  • De Visuele Horizon: Waar de zaklamp (de laser) ophoudt, begint de bril te kijken. De bril kan zien dat er 100 meter verderop een mooi pad is, zelfs als de robot dat nog niet fysiek kan bereiken.

3. Hoe werken ze samen? (De Dans tussen Kaart en Bril)

Normaal gesproken kiezen robots alleen voor de dichtstbijzijnde rand van hun kaart. WildOS doet iets slimmers:

  1. De Scan: De robot kijkt naar zijn "spinnenweb" en kijkt naar de randen (de plekken waar hij nog niet is geweest).
  2. De Score: Hij projecteert die randen op zijn camera-beeld. Zijn "slimme bril" geeft een score:
    • Is daar een muur? -> Slechte score.
    • Is daar een mooi pad dat naar het doel leidt? -> Goede score.
    • Zie ik ergens een opening tussen struiken? -> Zeer goede score!
  3. De Beslissing: De robot kiest niet de dichtstbijzijnde rand, maar de rand met de beste score. Hij loopt dus niet blindelings naar het doel, maar zoekt de makkelijkste route die de bril ziet.

4. Het Magische Gokje: Drie-dimensionaal Schatzoeken

Wat als het doel (bijvoorbeeld de "NASA-bord") 200 meter weg is, achter een heuvel? De robot kan het zien, maar weet niet precies waar het is in de ruimte.

  • WildOS gebruikt een trucje met deeltjes (zoals stofjes in een zonnestraal).
  • De robot neemt foto's vanuit verschillende hoeken. Hij "gokt" waar het object zou kunnen zijn op basis van hoe het eruitziet.
  • Door deze gokken te combineren, krijgt hij een grove schatting: "Het doel zit daar, ergens in die richting."
  • Hierdoor kan de robot alvast plannen om daar naartoe te gaan, zelfs voordat hij het doel precies kan aanraken.

5. Het Resultaat: Waarom is dit beter?

In tests in het veld (met echte robots die over ongelijk terrein lopen) bleek WildOS veel slimmer dan de oude methoden:

  • Oude robots: Liepen vaak vast in doodlopende straten of liepen in cirkels omdat ze hun eerdere fouten niet onthielden.
  • WildOS: Ziet de doodlopende straat al van ver (via de bril), draait slim om, en kiest het andere pad dat eruitziet als een goede route. Het gedraagt zich meer als een mens die intuitief voelt welke weg veilig is.

Samenvatting in één zin

WildOS is als een robot die een kaart van zijn verleden heeft én een slimme bril die de toekomst ziet, waardoor hij niet vastloopt in het onbekende, maar slim en veilig zijn weg vindt naar elk doel dat je hem noemt.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →