WildOS: Open-Vocabulary Object Search in the Wild

Das Paper stellt WildOS vor, ein integriertes System für die offene Objektsuche in der Wildnis, das durch die Kombination von sicherer geometrischer Exploration und semantischer visueller Schlussfolgerung mittels eines auf Fundamentmodellen basierenden Ansatzes eine robuste und effiziente autonome Navigation in komplexen, unstrukturierten Umgebungen ermöglicht.

Hardik Shah, Erica Tevere, Deegan Atha, Marcel Kaufmann, Shehryar Khattak, Manthan Patel, Marco Hutter, Jonas Frey, Patrick Spieler

Veröffentlicht 2026-02-24
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie schicken einen Roboter in ein riesiges, unbekanntes Gelände – vielleicht einen dichten Wald, eine verlassene Baustelle oder eine fremde Stadt. Ihre Aufgabe für den Roboter lautet: „Finde das rote Haus" oder „Suche den gelben Müllcontainer".

Das Problem ist: Der Roboter hat keine Landkarte, und seine „Augen" (Sensoren) können nur wenige Meter weit sehen. Alles, was weiter weg ist, liegt im Dunkeln.

Die Forscher haben WildOS entwickelt, ein System, das genau dieses Problem löst. Hier ist die Erklärung, wie es funktioniert, ohne komplizierte Fachbegriffe:

1. Das Problem: Der „kurzsichtige" Roboter

Stellen Sie sich vor, Sie laufen durch einen dichten Nebel. Sie können nur sehen, was direkt vor Ihren Füßen ist. Wenn Sie versuchen, ein Ziel zu erreichen, das 100 Meter entfernt ist, laufen Sie oft gegen eine Wand oder in eine Sackgasse, weil Sie die große Übersicht nicht haben.

  • Reine Geometrie: Ein normaler Roboter schaut nur auf Hindernisse (Bäume, Steine). Er läuft geradeaus, bis er auf etwas stößt, und weicht dann aus. Das ist oft ineffizient und führt in Sackgassen.
  • Reine Vision: Ein Roboter, der nur auf Bilder schaut, sieht vielleicht einen schönen Weg im Hintergrund. Aber er vergisst sofort, wo er war, und läuft im Kreis, weil er keine „Erinnerung" hat.

2. Die Lösung: WildOS – Der Roboter mit „Gehirn" und „Gedächtnis"

WildOS kombiniert zwei Dinge, die wir Menschen auch nutzen:

  1. Ein Gedächtnis (Der Graph): Der Roboter baut sich eine Art „Punkte-und-Linien-Karte" im Kopf auf. Er merkt sich: „Hier war ich schon, hier ist ein Weg, hier ist eine Sackgasse." Das ist wie ein Wanderer, der sich markiert, wo er schon war, damit er nicht denselben Pfad zweimal geht.
  2. Ein „intelligentes Auge" (ExploRFM): Hier kommt die Magie der modernen KI ins Spiel. Der Roboter nutzt ein riesiges, vortrainiertes KI-Modell (ein sogenanntes Foundation Model), das die Welt wie ein Mensch versteht.

3. Wie funktioniert das „intelligente Auge"?

Stellen Sie sich vor, der Roboter schaut durch seine Kamera in die Ferne (hinter den Nebel hinaus).

  • Er sieht nicht nur Hindernisse: Er erkennt: „Da vorne ist Gras (sicher zum Laufen), aber da drüben ist ein Sumpf (gefährlich)."
  • Er erkennt „Einladungen": Er sieht Lücken zwischen Bäumen oder einen Weg, der sich um eine Kurve schlängelt. Diese nennt die Forscher „visuelle Frontiers". Es sind wie unsichtbare Wegweiser, die sagen: „Hier geht es weiter!"
  • Er versteht Sprache: Wenn Sie sagen „Finde das Haus", versteht der Roboter, wie ein Haus aussieht, und scannt das Bild danach ab, auch wenn er es noch nicht genau lokalisiert hat.

4. Der Trick mit dem „Schattenwurf" (Triangulation)

Das ist der cleverste Teil: Was passiert, wenn das Ziel 200 Meter entfernt ist, aber der Roboter nur 10 Meter weit sieht?

  • Der Roboter sieht das Ziel nur als kleinen Fleck im Bild. Er weiß nicht genau, wie weit weg es ist.
  • WildOS nutzt einen Trick: Der Roboter läuft ein Stück, dreht sich, und sieht das Ziel wieder. Durch die Veränderung des Blickwinkels (wie wenn Sie mit beiden Augen nacheinander blinzeln) kann er grob abschätzen, wo das Ziel im Raum liegt.
  • Er nutzt eine Art „Wahrscheinlichkeits-Wolke" (Partikel-Filter), um zu sagen: „Das Ziel ist wahrscheinlich da drüben, irgendwo in dieser Wolke." So kann er schon jetzt einen Plan schmieden, wie er dorthin kommt, ohne das Ziel genau zu berühren.

5. Die Entscheidung: Wohin laufen?

Jetzt hat der Roboter zwei Informationen:

  1. Die sichere Karte: „Ich darf nur auf gepflasterten Wegen laufen." (Geometrie)
  2. Die Vision: „Da vorne sieht ein Weg vielversprechend aus und führt zum Ziel." (Semantik)

WildOS verbindet beides. Es bewertet jeden möglichen nächsten Schritt. Ein Weg, der zwar kurz ist, aber durch einen Sumpf führt, bekommt eine schlechte Note. Ein Weg, der etwas länger ist, aber sicher und direkt zum Ziel führt, bekommt eine gute Note. Der Roboter wählt dann den besten Weg.

Zusammenfassung in einer Metapher

Stellen Sie sich WildOS wie einen erfahrenen Bergführer vor, der eine Landkarte (das Gedächtnis) und ein sehr scharfes Fernglas (die KI) hat.

  • Ein normaler Roboter ist wie ein Tourist, der nur auf seine Füße schaut und gegen Bäume läuft.
  • WildOS ist wie der Bergführer: Er weiß, wo er war (keine Sackgassen), er sieht im Fernglas einen schönen Pfad, der um den Berg führt, und er versteht, dass Sie zum „Haus" wollen, nicht nur zu einem beliebigen Punkt.

Das Ergebnis: Der Roboter findet Ziele in unwegsamem Gelände viel schneller, läuft nicht im Kreis und kommt sicher ans Ziel, auch wenn er die Welt nie zuvor gesehen hat. Das ist ein riesiger Schritt hin zu Robotern, die wirklich autonom in der echten Welt arbeiten können.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →