FindAnything: Open-Vocabulary and Object-Centric Mapping for Robot Exploration in Any Environment

Der Artikel stellt FindAnything vor, einen effizienten Open-World-Mapping-Framework, der durch die Aggregation von Vision-Language-Features auf Objektebene eine skalierbare, semantisch ausdrucksstarke und geometrisch präzise 3D-Kartierung für ressourcenbeschränkte Roboter in Echtzeit ermöglicht.

Sebastián Barbas Laina, Simon Boche, Sotiris Papatheodorou, Simon Schaefer, Jaehyung Jung, Helen Oleynikova, Stefan Leutenegger

Veröffentlicht 2026-03-09
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du schickst einen kleinen, fliegenden Roboter (eine Drohne) in ein völlig unbekanntes Gebäude, vielleicht ein altes Büro oder ein Haus nach einem Brand. Deine Aufgabe ist es, ihm zu sagen: „Such mir den Feuerlöscher!" oder „Zeig mir den Ausgang!", ohne dass du dem Roboter vorher eine Liste mit allen möglichen Gegenständen gegeben hast.

Das ist genau das Problem, das das Team um FindAnything gelöst hat. Hier ist die Erklärung, wie das funktioniert, ganz ohne komplizierte Fachbegriffe:

1. Das Problem: Der Roboter ist wie ein Tourist ohne Wörterbuch

Bisher konnten Roboter zwar sehen, wo Wände und Böden sind (das ist die Geometrie), aber sie wussten nicht wirklich, was sie sehen. Wenn sie einen roten Zylinder sahen, wussten sie nicht, ob das ein Feuerlöscher, eine Vase oder ein Mülltonne ist, es sei denn, man hat ihnen vorher genau diese drei Dinge beigebracht.

Neue KI-Modelle (die sogenannten „Vision-Language-Modelle") können Bilder und Sprache verbinden. Sie verstehen, dass ein Bild eines Feuerlöschers und das Wort „Feuerlöscher" zusammengehören. Das Problem: Diese Modelle sind riesig und brauchen viel Rechenleistung und Speicher. Eine kleine Drohne hat aber nur einen kleinen Akku und einen schwachen Computer an Bord. Wenn man diese KI direkt auf die Drohne packt und versucht, jedes einzelne Pixel eines riesigen Hauses zu speichern, würde der Speicher sofort voll sein – wie ein Rucksack, der platzt, weil man zu viele Steine hineingeworfen hat.

2. Die Lösung: FindAnything – Der kluge Bibliothekar

FindAnything ist wie ein extrem effizienter Bibliothekar, der eine riesige Karte von einem Gebäude erstellt, aber nicht jedes einzelne Buch einzeln aufschreibt.

Statt alles im Detail zu speichern, macht der Roboter Folgendes:

  • Er gruppiert Dinge zu „Objekten": Wenn die Drohne durch einen Raum fliegt, schaut sie nicht auf jedes einzelne Pixel. Sie nutzt eine KI (eSAM), die sagt: „Ah, da ist ein ganzer Stuhl, da ist eine Lampe, da ist eine Tür." Sie klebt diese Dinge wie Aufkleber auf die 3D-Karte.
  • Sie speichert nur die „Seele" der Objekte: Anstatt das ganze Bild des Stuhls zu speichern, speichert der Roboter nur eine Art „Gedanken-Code" (eine mathematische Repräsentation), der sagt: „Das hier ist ein Stuhl". Wenn du später fragst: „Wo sind Stühle?", sucht der Roboter nach diesem Code.
  • Die „Submaps" (Teilkarten): Stell dir vor, du zeichnest eine Karte von ganz Deutschland. Das wäre zu groß für ein kleines Notizbuch. FindAnything teilt das Gebäude stattdessen in viele kleine Zimmer-Karten auf. Wenn die Drohne in ein neues Zimmer kommt, erstellt sie eine neue kleine Karte. Das spart enorm viel Speicherplatz.

3. Der Trick: Wie man auf „Feuerlöscher" fragt

Das Geniale an FindAnything ist die Objekt-zentrierte Speicherung.

Stell dir vor, du hast einen Haufen Lego-Steine.

  • Die alten Methoden hätten versucht, jeden einzelnen Stein einzeln zu zählen und zu beschreiben. Das dauert ewig und braucht viel Platz.
  • FindAnything baut aus den Steinen erst kleine Türme (die Objekte). Wenn du dann fragst: „Wo sind die roten Türme?", sucht der Roboter nicht nach jedem roten Stein, sondern schaut nur, welche Türme rot sind.

Dadurch kann die Drohne:

  1. Schnell fliegen: Sie muss nicht jeden Pixel analysieren, sondern nur die „Objekte".
  2. Viel speichern: Sie braucht nur 40 % des Speichers anderer Systeme.
  3. Sprachlich fragen: Du kannst ihr sagen: „Geh zur Küche" oder „Such den Ausgang". Die Drohne übersetzt das Wort in ihren „Gedanken-Code" und schaut auf ihrer Karte, wo dieser Code am stärksten leuchtet.

4. Der Test: Rettungseinsatz in der Simulation

Die Forscher haben das System getestet, indem sie eine Drohne in einer Simulation durch ein brennendes Haus fliegen ließen.

  • Die Drohne flog los, ohne zu wissen, wie das Haus aussieht.
  • Sie baute live eine 3D-Karte auf.
  • Der Mensch sagte: „Finde den Feuerlöscher!"
  • Die Drohne scannte ihre Karte, fand den Bereich, der am ehesten wie ein Feuerlöscher aussieht (basierend auf dem Sprachcode), und flog dorthin.
  • Danach sagte der Mensch: „Zeig mir die Küche!" und die Drohne flog dorthin.

Das Wichtigste: Das alles passierte in Echtzeit auf einem kleinen Computer, der direkt an der Drohne saß (einem NVIDIA Jetson), ohne dass sie auf einen riesigen Server im Internet angewiesen war.

Zusammenfassung in einem Bild

Stell dir vor, du bist in einem riesigen, dunklen Lagerhaus.

  • Ohne FindAnything: Du müsstest jeden einzelnen Gegenstand von Hand anfassen, beschreiben und in ein riesiges Buch schreiben, bevor du weißt, wo was ist. Das dauert Jahre.
  • Mit FindAnything: Du hast eine intelligente Taschenlampe. Du leuchtest in eine Ecke und die Lampe sagt sofort: „Da ist ein Feuerlöscher". Du leuchtest weiter und sie sagt: „Da ist ein Stuhl". Du musst nichts aufschreiben; die Lampe merkt sich nur die groben Orte der Dinge. Wenn du sagst „Feuerlöscher", leuchtet sie sofort auf den richtigen Ort.

FindAnything ist also die Taschenlampe für Roboter, die es ihnen erlaubt, in unbekannten Welten zu navigieren, Dinge zu finden, nach denen man sie fragt, und das alles mit wenig Batteriestrom und kleinem Speicher. Ein großer Schritt für die Rettungstechnik und autonome Roboter!