FindAnything: Open-Vocabulary and Object-Centric Mapping for Robot Exploration in Any Environment

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du schickst einen kleinen, fliegenden Roboter (eine Drohne) in ein völlig unbekanntes Gebäude, vielleicht ein altes Büro oder ein Haus nach einem Brand. Deine Aufgabe ist es, ihm zu sagen: „Such mir den Feuerlöscher!" oder „Zeig mir den Ausgang!", ohne dass du dem Roboter vorher eine Liste mit allen möglichen Gegenständen gegeben hast.

Das ist genau das Problem, das das Team um FindAnything gelöst hat. Hier ist die Erklärung, wie das funktioniert, ganz ohne komplizierte Fachbegriffe:

1. Das Problem: Der Roboter ist wie ein Tourist ohne Wörterbuch

Bisher konnten Roboter zwar sehen, wo Wände und Böden sind (das ist die Geometrie), aber sie wussten nicht wirklich, was sie sehen. Wenn sie einen roten Zylinder sahen, wussten sie nicht, ob das ein Feuerlöscher, eine Vase oder ein Mülltonne ist, es sei denn, man hat ihnen vorher genau diese drei Dinge beigebracht.

Neue KI-Modelle (die sogenannten „Vision-Language-Modelle") können Bilder und Sprache verbinden. Sie verstehen, dass ein Bild eines Feuerlöschers und das Wort „Feuerlöscher" zusammengehören. Das Problem: Diese Modelle sind riesig und brauchen viel Rechenleistung und Speicher. Eine kleine Drohne hat aber nur einen kleinen Akku und einen schwachen Computer an Bord. Wenn man diese KI direkt auf die Drohne packt und versucht, jedes einzelne Pixel eines riesigen Hauses zu speichern, würde der Speicher sofort voll sein – wie ein Rucksack, der platzt, weil man zu viele Steine hineingeworfen hat.

2. Die Lösung: FindAnything – Der kluge Bibliothekar

FindAnything ist wie ein extrem effizienter Bibliothekar, der eine riesige Karte von einem Gebäude erstellt, aber nicht jedes einzelne Buch einzeln aufschreibt.

Statt alles im Detail zu speichern, macht der Roboter Folgendes:

Er gruppiert Dinge zu „Objekten": Wenn die Drohne durch einen Raum fliegt, schaut sie nicht auf jedes einzelne Pixel. Sie nutzt eine KI (eSAM), die sagt: „Ah, da ist ein ganzer Stuhl, da ist eine Lampe, da ist eine Tür." Sie klebt diese Dinge wie Aufkleber auf die 3D-Karte.
Sie speichert nur die „Seele" der Objekte: Anstatt das ganze Bild des Stuhls zu speichern, speichert der Roboter nur eine Art „Gedanken-Code" (eine mathematische Repräsentation), der sagt: „Das hier ist ein Stuhl". Wenn du später fragst: „Wo sind Stühle?", sucht der Roboter nach diesem Code.
Die „Submaps" (Teilkarten): Stell dir vor, du zeichnest eine Karte von ganz Deutschland. Das wäre zu groß für ein kleines Notizbuch. FindAnything teilt das Gebäude stattdessen in viele kleine Zimmer-Karten auf. Wenn die Drohne in ein neues Zimmer kommt, erstellt sie eine neue kleine Karte. Das spart enorm viel Speicherplatz.

3. Der Trick: Wie man auf „Feuerlöscher" fragt

Das Geniale an FindAnything ist die Objekt-zentrierte Speicherung.

Stell dir vor, du hast einen Haufen Lego-Steine.

Die alten Methoden hätten versucht, jeden einzelnen Stein einzeln zu zählen und zu beschreiben. Das dauert ewig und braucht viel Platz.
FindAnything baut aus den Steinen erst kleine Türme (die Objekte). Wenn du dann fragst: „Wo sind die roten Türme?", sucht der Roboter nicht nach jedem roten Stein, sondern schaut nur, welche Türme rot sind.

Dadurch kann die Drohne:

Schnell fliegen: Sie muss nicht jeden Pixel analysieren, sondern nur die „Objekte".
Viel speichern: Sie braucht nur 40 % des Speichers anderer Systeme.
Sprachlich fragen: Du kannst ihr sagen: „Geh zur Küche" oder „Such den Ausgang". Die Drohne übersetzt das Wort in ihren „Gedanken-Code" und schaut auf ihrer Karte, wo dieser Code am stärksten leuchtet.

4. Der Test: Rettungseinsatz in der Simulation

Die Forscher haben das System getestet, indem sie eine Drohne in einer Simulation durch ein brennendes Haus fliegen ließen.

Die Drohne flog los, ohne zu wissen, wie das Haus aussieht.
Sie baute live eine 3D-Karte auf.
Der Mensch sagte: „Finde den Feuerlöscher!"
Die Drohne scannte ihre Karte, fand den Bereich, der am ehesten wie ein Feuerlöscher aussieht (basierend auf dem Sprachcode), und flog dorthin.
Danach sagte der Mensch: „Zeig mir die Küche!" und die Drohne flog dorthin.

Das Wichtigste: Das alles passierte in Echtzeit auf einem kleinen Computer, der direkt an der Drohne saß (einem NVIDIA Jetson), ohne dass sie auf einen riesigen Server im Internet angewiesen war.

Zusammenfassung in einem Bild

Stell dir vor, du bist in einem riesigen, dunklen Lagerhaus.

Ohne FindAnything: Du müsstest jeden einzelnen Gegenstand von Hand anfassen, beschreiben und in ein riesiges Buch schreiben, bevor du weißt, wo was ist. Das dauert Jahre.
Mit FindAnything: Du hast eine intelligente Taschenlampe. Du leuchtest in eine Ecke und die Lampe sagt sofort: „Da ist ein Feuerlöscher". Du leuchtest weiter und sie sagt: „Da ist ein Stuhl". Du musst nichts aufschreiben; die Lampe merkt sich nur die groben Orte der Dinge. Wenn du sagst „Feuerlöscher", leuchtet sie sofort auf den richtigen Ort.

FindAnything ist also die Taschenlampe für Roboter, die es ihnen erlaubt, in unbekannten Welten zu navigieren, Dinge zu finden, nach denen man sie fragt, und das alles mit wenig Batteriestrom und kleinem Speicher. Ein großer Schritt für die Rettungstechnik und autonome Roboter!

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „FindAnything: Open-Vocabulary and Object-Centric Mapping for Robot Exploration in Any Environment" auf Deutsch:

1. Problemstellung

Die autonome Robotik, insbesondere im Bereich der Suche und Rettung (Search and Rescue, S&R) mit Mikro-Luftfahrzeugen (MAVs), benötigt Karten, die nicht nur geometrisch präzise, sondern auch semantisch ausdrucksstark sind.

Herausforderung: Bestehende Methoden zur semantischen Kartierung basieren oft auf vordefinierten Klassen (Closed-Set), was die Flexibilität einschränkt.
Open-Vocabulary-Ansätze: Vision-Language-Modelle (VL) wie CLIP ermöglichen das Verständnis beliebiger natürlicher Sprachabfragen. Allerdings sind die hochdimensionalen Feature-Embeddings dieser Modelle sehr speicherintensiv.
Ressourcenbeschränkung: Die direkte Integration von VL-Features auf Voxel-Ebene in volumetrische 3D-Karten führt zu einem massiven Speicherbedarf und hohen Rechenkosten, was den Einsatz auf ressourcenbeschränkten Plattformen (wie MAVs) oder in großskaligen Umgebungen in Echtzeit unmöglich macht.
Ziel: Entwicklung eines Systems, das Open-Vocabulary-Semantik in Echtzeit, speichereffizient und skalierbar in 3D-Karten integriert, ohne auf geometrische Genauigkeit zu verzichten.

2. Methodik: FindAnything

Das vorgestellte System „FindAnything" ist ein Online-Mapping-Framework, das geometrische Informationen mit Open-Vocabulary-Semantik kombiniert. Der Kernansatz liegt in einer objektzentrierten (object-centric) Aggregation von Features statt einer voxelbasierten Speicherung.

Architektur-Überblick:
- SLAM & Geometrie: Ein Visual-Inertial SLAM (basierend auf OKVIS2-X) schätzt die Pose und integriert Tiefeninformationen in volumetrische Submaps (unter Verwendung von supereight2). Diese Submap-Struktur ermöglicht Skalierbarkeit und Drift-Korrektur durch Loop Closures.
- Vision-Language Features: Es wird das CLIP-Modell (ViT-L/14) verwendet, um pro Pixel ein 768-dimensionales Feature-Embedding zu extrahieren.
- Segmentierung & Tracking: Anstatt Features pro Voxel zu speichern, werden die Bilder durch ein leichtgewichtiges Segmentierungsmodell (eSAM – Efficient Segment Anything Model) in binäre Masken unterteilt.
- Objektzentrierte Aggregation:
  - Die Segmente werden im Bildraum verfolgt und mit der 3D-Karte assoziiert.
  - Es wird eine „so fein wie möglich"-Strategie (as-fine-as-possible) angewendet: Segmente werden überlagert und in kleinere Einheiten partitioniert, um feingranulare Details zu erfassen, während die VL-Features die semantische Kohärenz größerer Objekte bewahren.
  - Feature-Fusion: Für jedes Segment $k$ wird ein gewichteter Durchschnitt der CLIP-Features über alle zugehörigen Pixel berechnet und aktualisiert (Gleichung 1 im Paper). Dies reduziert den Speicherbedarf drastisch, da nur ein Feature-Vektor pro Segment gespeichert wird, unabhängig von der Anzahl der Voxel.
- Downstream-Task (Exploration): Die erstellte Karte kann direkt für die autonome Exploration genutzt werden. Ein Planer nutzt die CLIP-Embeddings, um neue Blickwinkel zu wählen, die mit einer natürlichen Sprachabfrage (z. B. „Feuerlöscher") übereinstimmen.

3. Hauptbeiträge

Effiziente Feature-Aggregation: Eine Methode zur Speicherung hochdimensionaler VL-Features in einer volumetrischen Karte durch objektzentrierte Aggregation (Segment-basiert), was den Speicherbedarf signifikant senkt.
Integration in SLAM: Die Kopplung des Mapping-Ansatzes mit einem Submap-basierten SLAM-System, was eine skalierbare, Online-Kartierung auch auf ressourcenbeschränkten Geräten ermöglicht.
Leistungsnachweis: Evaluation zeigt, dass FindAnything eine semantische Genauigkeit auf dem Niveau des State-of-the-Art (SOTA) erreicht, dabei aber deutlich schneller ist und bis zu 60 % weniger Speicher benötigt.
Echtzeit-Einsatz: Demonstration der vollständigen Online-Fähigkeit auf einem realen MAV (Quadcopter) mit Onboard-Computing (NVIDIA Jetson Orin NX) in einer simulierten Rettungsmission.

4. Ergebnisse und Evaluation

Die Evaluation erfolgte in Simulation (Indoor: Replica, Outdoor: SemanticKITTI) und im realen Experiment.

Semantische Genauigkeit:
- Auf dem Replica-Dataset erreicht FindAnything mit dem CLIP-Encoder eine mAcc von 48,87 % und f-mIoU von 62,91 %, was mit SOTA-Methoden wie RayFronts (NARADIO: 52,90 % mAcc) konkurrierbar ist.
- Auf dem SemanticKITTI-Dataset (großskalig) zeigt FindAnything bei einer Auflösung von 0,1 m eine überlegene Skalierbarkeit. RayFronts scheiterte bei dieser Auflösung aufgrund von GPU-Speichermangel (>24 GB), während FindAnything mit ca. 16 GB RAM erfolgreich war und eine höhere f-mIoU (53,90 %) bei ähnlicher Laufzeit erreichte.
Effizienz:
- Laufzeit: FindAnything ist deutlich schneller als vergleichbare Methoden (z. B. 5 min 24 s pro Sequenz auf Replica vs. 11 h 12 m für HOV-SG).
- Speicher: Durch die Segment-Aggregation wird der Speicherbedarf im Vergleich zu voxelbasierten Ansätzen massiv reduziert (nur 40 % des Speichers von RayFronts auf KITTI).
Anwendung (Exploration):
- In einer simulierten S&R-Mission führte die Nutzung von Sprachabfragen („Bett", „Badezimmer") zu einer höheren Vollständigkeit (Completeness) und geringeren Rekonstruktionsfehlern (RMSE) bei den Zielobjekten im Vergleich zu einer rein geometrischen Exploration ohne Semantik.
Real-World-Deployment:
- Das System lief erfolgreich auf einem echten MAV mit Onboard-Rechenleistung (Jetson Orin NX), wobei eSAM-Inferenz und CLIP-Features in Echtzeit verarbeitet wurden.

5. Bedeutung und Fazit

„FindAnything" adressiert eine kritische Lücke in der Robotik: die Fähigkeit, in unbekannten Umgebungen in Echtzeit Karten zu erstellen, die sowohl geometrisch präzise als auch semantisch durchsuchbar sind, ohne dabei die Hardware-Ressourcen zu sprengen.

Innovation: Der Wechsel von einer voxelbasierten zu einer objektzentrierten Repräsentation für VL-Features ist ein entscheidender Schritt zur Machbarkeit von Open-Vocabulary-Mapping auf mobilen Robotern.
Anwendbarkeit: Das System ist besonders relevant für Szenarien wie Katastrophenschutz, wo Roboter flexibel auf natürliche Sprachbefehle reagieren müssen, um kritische Objekte (Feuerlöscher, Ausgänge) in komplexen 3D-Umgebungen zu finden.
Zukunft: Die Autoren planen, hierarchische Kartenrepräsentationen und den Umgang mit dynamischen Objekten (Menschen) zu integrieren, um die Exploration noch weiter zu verbessern.

Zusammenfassend stellt FindAnything einen Durchbruch dar, der die Kombination aus Foundation Models (CLIP, eSAM) und effizienter 3D-Kartierung ermöglicht und damit autonome Roboter in die Lage versetzt, in realen, unstrukturierten Umgebungen mit menschlicher Interaktion zu operieren.

FindAnything: Open-Vocabulary and Object-Centric Mapping for Robot Exploration in Any Environment

1. Das Problem: Der Roboter ist wie ein Tourist ohne Wörterbuch

2. Die Lösung: FindAnything – Der kluge Bibliothekar

3. Der Trick: Wie man auf „Feuerlöscher" fragt

4. Der Test: Rettungseinsatz in der Simulation

Zusammenfassung in einem Bild

1. Problemstellung

2. Methodik: FindAnything

3. Hauptbeiträge

4. Ergebnisse und Evaluation

5. Bedeutung und Fazit

Mehr davon

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA