NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

Die Arbeit stellt mit NavSpace ein neues Benchmark-System zur systematischen Evaluierung der räumlichen Intelligenz von Navigationsagenten vor und führt das überlegene Modell SNav ein, das sowohl auf diesem Benchmark als auch in realen Robotertests neue Maßstäbe setzt.

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao Dong

Veröffentlicht Wed, 11 Ma
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr intelligenten Roboter-Helfer. Er kann sprechen, Bilder sehen und komplexe Fragen beantworten. Aber wenn du ihm sagst: „Geh bitte die Treppe hoch, dreh dich um die Couch herum und such meine Tasche", stolpert er oft über seine eigenen Füße oder verirrt sich. Warum? Weil er zwar „klug" ist, aber kein echtes Raumverständnis hat.

Genau an diesem Problem setzt die neue Forschung „NavSpace" an. Hier ist die Erklärung, wie ein einfaches Kind verstehen würde, was die Wissenschaftler aus Peking und dem Shanghai AI Lab entdeckt haben:

1. Das Problem: Der Roboter ist ein „Bürokrat", kein „Abenteurer"

Bisher haben Forscher Roboter trainiert, indem sie ihnen einfache Sätze wie „Geh zum Sofa" gegeben haben. Das ist wie ein Roboter, der nur eine Liste auswendig gelernt hat. Er weiß, dass „Sofa" ein Wort ist, aber er versteht nicht, wo das Sofa im Verhältnis zu ihm steht, wie weit weg es ist oder ob er dafür eine Treppe hoch muss.

Die Autoren sagen: Echte Intelligenz bedeutet, den Raum zu „fühlen".
Stell dir vor, du bist blind und jemand sagt dir: „Geh drei Schritte geradeaus, dann drehe dich genau 30 Grad nach rechts." Ein gewöhnlicher Roboter würde raten. Ein intelligenter Roboter müsste im Kopf eine 3D-Karte zeichnen.

2. Die Lösung: NavSpace – Der „Raum-Parkour" für Roboter

Die Forscher haben einen neuen Test entwickelt, den sie NavSpace nennen. Stell dir das wie einen Parcours für Roboter vor, bei dem sie nicht nur rennen, sondern räumlich denken müssen.

Der Test besteht aus sechs Arten von „Knobelaufgaben", die wir alle im Alltag machen, aber für Roboter extrem schwer sind:

  • Der Höhen-Check (Vertical Perception): „Geh in den zweiten Stock." Der Roboter muss verstehen, was „oben" und „unten" bedeutet und dass er eine Treppe nehmen muss, nicht einfach geradeaus laufen.
  • Der Maßstab-Check (Precise Movement): „Geh genau 3 Meter gerade, dann 90 Grad links." Hier zählt jeder Zentimeter. Kein Raten, sondern exakte Mathematik.
  • Die Perspektiven-Wechsel (Viewpoint Shifting): „Stell dir vor, du bist der Fernseher auf dem Tisch. Geh jetzt zu deiner linken Seite." Das ist wie ein Zaubertrick: Der Roboter muss sich in ein Objekt hineinversetzen und die Welt aus dessen Augen sehen.
  • Das Beziehungs-Netz (Spatial Relationship): „Geh zum zweiten Zimmer links und bleib zwischen den zwei Stühlen stehen." Der Roboter muss zählen und die Positionen zueinander verstehen.
  • Der Umwelt-Check (Environment State): „Wenn das Licht an ist, geh ins Wohnzimmer. Wenn es aus ist, bleib im Schlafzimmer." Der Roboter muss erst schauen, dann entscheiden.
  • Die Struktur-Check (Space Structure): „Lauf einmal um den Esstisch herum." Der Roboter muss die Form eines Objekts verstehen und einen Kreis laufen.

3. Der Test: Wer besteht?

Die Forscher haben 22 verschiedene Roboter-„Gehirne" getestet. Dazu gehörten:

  • Die kleinen Helfer: Einfache Modelle, die nur einfache Befehle verstehen.
  • Die Super-Computer: Die allerneuesten KI-Modelle (wie GPT-5 oder Gemini), die alles wissen können.
  • Die Spezialisten: Modelle, die nur für Navigation gemacht wurden.

Das überraschende Ergebnis:
Selbst die „Super-Computer" (die großen Sprachmodelle) haben im Parcour fast durchgehend versagt. Sie konnten zwar sagen, was ein Sofa ist, aber sie schafften es nicht, dorthin zu gehen, ohne gegen die Wand zu laufen. Sie waren wie ein sehr gebildeter Tourist, der die Landkarte liest, aber beim Gehen ständig stolpert.

Die kleinen Modelle waren noch schlimmer – sie liefen einfach ziellos herum.

4. Der Gewinner: SNav – Der Roboter mit „Raum-Gefühl"

Die Forscher haben dann ein neues Modell namens SNav entwickelt. Wie haben sie das gemacht?

Stell dir vor, du willst einem Kind das Laufen beibringen. Du sagst ihm nicht nur „Geh", sondern du zeigst ihm: „Siehst du die Treppe? Da musst du hoch. Siehst du den Abstand? Da musst du genau drei Schritte machen."

Die Forscher haben SNav mit genau solchen „Raum-Lektionen" trainiert. Sie haben dem Modell gezeigt, wie man Entfernungen misst, wie man sich in Objekte hineinversetzt und wie man auf Umgebungsbedingungen reagiert.

Das Ergebnis:
SNav war der einzige, der den Parcours wirklich gut meisterte. Er war deutlich besser als die riesigen Super-Computer und die kleinen Modelle. Er hat im echten Test (mit einem echten Roboter-Hund im Büro) bewiesen, dass er nicht nur redet, sondern auch tut.

Zusammenfassung in einer Metapher

  • Die alten Modelle waren wie ein Tourist mit einem Reiseführer: Er kennt die Namen der Orte, aber wenn er losläuft, verirrt er sich, weil er die Straßen nicht wirklich versteht.
  • Das neue Modell (SNav) ist wie ein einheimischer Stadtführer: Er kennt nicht nur die Namen, sondern spürt die Distanzen, weiß, wo die Treppen sind, und kann sich vorstellen, wie die Welt von einem anderen Standpunkt aussieht.

Die große Lehre:
Echte Roboter-Intelligenz bedeutet nicht nur, viele Bücher zu lesen (Daten zu kennen), sondern den Raum, in dem man lebt, wirklich zu verstehen und darin sicher zu navigieren. NavSpace zeigt uns, dass wir noch einen langen Weg haben, bis unsere Roboter wirklich „menschlich" durch unsere Häuser laufen können.