NovaPlan: Zero-Shot Long-Horizon Manipulation via Closed-Loop Video Language Planning

NovaPlan ist ein hierarchisches Framework, das geschlossene Schleifen aus Vision-Language-Modellen und Videoplanning mit geometrisch fundierter Robotersteuerung vereint, um zero-shot langfristige Manipulationsaufgaben durch autonome Fehlerwiederherstellung und die Nutzung von kinematischen Priors aus generierten Videos zu lösen.

Jiahui Fu, Junyu Nan, Lingfeng Sun, Hongyu Li, Jianing Qian, Jennifer L. Barry, Kris Kitani, George Konidaris

Veröffentlicht 2026-02-24
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einem Roboter beibringen, ein komplexes Puzzle zu lösen oder einen Turm aus Klötzen zu bauen. Das Problem ist: Der Roboter hat keine Ahnung, wie die Welt funktioniert, und er hat noch nie gesehen, wie man das macht. Er braucht keine stundenlangen Trainingsvideos, sondern nur eine einfache Anweisung.

Das ist genau das, was NovaPlan tut. Es ist wie ein genialer Regisseur, der einem Roboter hilft, Aufgaben zu meistern, die er noch nie gesehen hat.

Hier ist die Geschichte von NovaPlan, einfach erklärt:

1. Der Regisseur, der die Zukunft „träumt" (Video-Planung)

Stell dir vor, du sagst einem Roboter: „Baue mir einen Turm aus vier Klötzen." Ein normaler Roboter würde raten und wahrscheinlich alles umwerfen.

NovaPlan nutzt aber eine spezielle KI, die wie ein Filmemacher funktioniert.

  • Der Traum: Bevor der Roboter auch nur einen Finger rührt, „träumt" die KI verschiedene Szenarien. Sie generiert kurze Videos, die zeigen, wie ein menschlicher Hand den Turm baut.
  • Die Auswahl: Die KI schaut sich diese Filme an und fragt sich: „Welcher Film zeigt den logischsten und sichersten Weg?" Sie wählt den besten Film aus, der wie eine Blaupause für die nächste Bewegung dient.

2. Der Sicherheitsgurt: Wenn der Film lügt (Hybrid-Tracking)

Hier kommt das Geniale an NovaPlan. VideokIs sind toll, aber sie machen Fehler. Manchmal sieht es im Video so aus, als würde die Hand den Klotz greifen, aber in Wirklichkeit gleitet sie daneben (wie in einem schlechten Hollywood-Film, wo die Schwerkraft vergessen wurde).

NovaPlan hat einen zweiten Sicherheitsplan:

  • Objekt-Modus: Normalerweise schaut der Roboter nur auf den Klotz, den er bewegen soll.
  • Hand-Modus: Wenn der Klotz verdeckt ist (z. B. von der Hand selbst) oder das Video unscharf wird, schaltet NovaPlan um. Es schaut sich nun die Bewegung der menschlichen Hand im Video an.
  • Die Analogie: Stell dir vor, du versuchst, eine Nadel in ein Kissen zu stecken. Wenn du nur auf die Nadel schaust, ist es schwer. Wenn du aber auf deine eigene Hand schaust, die die Nadel führt, weißt du genau, wo sie hin muss. NovaPlan nutzt die Hand als „Leitstern", auch wenn der Klotz gerade nicht zu sehen ist.

3. Der Regisseur, der nachhakt (Geschlossener Kreislauf)

Das ist der wichtigste Teil. Die meisten Roboter arbeiten wie ein Zug auf einem Gleis: Sie fahren los und hoffen, dass sie am Ziel ankommen. Wenn sie aber gegen eine Wand fahren, stoppen sie nicht, sie fahren weiter gegen die Wand.

NovaPlan arbeitet wie ein Scharfsinniger Regisseur auf einem Filmset:

  1. Aktion: Der Roboter führt einen Schritt aus (basierend auf dem Video).
  2. Kontrolle: Die KI schaut sofort nach: „Hat das geklappt? Ist der Klotz wirklich dort gelandet, wo er im Film war?"
  3. Korrektur: Wenn etwas schiefgelaufen ist (z. B. der Klotz ist verrutscht), stoppt der Roboter nicht. Die KI denkt sich sofort einen neuen, kleinen Schritt aus, um den Fehler zu reparieren.
    • Beispiel: Wenn ein Klotz nicht ganz in die Schublade passt, statt alles neu zu starten, sagt NovaPlan: „Drück ihn einfach mit dem Finger ein bisschen nach." Das nennt man „nicht-greifende Korrektur" (Non-prehensile Recovery).

Warum ist das so besonders?

Bisher mussten Roboter für jede Aufgabe tausende Male trainiert werden. NovaPlan ist wie ein Schweizer Taschenmesser für Roboter:

  • Es braucht keine Vorkenntnisse (Zero-Shot).
  • Es kann lange Aufgaben lösen (z. B. erst Schublade öffnen, dann Klotz holen, dann in Behälter stecken).
  • Es kann Fehler reparieren, ohne die ganze Aufgabe abzubrechen.

Zusammenfassung in einem Satz

NovaPlan ist ein Roboter-System, das sich die Zukunft in Videos ausmalt, die Handbewegungen als Kompass nutzt, wenn die Objekte unsichtbar sind, und ständig prüft, ob alles klappt – und wenn nicht, es sich sofort einen neuen Weg ausdenkt, genau wie ein erfahrener Mensch, der im Dunkeln tappt, aber nie aufgibt.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →