ViPlan: A Benchmark for Visual Planning with Symbolic Predicates and Vision-Language Models

Die Arbeit stellt ViPlan vor, den ersten Open-Source-Benchmark zum Vergleich symbolischer Planungsansätze mit Vision-Language-Modellen (VLMs) versus direkter VLM-Planung, und zeigt, dass je nach Domäne (Blocksworld vs. Haushaltsrobotik) entweder die symbolische Grounding-Methode oder die direkte Planung überlegen ist, während Chain-of-Thought-Prompting keine konsistenten Vorteile bietet.

Matteo Merler, Nicola Dainese, Minttu Alakuijala, Giovanni Bonetta, Pietro Ferrazzi, Yu Tian, Bernardo Magnini, Pekka Marttinen

Veröffentlicht 2026-03-04
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einem Roboter beibringen, einen Haushalt zu ordnen oder ein komplexes Puzzle zu lösen. Dafür gibt es im Grunde zwei verschiedene Strategien, wie man ihm dabei helfen kann. Die Forscher haben mit ihrer Arbeit „ViPlan" ein neues Testfeld geschaffen, um herauszufinden, welche Strategie besser funktioniert.

Hier ist die Erklärung der Studie in einfachen Worten, mit ein paar bildhaften Vergleichen:

Das große Problem: Der Roboter sieht die Welt, versteht sie aber nicht immer

Roboter haben Kameras (Augen) und können Bilder sehen. Aber ein Bild allein reicht nicht, um zu planen. Ein Roboter muss wissen: „Ist dieser Becher leer?", „Liegt das Buch auf dem Tisch?" oder „Kann ich diesen Block greifen?".

Bisher gab es zwei Hauptmethoden, wie man Künstliche Intelligenz (KI) dabei hilft:

  1. Der „Direkt-Planer" (VLM-as-planner):

    • Die Analogie: Stell dir einen sehr gut ausgebildeten, aber etwas chaotischen Traumdeuter vor. Du zeigst ihm ein Bild und sagst: „Mach das Ziel fertig." Er schaut sich das Bild an, nutzt sein riesiges Wissen über die Welt (was man normalerweise tut) und sagt sofort: „Okay, ich greife jetzt den Becher!" Er plant alles direkt aus dem Bild heraus, ohne Zwischenschritte zu überprüfen.
    • Das Problem: Er träumt manchmal Dinge, die nicht da sind. Er denkt, er kann einen Block greifen, obwohl er feststeckt, weil er sich auf sein „Bauchgefühl" (Sprachwissen) verlässt, statt genau hinzusehen.
  2. Der „Übersetzer" (VLM-as-grounder):

    • Die Analogie: Stell dir einen strengen Buchhalter vor, der mit einem strengen Logik-System (einem Symbol-Planer) arbeitet. Der Buchhalter schaut sich das Bild an und beantwortet nur Ja/Nein-Fragen für den Planer: „Ist der Becher greifbar? Ja/Nein. Ist der Tisch frei? Ja/Nein."
    • Der Planer nimmt diese Ja/Nein-Antworten und baut daraus einen perfekten, logischen Fahrplan.
    • Das Problem: Wenn der Buchhalter bei einer einzigen Frage einen Fehler macht (z. B. „Ja, der Becher ist greifbar", obwohl er hinter einem anderen Objekt versteckt ist), bricht der ganze Plan zusammen.

Der neue Test: „ViPlan"

Die Forscher haben zwei verschiedene Spielwiesen gebaut, um diese beiden Methoden zu testen:

  • Spielwiese 1: Das Block-Welt-Puzzle (ViPlan-BW)

    • Hier geht es um farbige Blöcke, die gestapelt werden müssen. Alles ist klar sichtbar, wie auf einem sauberen Tisch.
    • Das Ergebnis: Der Übersetzer (Buchhalter) gewinnt hier klar. Da alles klar sichtbar ist, kann er die Ja/Nein-Fragen fast perfekt beantworten. Der Traumber (Direkt-Planer) macht hier viele Fehler, weil er versucht, zu viel aus dem Bild zu „raten".
    • Ergebnis: 46 % Erfolg für den Übersetzer vs. nur 9 % für den Traumber.
  • Spielwiese 2: Der virtuelle Haushalt (ViPlan-HH)

    • Hier ist es wie in einem echten Wohnzimmer. Dinge sind verdeckt, man sieht nicht alles auf einmal, und es gibt viele verschiedene Objekte (Türen, Schubladen, Geschirr).
    • Das Ergebnis: Hier gewinnt überraschend der Traumber (Direkt-Planer). Warum? Weil er sein großes Sprachwissen nutzt. Er weiß aus Erfahrung: „Wenn ich eine Tür öffnen will, muss ich erst zum Schrank gehen." Der Übersetzer (Buchhalter) scheitert hier, weil er zu viele Fragen stellen muss. Wenn er bei einer einzigen Frage (z. B. „Ist die Tür offen?") einen Fehler macht, weil er das Bild nicht ganz sieht, gerät der ganze logische Plan in Panik.
    • Ergebnis: 34 % Erfolg für den Traumber vs. nur 5 % für den Übersetzer.

Die große Entdeckung: „Nachdenken" hilft nicht immer

Die Forscher haben auch getestet, ob es hilft, wenn man den KI-Modellen sagt: „Denk erst Schritt für Schritt nach, bevor du antwortest" (das nennt man „Chain-of-Thought").

  • Die Metapher: Es ist, als würde man einem Schüler sagen: „Schreib erst eine lange Erklärung auf, bevor du die Matheaufgabe löst."
  • Das Ergebnis: In den meisten Fällen hat das nicht geholfen. Oft wurde es sogar schlimmer! Die KI fing an, sich in ihren eigenen Gedanken zu verheddern, wiederholte sich wie ein kaputtes Radio und verbrauchte dabei ihre ganze Zeit (das Token-Limit), ohne jemals eine Lösung zu finden. Es scheint, dass aktuelle KI-Modelle beim visuellen Nachdenken noch nicht so gut sind wie beim bloßen Raten.

Fazit für den Alltag

Die Studie zeigt uns, dass es keine „eine perfekte Lösung" gibt:

  • Wenn die Welt klar und übersichtlich ist (wie beim Puzzle), ist es besser, die KI als strengen Übersetzer zu nutzen, der Fakten prüft.
  • Wenn die Welt chaotisch und unvollständig ist (wie im echten Leben), ist es besser, der KI zu vertrauen, dass sie ihr Wissen über die Welt nutzt, um plausible Schritte zu planen, auch wenn sie nicht alles perfekt sieht.

ViPlan ist also wie ein neuer, fairer Wettkampfplatz, der zeigt, wo die Stärken und Schwächen unserer aktuellen Roboter-Helfer liegen, damit wir sie in Zukunft besser einsetzen können.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →