ItinBench: Benchmarking Planning Across Multiple Cognitive Dimensions with Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du planst den perfekten Urlaub. Du hast eine lange Liste von Wünschen: „Ich will ein Hotel mit tollem Service, ein Restaurant mit frischem Fisch und ein Museum, das sich für Familien eignet." Das ist das eine Teil des Puzzles – das Verstehen deiner Sprache.

Aber es gibt noch ein zweites, oft übersehenes Teil: Die Logistik. Wenn du diese drei Orte gefunden hast, wie kommst du von einem zum nächsten? Wenn das Museum am anderen Ende der Stadt liegt und das Restaurant direkt neben dem Hotel, ist dein Plan zwar inhaltlich gut, aber logistisch ein Albtraum. Du würdest den ganzen Tag im Auto sitzen, statt zu genießen.

Das ist genau das Problem, das die Forscher mit ihrer neuen Studie „ItinBench" untersuchen.

Das große Experiment: Der Reiseplaner-Bot

Bisher haben wir KI-Modelle (wie ChatGPT oder Gemini) hauptsächlich getestet, ob sie gut reden und logisch denken können. Das ist wie ein Sprachtest in der Schule. Die Forscher von der University of Virginia wollten wissen: „Können diese KIs auch räumlich denken?"

Stell dir die KI nicht als einen klugen Professor vor, sondern als einen Reiseplaner, der zwei verschiedene Gehirne gleichzeitig benutzen muss:

Das Sprach-Geheimnis: Er muss verstehen, was du sagst („Ich mag scharfes Essen").
Das Karten-Geheimnis: Er muss im Kopf eine Landkarte zeichnen und den kürzesten Weg finden, ohne unnötig umherzureisen.

Wie haben sie das getestet?

Sie haben eine riesige Datenbank mit echten Orten in Philadelphia (Restaurants, Hotels, Sehenswürdigkeiten) erstellt. Dann haben sie der KI eine Aufgabe gegeben: „Plan mir eine 3-Tage-Reise."

Aber sie haben die Aufgaben in vier verschiedene Schwierigkeitsstufen unterteilt, wie bei einem Videospiel:

Level 1 (Nur Text): „Nimm alle Daten und mach einen Plan." (Hier muss die KI nur lesen und auswählen).
Level 2 (Text + Karte): „Mach einen Plan und achte darauf, dass die Route kurz ist." (Jetzt muss sie auch die Distanzen im Kopf behalten).
Level 3 (Vorgefiltert + Karte): „Hier sind nur die Orte, die du magst. Jetzt mach die Route kurz." (Die Spracharbeit ist schon erledigt, jetzt nur noch die Karte).
Level 4 (Der Werkzeugkasten): Die KI muss selbst aktiv werden, wie ein Detektiv. Sie muss „Werkzeuge" nutzen, um Informationen zu suchen, bevor sie den Plan schreibt.

Was ist herausgekommen? (Die überraschenden Ergebnisse)

Die Ergebnisse waren wie eine kalte Dusche für die KI-Entwickler:

Die KI ist ein schlechter Kartograph: Wenn die KI nur den Text verstehen muss, macht sie das ganz gut. Aber sobald sie die Route optimieren muss, wird es chaotisch. Sie schlägt oft Wege vor, bei denen man 20–30 % mehr Kilometer fährt als nötig. Es ist, als würde jemand eine Reise planen, bei dem man von Berlin nach München fährt, aber auf dem Weg nach Hamburg und zurück macht.
Der „Zwei-Geister-Effekt": Wenn die KI versucht, gleichzeitig die Sprache zu verstehen und die Karte zu lesen, bricht sie oft zusammen. Sie vergisst dann entweder deine Wünsche (z. B. „kein scharfes Essen") oder sie plant eine völlig ineffiziente Route. Sie kann beides nicht gleichzeitig perfekt machen.
Der Trick mit den Hinweisen: Die KI wurde deutlich besser, wenn man ihr die „Karte" nicht als Bild, sondern als Text gab (z. B. „Ort A liegt in der Nähe von Ort B"). Das zeigt: Die KI „sieht" die Karte nicht wirklich. Sie liest nur die Beschreibung der Nähe. Sie nutzt ihre Sprachfähigkeiten, um die räumliche Aufgabe zu lösen, anstatt wirklich räumlich zu denken.

Die große Lektion

Die Forscher sagen damit: Künstliche Intelligenz ist noch nicht so schlau wie ein Mensch beim Planen.

Ein Mensch kann sich vorstellen: „Wenn ich hier esse, bin ich schon fast am Museum." Eine KI hingegen rechnet oft nur mit Textbausteinen. Sie hat Schwierigkeiten, die Welt als einen zusammenhängenden Raum zu begreifen, in dem Entfernungen und Richtungen eine Rolle spielen.

Zusammenfassend:
Das Paper „ItinBench" ist wie ein neuer, härterer Führerschein-Test für KIs. Bisher haben wir nur geprüft, ob sie die Verkehrsregeln (die Sprache) kennen. Jetzt haben wir geprüft, ob sie auch wirklich sicher durch die Stadt fahren können (die räumliche Planung). Und das Ergebnis ist: Sie können die Regeln aufsagen, aber im echten Verkehr (der komplexen Welt) verirren sie sich noch oft.

Die Hoffnung ist, dass solche Tests helfen, KIs zu bauen, die nicht nur gut reden, sondern auch wirklich gute Planer für unsere reale Welt werden.

ItinBench: Benchmarking Planning Across Multiple Cognitive Dimensions with Large Language Models

Das große Experiment: Der Reiseplaner-Bot

Wie haben sie das getestet?

Was ist herausgekommen? (Die überraschenden Ergebnisse)

Die große Lektion

1. Problemstellung

2. Methodik: ItinBench

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

ItinBench: Benchmarking Planning Across Multiple Cognitive Dimensions with Large Language Models

Das große Experiment: Der Reiseplaner-Bot

Wie haben sie das getestet?

Was ist herausgekommen? (Die überraschenden Ergebnisse)

Die große Lektion

1. Problemstellung

2. Methodik: ItinBench

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

When both Grounding and not Grounding are Bad -- A Partially Grounded Encoding of Planning into SAT (Extended Version)

Teaching an Agent to Sketch One Part at a Time

Learning to Disprove: Formal Counterexample Generation with Large Language Models

PA2D-MORL: Pareto Ascent Directional Decomposition based Multi-Objective Reinforcement Learning

PowerLens: Taming LLM Agents for Safe and Personalized Mobile Power Management