ItinBench: Benchmarking Planning Across Multiple Cognitive Dimensions with Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Het Reiskluisje van de AI: Waarom Slimme Robots nog Slecht Wegwijs zijn

Stel je voor dat je een supersterke robot hebt die alles kan lezen, vertalen en begrijpen. Hij kent alle restaurants, hotels en bezienswaardigheden ter wereld. Je vraagt hem: "Plan een 3-daagse dure reis voor mij, met leuke activiteiten, vers eten en een hotel met goede service."

Je zou denken: "Geen probleem, hij is slim!" Maar volgens dit nieuwe onderzoek, genaamd ItinBench, loopt het vaak mis. Niet omdat de robot de taal niet begrijpt, maar omdat hij niet goed kan nadenken over de ruimte.

Hier is wat de onderzoekers hebben ontdekt, vertaald in een verhaal:

1. De Twee Hersenstammen: Woorden vs. Kaarten

Mensen hebben twee soorten intelligentie nodig om een reis te plannen:

De Woord-Intelligentie: "Ik wil Italiaans eten," "Ik wil een hotel met een zwembad," "Ik heb 3 dagen." Dit is makkelijk voor de AI. Hij is een taalgenie.
De Ruimte-Intelligentie: "Als ik eerst naar het museum ga, moet ik dan eerst naar het noorden of het zuiden? Ligt het restaurantje dichtbij of moet ik een uur rijden?" Dit is het probleem.

De onderzoekers hebben een nieuwe testbed (een soort 'speelplaats' voor AI) gemaakt, genaamd ItinBench. Ze hebben de AI een taak gegeven waarbij hij beide hersenstammen tegelijk moet gebruiken: een reisplanner maken die niet alleen de juiste woorden kiest, maar ook de kortste route berekent.

2. Het Experiment: De "Vergelijkende Reis"

Stel je voor dat je een groepje robots een opdracht geeft:

Opdracht A: Kies de juiste restaurants en hotels op basis van je wensen (alleen taal).
Opdracht B: Kies de juiste plekken én zorg dat je niet uren in de file staat door van de ene kant van de stad naar de andere te rijden (taal + ruimte).

De onderzoekers keken naar bekende modellen zoals GPT-4o, Llama en Gemini. Wat zagen ze?

Bij Opdracht A: De robots deden het prima. Ze konden perfect begrijpen wat je wilde.
Bij Opdracht B: De robots begonnen te struikelen. Ze konden de juiste woorden vinden, maar hun routeplanning was vaak belachelijk slecht.

3. De "Telefoonboek"-Truc

Het meest interessante is waarom ze faalden.
De robots proberen niet echt te "nadenken" over een kaart (zoals een mens die een route in zijn hoofd visualiseert). In plaats daarvan proberen ze de ruimte te begrijpen door woorden te manipuleren.

Het is alsof de robot een telefoonboek heeft. Als je vraagt: "Wat ligt het dichtst bij elkaar?", kijkt de robot niet naar de afstand op de kaart, maar zegt hij: "Oh, in mijn trainingstekst staat dat 'dichtbij' vaak samenkomt met 'centrum'. Dus ik kies twee dingen die in de tekst vaak samen voorkomen."

Ze gebruiken taal als een trucje in plaats van echte ruimtelijke logica. Ze "hallucineren" een route die klinkt logisch in een zin, maar op de kaart een enorme omweg is.

4. De Resultaten: Slimme Woorden, Dwaas Rijden

De cijfers zijn verrassend slecht voor zo'n geavanceerde technologie:

De robots maakten routes die 20% tot 38% langer waren dan nodig.
Ze vergeten vaak details of kiezen voor plekken die niet bestaan in de gegeven lijst (ze "dromen" plekken uit hun eigen kennis).
Zelfs de slimste modellen (zoals de nieuwste versies van GPT) hadden moeite om de twee taken tegelijk goed te doen. Als ze zich focusten op de route, werden ze minder goed in het begrijpen van je wensen, en andersom.

5. Wat betekent dit voor de toekomst?

De onderzoekers concluderen dat we AI nog niet echt "menselijk" kunnen noemen als het gaat om plannen. Ze zijn geweldige schrijvers, maar slechte navigators.

Om echte AGI (Algemene Kunstmatige Intelligentie) te bouwen die echt kan plannen, moeten we AI niet alleen leren lezen, maar ook leren ruimtelijk denken. We moeten ze leren om een echte "mentale kaart" te maken, in plaats van alleen maar te raden op basis van woorden.

Kortom:
Vraag een AI om een verhaal te schrijven over een reis? Hij is een meester.
Vraag hem om die reis daadwerkelijk te plannen zodat je niet de hele dag in de auto zit? Dan is hij nog steeds een beetje een dwaas die de weg kwijt is. ItinBench is de spiegel die dit laat zien.

ItinBench: Benchmarking Planning Across Multiple Cognitive Dimensions with Large Language Models

1. De Twee Hersenstammen: Woorden vs. Kaarten

2. Het Experiment: De "Vergelijkende Reis"

3. De "Telefoonboek"-Truc

4. De Resultaten: Slimme Woorden, Dwaas Rijden

5. Wat betekent dit voor de toekomst?

Titel: ItinBench: Benchmarken van Planning over Meerdere Cognitieve Dimensies met Grootte Taalmodellen (LLM's)

1. Het Probleem

2. Methodologie: ItinBench

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

ItinBench: Benchmarking Planning Across Multiple Cognitive Dimensions with Large Language Models

1. De Twee Hersenstammen: Woorden vs. Kaarten

2. Het Experiment: De "Vergelijkende Reis"

3. De "Telefoonboek"-Truc

4. De Resultaten: Slimme Woorden, Dwaas Rijden

5. Wat betekent dit voor de toekomst?

Titel: ItinBench: Benchmarken van Planning over Meerdere Cognitieve Dimensies met Grootte Taalmodellen (LLM's)

1. Het Probleem

2. Methodologie: ItinBench

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

When both Grounding and not Grounding are Bad -- A Partially Grounded Encoding of Planning into SAT (Extended Version)

Teaching an Agent to Sketch One Part at a Time

Learning to Disprove: Formal Counterexample Generation with Large Language Models

PA2D-MORL: Pareto Ascent Directional Decomposition based Multi-Objective Reinforcement Learning

PowerLens: Taming LLM Agents for Safe and Personalized Mobile Power Management