ItinBench: Benchmarking Planning Across Multiple Cognitive Dimensions with Large Language Models

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一个名为 ItinBench 的新测试，用来给大语言模型（LLM，比如你正在对话的 AI）“体检”。

为了让你更容易理解，我们可以把大语言模型想象成一个超级聪明的旅行规划师。

1. 过去的测试：只考“背课文”

以前的测试主要看这个规划师记性好不好、逻辑顺不顺。

场景：比如问它“我想去一个有历史感的地方，预算要中等，请推荐一家餐厅”。
能力：这主要考验它的语言理解能力（Verbal Reasoning）。它需要读懂你的话，从数据库里挑出符合“历史感”和“中等预算”的餐厅。
结果：现在的 AI 在这类“背课文”和“做阅读理解”的测试上，表现通常都很棒。

2. 现在的挑战：还要考“画地图”

这篇论文的作者发现，光会“背课文”不够，真正的旅行规划还需要空间想象力（Spatial Reasoning）。

新场景：你不仅要选对地方，还要规划路线。比如，你第一天要去 4 个景点，AI 必须像老练的出租车司机一样，知道怎么安排顺序才能不走回头路，把路程缩到最短。
核心难点：这就像让 AI 在脑子里画一张动态地图。它不仅要懂文字，还得懂“距离”、“方向”和“位置关系”。

3. ItinBench 是怎么考试的？

作者设计了一个模拟真实世界的考试系统，就像给 AI 出了一道超级复杂的“旅行应用题”：

题目：用户说“我要去费城玩 3 天，喜欢新鲜好吃的，住服务好酒店，还要去一些活动多的景点”。
任务：AI 需要同时做两件事：
1. 语文题：从成千上万家店中，挑出符合“新鲜”、“服务好”、“活动多”这些条件的店。
2. 数学/地理题：把挑出来的店排好序，算出怎么走路程最短（这就涉及到了著名的“旅行商问题”，即 TSP）。

4. 考试结果：AI 有点“顾此失彼”

论文发现了一个有趣的现象：当 AI 需要同时处理“语文”和“地理”两门课时，它的表现会下降。

比喻：这就好比让一个天才数学家一边解微积分（空间规划），一边还要背一首复杂的古诗（语言理解）。结果往往是，他要么把诗背错了，要么微积分算错了，很难两全其美。
具体数据：
- 在只考语言时，AI 能选出 70%~80% 正确的店。
- 一旦加上路线规划，很多 AI 选出的路线会多跑很多冤枉路（比如多跑了 20%~38% 的距离）。
- 即使是目前最强的模型（如 GPT-4o, o1），在同时处理这两项任务时，也容易出现“顾了头顾不了尾”的情况。

5. 一个惊人的发现：AI 其实是在“猜”而不是“想”

论文还发现，当作者给 AI 提供现成的“分组提示”（比如直接告诉它：“这些景点在 A 区，那些在 B 区，你们尽量别跨区跑”）时，AI 的路线规划能力突然变好了。

这意味着什么？
这说明 AI 可能并没有真正像人类一样在脑子里“想象”地图和距离。它更像是一个高明的文字游戏玩家。
- 人类：看到地图，脑子里有空间感，知道 A 到 B 很近。
- AI：看到文字提示"A 和 B 在同一个群”，它就利用这个文字线索去推理，而不是真的在计算几何距离。一旦没有这些文字提示，它就“迷路”了。

总结

这篇论文告诉我们：
目前的 AI 虽然很聪明，能写诗、能聊天、能查资料，但在真正的现实世界规划中（既要懂需求，又要会算路），它们还不够成熟。它们更像是在玩文字游戏，而不是真正拥有了像人类一样的空间想象力。

ItinBench 这个测试就像一面镜子，照出了 AI 在“全能型”任务中的短板，提醒未来的研究需要让 AI 不仅会“说话”，还要学会真正的“看路”。

ItinBench: Benchmarking Planning Across Multiple Cognitive Dimensions with Large Language Models

1. 过去的测试：只考“背课文”

2. 现在的挑战：还要考“画地图”

3. ItinBench 是怎么考试的？

4. 考试结果：AI 有点“顾此失彼”

5. 一个惊人的发现：AI 其实是在“猜”而不是“想”

总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 数据构建

2.2 任务设计 (四大实验任务)

2.3 评估指标

3. 关键贡献 (Key Contributions)

4. 主要实验结果 (Results)

5. 意义与结论 (Significance)

ItinBench: Benchmarking Planning Across Multiple Cognitive Dimensions with Large Language Models

1. 过去的测试：只考“背课文”

2. 现在的挑战：还要考“画地图”

3. ItinBench 是怎么考试的？

4. 考试结果：AI 有点“顾此失彼”

5. 一个惊人的发现：AI 其实是在“猜”而不是“想”

总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 数据构建

2.2 任务设计 (四大实验任务)

2.3 评估指标

3. 关键贡献 (Key Contributions)

4. 主要实验结果 (Results)

5. 意义与结论 (Significance)

类似论文

When both Grounding and not Grounding are Bad -- A Partially Grounded Encoding of Planning into SAT (Extended Version)

Teaching an Agent to Sketch One Part at a Time

Learning to Disprove: Formal Counterexample Generation with Large Language Models

PA2D-MORL: Pareto Ascent Directional Decomposition based Multi-Objective Reinforcement Learning

PowerLens: Taming LLM Agents for Safe and Personalized Mobile Power Management