ItinBench: Benchmarking Planning Across Multiple Cognitive Dimensions with Large Language Models

本文提出了 ItinBench 基准,通过将空间推理(路线优化)任务融入行程规划以涵盖多认知维度,揭示了大型语言模型在处理并发多维认知任务时难以保持高且一致的性能。

Tianlong Wang, Pinqiao Wang, Weili Shi, Sheng li

发布于 2026-03-23
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一个名为 ItinBench 的新测试,用来给大语言模型(LLM,比如你正在对话的 AI)“体检”。

为了让你更容易理解,我们可以把大语言模型想象成一个超级聪明的旅行规划师

1. 过去的测试:只考“背课文”

以前的测试主要看这个规划师记性好不好逻辑顺不顺

  • 场景:比如问它“我想去一个有历史感的地方,预算要中等,请推荐一家餐厅”。
  • 能力:这主要考验它的语言理解能力(Verbal Reasoning)。它需要读懂你的话,从数据库里挑出符合“历史感”和“中等预算”的餐厅。
  • 结果:现在的 AI 在这类“背课文”和“做阅读理解”的测试上,表现通常都很棒。

2. 现在的挑战:还要考“画地图”

这篇论文的作者发现,光会“背课文”不够,真正的旅行规划还需要空间想象力(Spatial Reasoning)。

  • 新场景:你不仅要选对地方,还要规划路线。比如,你第一天要去 4 个景点,AI 必须像老练的出租车司机一样,知道怎么安排顺序才能不走回头路,把路程缩到最短。
  • 核心难点:这就像让 AI 在脑子里画一张动态地图。它不仅要懂文字,还得懂“距离”、“方向”和“位置关系”。

3. ItinBench 是怎么考试的?

作者设计了一个模拟真实世界的考试系统,就像给 AI 出了一道超级复杂的“旅行应用题”

  • 题目:用户说“我要去费城玩 3 天,喜欢新鲜好吃的,住服务好酒店,还要去一些活动多的景点”。
  • 任务:AI 需要同时做两件事:
    1. 语文题:从成千上万家店中,挑出符合“新鲜”、“服务好”、“活动多”这些条件的店。
    2. 数学/地理题:把挑出来的店排好序,算出怎么走路程最短(这就涉及到了著名的“旅行商问题”,即 TSP)。

4. 考试结果:AI 有点“顾此失彼”

论文发现了一个有趣的现象:当 AI 需要同时处理“语文”和“地理”两门课时,它的表现会下降。

  • 比喻:这就好比让一个天才数学家一边解微积分(空间规划),一边还要背一首复杂的古诗(语言理解)。结果往往是,他要么把诗背错了,要么微积分算错了,很难两全其美。
  • 具体数据
    • 只考语言时,AI 能选出 70%~80% 正确的店。
    • 一旦加上路线规划,很多 AI 选出的路线会多跑很多冤枉路(比如多跑了 20%~38% 的距离)。
    • 即使是目前最强的模型(如 GPT-4o, o1),在同时处理这两项任务时,也容易出现“顾了头顾不了尾”的情况。

5. 一个惊人的发现:AI 其实是在“猜”而不是“想”

论文还发现,当作者给 AI 提供现成的“分组提示”(比如直接告诉它:“这些景点在 A 区,那些在 B 区,你们尽量别跨区跑”)时,AI 的路线规划能力突然变好了。

  • 这意味着什么?
    这说明 AI 可能并没有真正像人类一样在脑子里“想象”地图和距离。它更像是一个高明的文字游戏玩家
    • 人类:看到地图,脑子里有空间感,知道 A 到 B 很近。
    • AI:看到文字提示"A 和 B 在同一个群”,它就利用这个文字线索去推理,而不是真的在计算几何距离。一旦没有这些文字提示,它就“迷路”了。

总结

这篇论文告诉我们:
目前的 AI 虽然很聪明,能写诗、能聊天、能查资料,但在真正的现实世界规划中(既要懂需求,又要会算路),它们还不够成熟。它们更像是在玩文字游戏,而不是真正拥有了像人类一样的空间想象力

ItinBench 这个测试就像一面镜子,照出了 AI 在“全能型”任务中的短板,提醒未来的研究需要让 AI 不仅会“说话”,还要学会真正的“看路”。