Learning to Wander: Improving the Global Image Geolocation Ability of LMMs via Actionable Reasoning

该论文提出了首个面向具身场景的可行动地理定位基准 WanderBench,并设计了结合推理与物理动作的 GeoAoT 框架,通过将静态识别转化为交互式探索,显著提升了大语言多模态模型在全球图像地理定位任务中的细粒度定位能力与泛化性。

Yushuo Zheng, Huiyu Duan, Zicheng Zhang, Xiaohong Liu, Xiongkuo Min

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在教 AI 如何从“只会看照片的静态游客”,进化成“会主动探索的聪明探险家”。

我们可以把这篇论文的核心内容拆解成三个部分:一个新的游乐场(WanderBench)一套新的探险方法(GeoAoT),以及一场大考(实验结果)

1. 以前的 AI 像什么?(旧问题)

想象一下,你给一个 AI 看一张风景照,问它:“这是哪里?”
以前的 AI(比如以前的地图软件或旧模型)就像是一个坐在家里看相册的人。它只能盯着这一张静止的照片,努力回忆:“哦,这棵树像巴西的,这路牌像德国的。”如果照片里信息不够(比如全是树,没有路牌),它就只能瞎猜,而且猜错了也没法补救。

这就好比让你玩“地理大猜想”(GeoGuessr)游戏,但规则是:你只能看一张图,不能动,不能转头,不能走路。 这对人类来说都很难,对 AI 来说更是瓶颈。

2. 这篇论文做了什么?(新方案)

第一步:造了一个“超级游乐场” —— WanderBench

作者们觉得,以前的考试题目(数据集)太死板了,全是静止的图。于是,他们造了一个全新的游乐场,叫 WanderBench

  • 它是什么? 它不是几千张孤立的图片,而是3 万多个可以互动的全景图,分布在六大洲。
  • 怎么玩? 想象这些全景图连成了一个巨大的迷宫网络。AI 在这里不只是“看”,它可以**“动”**。
    • 它可以转头(旋转视角)看看后面有没有路牌。
    • 它可以走路(向前移动)去靠近那个模糊的建筑物看清楚。
    • 它就像一个真正的探险家,手里拿着 360 度相机,可以在虚拟世界里自由行走。
  • 特别之处: 这个游乐场不仅能考 AI“猜得准不准”,还能考 AI“能不能出题”。AI 不仅要猜地点,还要能根据难度自己设计题目,看看它是不是真的懂了地理逻辑。

第二步:发明了“边想边走”的新方法 —— GeoAoT

有了游乐场,还得有探险的方法。作者提出了一个叫 GeoAoT (Action of Thought,行动中的思考) 的新框架。

  • 以前的 AI(Chain-of-Thought): 像是一个只会写日记的哲学家。它看着照片,在脑子里想:“这像热带,那像欧洲……"然后直接写答案。它只动嘴,不动腿。
  • 现在的 AI (GeoAoT): 像是一个聪明的侦探
    1. 看: 先看一眼全景图。
    2. 想: “哎呀,这栋楼看不清,不知道是哪个国家的。”
    3. 动(关键!): 于是它对自己说:“我要向右转 180 度看看后面有没有国旗!”或者“我要往前走 10 米凑近看看招牌上的字!”
    4. 再想: 转过去后,它看到了“马来西亚”的国旗,于是它恍然大悟:“原来是吉隆坡!”

核心比喻: 以前的 AI 是闭着眼睛猜谜,现在的 GeoAoT 是睁着眼睛、拿着手电筒到处找线索。它把“思考”和“行动”结合在了一起。

3. 考试结果怎么样?(实验结论)

作者找了 19 个最厉害的 AI 模型(包括 GPT-4o, Gemini, Qwen 等)来玩这个游戏。

  • 结果惊人: 只要用了“边想边走”(GeoAoT)的方法,所有的 AI 都变聪明了
    • 原本猜错几千公里的,现在可能只错几百公里。
    • 原本分不清是“中国”还是“日本”的,现在能精准定位到具体的“街道”了。
    • 即使是那些原本比较弱的模型,通过这种“主动探索”的方式,成绩也提升巨大。
  • 谁最强? 像 Gemini-2.5 Pro 和 o3 这样的顶级模型,配合新方法,简直像开了“上帝视角”,猜得准得离谱。

总结:这为什么重要?

这篇论文告诉我们要想 AI 真正理解世界,不能只让它“死记硬背”照片,而要让它学会主动探索

  • 以前: AI 是博物馆的解说员,看着展品背稿子。
  • 现在: AI 变成了探险家,拿着地图,遇到不懂的就去现场看、去问、去走。

这不仅让 AI 在“猜地点”这个游戏里赢了,更重要的是,它让 AI 具备了在复杂、动态的真实世界中解决问题的能力。以后,你的自动驾驶汽车、救援机器人,可能都会用这种“边看边动边思考”的本领,在陌生的城市里不再迷路。