GeoEyes: On-Demand Visual Focusing for Evidence-Grounded Understanding of Ultra-High-Resolution Remote Sensing Imagery

本文提出了 GeoEyes 框架,通过构建 UHR-CoZ 冷启动数据集和引入 AdaZoom-GRPO 强化学习方法,解决了现有模型在超高分辨率遥感图像问答中工具调用同质化的问题,实现了按需视觉聚焦与证据获取,显著提升了模型在相关基准测试中的表现。

Fengxiang Wang, Mingshuo Chen, Yueying Li, Yajie Yang, Yifan Zhang, Long Lan, Xue Yang, Hongda Sun, Yulin Wang, Di Wang, Jun Song, Jing Zhang, Bo Du

发布于 2026-02-23
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**“如何教 AI 像侦探一样看卫星地图”**的故事。

想象一下,你手里有一张超级巨大的城市地图(这就是论文里的“超高分辨率遥感图像”),这张地图大得惊人,上面有几十亿个像素点,就像把整个城市铺在桌子上,连一只蚂蚁都看得清清楚楚。

现在,有人问你:“这张地图里,那个红色的消防车在哪里?”或者“那个小区里停了多少辆蓝色的车?”

🕵️‍♂️ 问题出在哪?(现有的 AI 太“死板”了)

以前的 AI 模型(比如 DeepEyes)虽然学会了用“放大镜”(Zoom-in 工具)去局部查看,但它们有个坏毛病,叫**“工具使用同质化”**(Tool Usage Homogenization)。

这就好比一个刚入职的实习侦探

  • 不管问什么,他都会机械地拿起放大镜,对着地图随便找个地方照一下,然后说“我看完了”。
  • 如果问题是“整个城市有多少个公园?”(这种大任务),他其实不需要放大镜,直接看全景就行,但他非要照一下,浪费力气
  • 如果问题是“找那辆藏在树丛里的红色消防车”(这种小任务),他照一下发现没找到,就立刻停止,不再继续深入,导致找不到答案

核心痛点:AI 不懂得**“什么时候该用放大镜,什么时候该用肉眼,什么时候该多照几次”**。它要么不用,要么乱用,要么用一次就停。

💡 他们的解决方案:GeoEyes(天眼)

为了解决这个问题,作者团队开发了一个叫 GeoEyes 的新系统。他们把训练过程分成了两步,就像教一个新手侦探一样:

第一步:冷启动教学(SFT - 像教学生做笔记)

他们先造了一个特殊的教材,叫 UHR-CoZ

  • 以前:教材里只有“问题”和“答案”。
  • 现在:教材里不仅有答案,还有**“侦探的思考过程”**。
    • 有的题目,教材会教 AI:“别动,直接看全景,答案就在大画面里。”(不用工具
    • 有的题目,教材会教:“先放大到那个街区,看一眼。”(用一次工具
    • 有的题目,教材会教:“先放大到街区,发现不对,再放大到那棵树,再放大到树叶下,终于找到了!”(多次渐进式聚焦

通过这种“手把手”的教学,AI 学会了**“看题下菜碟”**:简单的题不瞎折腾,难的题要层层深入。

第二步:强化训练(RL - 像给侦探发奖金)

光教还不够,还得在实战中奖励它。他们设计了一套**“聪明奖金制度”**(AdaZoom-GRPO):

  1. 效率奖金:如果你能不用放大镜就答对,给你满分;如果你非要乱用放大镜,扣分(因为浪费资源)。
  2. 聚焦奖金:如果你用放大镜时,是越缩越小、越来越准(像把镜头对准目标),给你加分;如果你乱晃镜头或者退回去,就不给分。
  3. 诚实奖金:如果你没看清就瞎猜,或者明明需要放大却直接猜答案,重罚!必须基于看到的证据说话。

🚀 结果怎么样?

经过这套“教学 + 奖金”的训练,GeoEyes 变成了真正的专家侦探

  • 该停则停:大任务直接看全景,不浪费算力。
  • 该进则进:小任务能像剥洋葱一样,一层层放大,直到找到那个微小的目标。
  • 成绩斐然:在著名的卫星图像测试(XLRS-Bench)中,GeoEyes 的准确率达到了 54.23%,不仅打败了其他专门的遥感 AI,甚至打败了参数大得多的通用 AI 模型(比如 Qwen3-VL-235B)。

🌟 一句话总结

这就好比教一个学生看地图:
以前的方法是告诉他“看到问题就放大”,结果他要么乱放大,要么放大一次就放弃。
GeoEyes 的方法是:先给他看各种案例(有的不用放大,有的要放大三次),再告诉他“找得准、找得省、找得真”才有奖励。最终,他学会了**“按需聚焦”**,成了看卫星地图的高手。

这项研究告诉我们:在超高清的世界里,不是“看得越多越好”,而是“看得越准、越有策略越好”。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →