UGround: Towards Unified Visual Grounding with Unrolled Transformers

UGround 提出了一种基于展开 Transformer 的统一视觉定位范式,通过策略提示掩码(包含随机跳跃连接和“掩码即提示”机制)动态选择中间层作为提示,从而解决传统方法累积误差及缺乏显式空间线索的问题,并首次在一个框架内统一了从属性视角出发的多种视觉定位任务。

Rui Qian, Xin Yin, Chuanhang Deng, Zhiyuan Peng, Jian Xiong, Wei Zhai, Dejing Dou

发布于 2026-02-17
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 UGround 的新 AI 系统,它的核心目标是让计算机不仅能“看懂”图片,还能精准地“指出”图片里具体是哪个部分,并且能听懂各种复杂的指令(比如推理、多目标识别,甚至识别“不存在的物体”)。

为了让你轻松理解,我们可以把现有的视觉定位技术比作一个**“传话游戏”**,而 UGround 则是这个游戏规则的彻底革新者。

1. 旧玩法的痛点:漫长的“传话游戏”

想象一下,你(用户)想告诉一个盲人画家(AI 模型):“把图片里那只正在睡觉的猫圈出来。”

  • 旧方法(Prevailing Paradigm):
    现在的 AI 模型像是一个由 40 个人排成一列组成的“传话队伍”。
    1. 你说的话(文本指令)传给第 1 个人。
    2. 第 1 个人理解后,传给第 2 个人,以此类推,一直传到第 40 个人。
    3. 问题在于: 只有最后一个人(第 40 层)能直接看到画布(图片)并下笔(生成掩码)。
    4. 后果: 就像小时候玩的“传话游戏”,话传到最后,意思往往已经变了,或者充满了噪音和错误。而且,如果第 1 个人理解错了,后面 39 个人都会跟着错,直到最后一个人发现时,已经来不及修正了。此外,最后那个人只听到了一句“猫”,却不知道猫具体在画布的哪个坐标,只能靠猜。

2. UGround 的革新:打破层级的“直通快车”

UGround 觉得这种“层层传递”太慢了,而且容易出错。它提出了两个核心大招:

大招一:随机“抄近道” (Stochastic Skip Connection)

UGround 把那个 40 人的队伍变成了**“多层电梯”**。

  • 当你的指令进来时,它不再非要传到第 40 层才去画画。
  • 它使用一种**“智能抽奖”机制(强化学习),随机决定在哪一层**(比如第 15 层、第 28 层或第 35 层)直接让指令“跳”出来,去指挥画家。
  • 比喻: 就像你在传话时,发现第 15 个人已经听得很清楚了,直接让他去画,不用等后面的人。这样既减少了信息在传递中的损耗(误差),又让不同深度的理解都能发挥作用。

大招二:从“口头描述”变成“手绘草图” (Mask as Prompt)

  • 旧方法: 最后那个人只拿到一个文字标签 <SEG>(就像一张写着“猫”的纸条),他得猜猫在哪。
  • UGround 方法: 它不给你纸条,而是直接给你一张**“热力图”**(Similarity Map)。
    • 这张图就像画家在画布上先轻轻涂了一层淡淡的颜色,颜色深的地方就是猫,颜色浅的地方就是背景
    • 然后,它把这张“草图”直接交给画家(SAM 模型)说:“照着这个涂色范围画,别猜了!”
  • 比喻: 以前是“盲猜”,现在是“描红”。这给了画家最明确的空间线索(猫具体在左上角还是右下角)。

3. UGround 的超能力:全能选手

以前的 AI 模型通常很“偏科”:

  • 有的只能听懂“把那只猫圈出来”(明确指令)。
  • 有的能处理“把那个像猫但不是猫的东西圈出来”(推理指令)。
  • 有的能圈出“猫和狗”(多目标)。
  • 有的遇到“圈出图片里不存在的龙”时,会傻乎乎地乱圈。

UGround 是一个“六边形战士”:
它在一个统一的框架下,能同时处理:

  1. 简单指令: “圈出猫”。
  2. 复杂推理: “圈出那个正在睡觉的、毛色是橘色的动物”。
  3. 多目标: “把猫和狗都圈出来”。
  4. 拒绝错误(安全机制): 如果你问“圈出图片里不存在的龙”,它能聪明地回答:“图片里没有龙”,而不是胡乱圈一块地方。

4. 总结:为什么这很重要?

你可以把 UGround 想象成一个超级聪明的艺术指导

  • 它不再死板地等待最后一步指令。
  • 它懂得在理解最透彻的任何阶段直接介入工作。
  • 它不再只给文字描述,而是直接给视觉草图,让执行者(SAM 模型)能精准落笔。
  • 它不仅能干活,还能辨别真假(比如识别不存在的物体),非常安全。

这项技术让 AI 在理解图片和执行复杂指令时,变得更聪明、更精准、更灵活,就像从“只会听最后指令的学徒”进化成了“能随时介入、有眼力见儿的资深大师”。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →