GroundCount: Grounding Vision-Language Models with Object Detection for Mitigating Counting Hallucinations

本文提出了 GroundCount 框架,通过结合目标检测模型的空间定位能力来增强视觉语言模型,有效缓解了计数任务中的幻觉问题,并揭示了位置编码与结构化提示在提升计数准确性方面的关键作用。

Boyuan Chen, Minghao Shao, Siddharth Garg, Ramesh Karri, Muhammad Shafique

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于人工智能(AI)如何数数的有趣故事,以及研究人员如何帮它改掉“瞎编乱造”的坏毛病。

我们可以把这篇论文的核心内容想象成一场**“老练的数数专家”与“博学的但有点迷糊的艺术家”之间的合作**。

1. 问题:为什么 AI 总是数错?

想象一下,你有一个博学的艺术家(这就是现在的视觉语言大模型,VLM)。他读过万卷书,能看懂复杂的图片,能写诗,能分析情感。但是,如果你让他数一张图里有几只猫,他经常会**“数晕”**。

  • 现象:他可能会说“有 3 只猫”,其实只有 2 只;或者因为图片里有一只猫被挡住了,他就开始怀疑人生,反复纠结,最后瞎猜一个数字。
  • 原因:这个艺术家太依赖“感觉”和“文字联想”,而不是真的去“看”清楚每一个物体。就像一个人看一幅画,脑子里想的是“猫”,结果数的时候把影子里的猫影也算进去了,或者把两只挤在一起的猫当成一只。
  • 现状:即使是最聪明的 AI,在“数数”这个任务上,准确率也远低于其他任务(比如识别物体是什么,或者描述物体的颜色)。

2. 解决方案:GroundCount(给艺术家配个“数数助手”)

研究人员发现,有一类专门的“数数助手”(物体检测模型,比如 YOLO),它们虽然不懂写诗,也不懂情感,但它们数数特别准,而且速度极快。它们就像拿着放大镜和计数器的工人,能精准地框出每一个物体,并告诉它:“这里有一只猫,位置在左上角,我很确定。”

于是,研究人员提出了 GroundCount 框架,核心思想是:别让艺术家自己瞎猜,直接让“数数助手”把结果告诉艺术家。

他们设计了三种合作方式(就像三种不同的团队协作模式):

方案 A:直接“报数”(提示词增强)—— 最成功的方法

  • 怎么做:先把图片给“数数助手”看,助手数完后,把结果写成一段文字(比如:“左上角有 1 只猫,右下角有 2 只猫”),然后把这段文字直接贴在艺术家的作业本上,让他照着念。
  • 比喻:就像你让一个数学不好但文笔好的学生做题,你直接在他旁边贴个便利贴写着“答案是 5",他只要照着写就行。
  • 效果立竿见影! 准确率从 74.7% 提升到了 81.3%。而且因为艺术家不用自己反复纠结、瞎猜了,做题速度反而快了 22%。这就像是他不再在脑海里打转,直接拿到了答案,省了很多时间。

方案 B:深度“融合”(特征级融合)—— 有点复杂

  • 怎么做:不写文字,而是把“数数助手”看到的图像特征,直接塞进艺术家的脑子里(通过复杂的神经网络融合)。
  • 比喻:这就像试图把助手的“眼睛”直接移植到艺术家的“大脑”里,让他们共用一套视觉系统。
  • 效果:虽然也能提高一点准确率,但效果不如方案 A 好,而且训练起来很麻烦,容易让艺术家“忘了”自己原本的知识(过拟合或灾难性遗忘)。

方案 C:混合模式

  • 怎么做:既给文字提示,又做特征融合。
  • 效果:速度最快,但准确率没有单纯给文字提示(方案 A)那么高。

3. 研究发现的小秘密(消融实验)

研究人员还做了一些“拆零件”的实验,发现了一些有趣的细节:

  • 位置信息很重要:告诉艺术家物体在“左上角”还是“右下角”很有用。对于聪明的模型,这能帮大忙;但对于某些不太聪明的模型,给太多位置信息反而让它更晕。
  • 自信度是双刃剑:助手会告诉艺术家“我有 90% 的把握这是猫”。研究发现,有时候把这个“把握程度”也告诉艺术家,反而会让它分心,甚至引入噪音。把它去掉,有些模型反而数得更准。
  • 宁缺毋滥:如果助手把一些模糊不清的东西也当成猫报上去(降低检测门槛),艺术家的准确率会大幅下降。这说明:数得准比数得多更重要

4. 总结与启示

这篇论文告诉我们一个深刻的道理:

AI 的“数数”困难,不是因为它们不够聪明,而是因为它们“看”世界的方式不对。

  • 大模型(VLM) 擅长理解整体、讲故事、搞创作,但在精确的空间定位和计数上,天生有短板。
  • 专用小模型(ODM) 虽然不懂大道理,但在数数和定位上却是专家。
  • 最佳策略:不要试图把大模型改造成数数专家,而是给大模型配一个专门的数数助手,用简单的文字把结果“喂”给它。这种“外挂”方式简单、高效,而且不需要重新训练庞大的模型。

一句话总结
这就好比让一个博学的教授去数仓库里的箱子,他可能会数错;但如果你给他配一个拿着计数器的仓库管理员,管理员数好告诉他“一共 50 个”,教授就能立刻给出正确答案,而且速度还更快了。这就是 GroundCount 的魔法。