CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting

本文提出了 CountFormer 框架,通过结合 DINOv2 自监督视觉基础模型与位置编码,在严格无样本设置下探索了利用视觉重复和结构特征提升类无关物体计数性能的有效性,并在 FSC-147 基准上取得了具有竞争力的结果。

Md Tanvir Hossain, Akif Islam, Mohd Ruhul Ameen

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 CountFormer 的新 AI 模型,它的核心任务是教计算机像人类一样“数数”,而且不需要提前告诉它要数的是什么东西。

为了让你更容易理解,我们可以把这篇论文的故事想象成**“教一个不懂外语的外国游客数人头”**。

1. 以前的难题:只会认“脸”,不会看“结构”

想象一下,你让一个只会认“人脸”的 AI 去数一群穿着奇怪盔甲的士兵。

  • 传统 AI 的困境:以前的 AI 就像是一个死记硬背的学生。如果它没见过“盔甲”,它就懵了。或者,它虽然能看见,但分不清整体和局部。
  • 具体的错误:比如让它数一副眼镜。传统的 AI 可能会把左镜片数成 1 个,右镜片数成 1 个,结果告诉你这里有"2 个物体”,而实际上那只是"1 副眼镜”。它看到了零件,却看不懂零件是如何组成一个整体的。

2. CountFormer 的绝招:请了一位“超级观察家”当老师

为了解决这个问题,作者没有发明一套全新的数学公式,而是给 AI 换了一双更厉害的眼睛。

  • DINOv2(超级观察家):作者给 AI 装上了一个名为 DINOv2 的“预训练大脑”。这个大脑之前看过海量的图片,它不需要人教,自己就学会了观察物体的形状、纹理和空间结构
    • 比喻:这就好比给那个外国游客请了一位精通当地文化的向导。向导不仅告诉他“这是人”,还告诉他“这两只手是连在同一个身体上的,不能分开数”。
  • 位置坐标(GPS 定位):光有观察力还不够,AI 还需要知道东西“在哪里”。作者给 AI 加上了二维位置编码,就像给每个像素点都贴上了 GPS 坐标。这样 AI 就能明白:“哦,这两个镜片虽然长得不一样,但它们紧紧挨在一起,属于同一个物体。”

3. 它是如何工作的?(简单的三步走)

  1. 看(编码):把图片喂给 DINOv2,它提取出图片的“骨架”和“结构特征”。
  2. 定位(融合):把这些特征和“位置坐标”结合起来,让 AI 既知道“是什么”,也知道“在哪”。
  3. 数(解码):最后通过一个轻量的“翻译官”(卷积网络),把特征画成一张热力图
    • 比喻:想象在图片上撒了一把沙子,物体密集的地方沙子就多。AI 只需要把沙子的总量加起来,就是物体的数量。

4. 实验结果:它真的变聪明了吗?

作者在著名的 FSC-147 数据集(包含 147 种不同物体的计数任务)上测试了这个模型。

  • 总体成绩:在标准的考试(整体误差统计)中,它的分数和以前的顶尖模型差不多,没有“碾压”对手。
  • 亮点时刻:但在细节上,它表现得更好。
    • 例子:在数眼镜成堆的笔或者复杂的机械零件时,以前的模型容易把“一个零件”当成“一个物体”数,导致数多了(过计数)。而 CountFormer 因为看懂了结构,能更准确地识别出“这是一副眼镜”,而不是“两个镜片”。
  • 关于“极端情况”的真相
    • 作者发现,如果图片里有极度密集的物体(比如几千个乐高积木挤在一起,连边界都看不清),AI 就会数错。
    • 有趣的发现:如果把这 4 张特别难的“地狱级”图片从统计中拿掉,AI 的准确率会瞬间飙升,变得非常惊人。这说明目前的评分标准(RMSE)太容易被这几张极难图片“带偏”了,掩盖了 AI 在普通场景下的真实能力。

5. 总结:这篇论文想告诉我们什么?

这篇论文的核心思想不是要造一个“全能冠军”,而是想证明一个观点:
在数数这件事上,AI 的“观察力”(Representation)比“算数技巧”更重要。

通过引入能理解空间结构的“超级观察家”(DINOv2),AI 不再只是机械地数点,而是开始懂得**“整体大于部分之和”。虽然它在面对极度混乱的场景时还会犯错,但它已经学会了像人类一样,通过观察物体的重复模式结构关系**来数数,而不是死记硬背物体的名字。

一句话概括
CountFormer 给 AI 装上了一副能看懂“整体结构”的眼镜,让它不再把一副眼镜当成两个物体来数,从而在不需要任何提示的情况下,更聪明地数清了各种奇怪的物体。