Quantized Visual Geometry Grounded Transformer

本文提出了首个针对视觉几何基础 Transformer(VGGT)的量化框架 QuantVGGT,通过引入双平滑细粒度量化与噪声过滤多样化采样技术,有效解决了特殊令牌导致的重尾分布及多视图数据校准不稳定问题,在实现显著内存缩减与加速的同时保持了极高的重建精度。

Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 QuantVGGT 的新技术,它的核心目标是让一个非常强大但极其“笨重”的 3D 重建 AI 模型(叫 VGGT),能够变轻、变快,从而能在普通的电脑甚至手机上流畅运行,同时还不损失太多精度。

我们可以把这篇论文的故事想象成如何把一辆重型坦克(VGGT)改装成一辆灵活的赛车,同时还能保持它的越野能力

以下是用通俗语言和比喻对这篇论文的解读:

1. 背景:为什么我们需要“改装”?

  • 主角 VGGT:这是一个超级厉害的 AI 模型,它看几张图片,就能瞬间还原出整个 3D 世界的样子(包括深度、相机位置、物体形状等)。它就像一辆重型坦克,火力猛(功能强),但油耗极高(计算和内存消耗巨大),普通的小路(手机、普通电脑)根本跑不动。
  • 问题:为了让它跑起来,我们需要给它“减肥”。在 AI 领域,这叫量化(Quantization),简单说就是把模型里那些“高精度的浮点数”(像用 32 位小数表示的精确重量)变成“低精度的整数”(像用 4 位整数表示的粗略重量)。
  • 难点:以前的“减肥”方法(量化技术)在 2D 图片模型上很管用,但在这个 3D 坦克上完全失效了。为什么?因为 VGGT 有两个特殊的“坏毛病”:
    1. 特殊的“导航员”太刺眼:VGGT 里有一些特殊的标记(Token),它们不是从图片里学来的,而是预先设定好的。它们就像坦克里几个特别吵闹的导航员,声音大得盖过了所有人,导致数据分布变得极度不平衡(长尾分布),普通的量化方法一处理,这些“大声音”就把所有数据都挤爆了,导致模型变傻。
    2. 校准样本太“偏科”:3D 数据非常复杂,每一组图片的角度都不一样。以前选用来“校准”模型的数据(就像选几个样本去教模型怎么减肥),如果选得不好(比如只选了几个极端的例子),模型就会学偏,遇到新场景就崩了。

2. 解决方案:QuantVGGT 的两大绝招

为了解决这两个问题,作者提出了 QuantVGGT,它有两套核心“改装技术”:

绝招一:双重平滑细粒度量化 (Dual-Smoothed Fine-Grained Quantization)

比喻:给坦克做“全身按摩”和“局部微调”

  • 第一步:全局旋转按摩(Pre-Global Rotation)
    • 问题:那几个吵闹的“导航员”(特殊 Token)太突出了。
    • 做法:作者用一种数学魔法(哈达玛变换,Hadamard Transform),把这些吵闹的声音打散,均匀地分摊到整个坦克的每个零件上。
    • 效果:原本几个特别大的“噪音”被稀释了,整个数据分布变得像平滑的波浪,不再尖峰突起。这就好比把几个大嗓门的人安排到人群中,大家的声音就平均了,不再刺耳。
  • 第二步:局部平滑微调(Post-Local Smoothing)
    • 问题:虽然大噪音没了,但每个零件内部还是有大小不一的波动。
    • 做法:再给每个通道(零件)单独调整一下比例,让它们的波动幅度一致。
    • 效果:经过这两步,原本“崎岖不平”的数据地形变得像高速公路一样平整,非常适合低精度的量化方法行驶。

绝招二:去噪多样化采样 (Noise-Filtered Diverse Sampling)

比喻:组建一支“精英校准小队”

  • 问题:以前选校准数据是“瞎蒙”或者只看标签(比如只看“这是桌子”),结果选到了很多极端的、有问题的样本(比如一张模糊不清的桌子),导致模型学歪了。
  • 做法
    1. 去噪:先检查所有候选样本,把那些“噪音”太大、质量太差的样本直接踢出去(就像体检把生病的人先筛掉)。
    2. 智能聚类:剩下的样本,不看标签,而是看它们帧与帧之间的几何关系(比如第一帧和后面几帧的相对位置)。根据这种关系把样本分成不同的“小组”。
    3. 均衡采样:从每个小组里均匀地挑人。
  • 效果:这样选出来的“校准小队”既没有坏分子(去噪),又覆盖了各种情况(多样化),让模型在减肥时能学到最正宗的“身材管理”经验。

3. 成果:改装后的效果如何?

经过这套“改装”后,VGGT 发生了惊人的变化:

  • 体积缩小:内存占用减少了 3.7 倍(相当于把一辆坦克压缩成了一辆吉普车)。
  • 速度提升:运行速度快了 2.5 倍(以前跑 1 秒,现在 0.4 秒)。
  • 精度保留:虽然变成了“低精度”模型,但它的 3D 重建能力依然保留了 98% 以上。就像把坦克换成了赛车,虽然装甲薄了点,但越野能力几乎没丢。
  • 通用性:不仅在测试集上表现好,在没见过的数据集(如 DTU, 7-Scenes)上也能保持高水平,说明它真的“学会”了怎么减肥,而不是死记硬背。

4. 总结

这篇论文就像是一位天才机械师,他发现了重型坦克(VGGT)无法在普通公路上行驶的两大原因(特殊 Token 的干扰和校准数据的偏差),然后发明了双重平滑按摩智能精英选拔两套工具,成功把坦克改造成了既轻便又强大的赛车。

这意味着,未来我们可以在手机、无人机甚至边缘设备上,实时运行这种顶级的 3D 重建 AI,让 AR 眼镜、机器人导航等技术真正走进千家万户。