OVGGT: O(1) Constant-Cost Streaming Visual Geometry Transformer

OVGGT 是一种无需训练的框架,通过自选择性缓存和动态锚点保护技术,在保持恒定显存与计算成本的同时,实现了任意长度视频流的高精度 3D 几何重建。

Si-Yu Lu, Po-Ting Chen, Hui-Che Hsu, Sin-Ye Jhong, Wen-Huang Cheng, Yung-Yao Chen

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 OVGGT 的新技术,它的核心目标是:让电脑像看连续剧一样,实时、无限地“看”视频并重建出 3D 世界,而且不会让电脑内存爆炸。

为了让你更容易理解,我们可以把这项技术想象成**“一个超级聪明的 3D 导游,带你在一个无限大的虚拟城市里旅行”**。

1. 以前的困境:导游的“记性”太好,反而累垮了

想象一下,你雇了一个导游(以前的 AI 模型,比如 StreamVGGT)带你参观城市。

  • 以前的做法:导游非常勤奋,他把你看过的每一块砖、每一棵树、每一栋楼都记在脑子里。
  • 问题:如果你只走 100 步,他还能记住。但如果你走了 1000 步、10000 步,他脑子里的“记忆清单”就会变得无限长。
  • 后果
    1. 内存爆炸:他的脑子(显存/VRAM)装不下这么多东西了,直接死机(OOM,Out of Memory)。
    2. 反应变慢:每次你问“前面是什么?”,他都要翻遍之前记下的几万条笔记,速度越来越慢。
    3. 记混了:因为记了太多无关紧要的垃圾信息(比如重复的墙壁纹理),反而把重要的地标给淹没了,导致重建的 3D 地图变得模糊、扭曲。

2. OVGGT 的解决方案:聪明的“记忆管理大师”

OVGGT 就像给这位导游换了一个**“超级大脑管理插件”。它不需要重新训练导游,而是教他如何聪明地遗忘和保留**。它主要做了两件事:

A. 自我选择性缓存 (Self-Selective Caching) —— “只记精华,扔掉废话”

导游不再死记硬背所有东西,而是学会**“抓重点”**。

  • 怎么判断重点? 就像你读文章时,会本能地关注那些“有故事、有转折”的句子,而忽略“的、了、吗”这种虚词。
    • OVGGT 会检查视频里的每一个画面碎片(Token)。如果某个碎片只是重复的蓝天或墙壁(废话),它就果断删除
    • 如果某个碎片包含了独特的几何结构、物体的边缘(精华),它就保留下来
  • 空间平滑:它还会确保保留下来的碎片是“成片”的。比如,它不会只保留一个孤零零的窗户,而是保留“整面墙”,这样重建出来的 3D 模型才连贯、清晰,不会像马赛克一样破碎。
  • 结果:无论视频多长,导游脑子里的“记忆清单”永远保持在一个固定的大小(比如只记 20 万条最重要的信息),内存占用永远不变,速度永远飞快。

B. 动态锚点保护 (Dynamic Anchor Protection) —— “永远记得‘家’和‘路标’"

虽然导游会扔掉废话,但他不能把**“家”(起始位置)和“关键路标”**也扔了,否则走着走着就会迷路(几何漂移)。

  • 全球初始锚点:导游永远把第一帧画面(你出发时的位置)锁死在脑子里,永远不删。这保证了无论走多远,坐标系不会乱。
  • 动态历史锚点:当你走到一个全新的区域,第一帧的画面可能已经看不到了。这时,导游会智能地临时设立几个“路标”(比如刚才经过的一个独特雕塑)。
    • 如果这些路标还能帮你看清方向,就保留。
    • 如果你走得太远,这些路标没用了,就自动替换成新的路标。
  • 结果:即使走了几公里,导游依然知道“我在哪”、“刚才的路是什么样”,不会把 3D 地图建歪。

3. 实际效果:快、省、准

论文通过实验证明,这套方法非常厉害:

  • 内存不爆:以前看 300 帧视频,显卡内存就爆了(OOM);现在用 OVGGT,看 500 帧甚至 1000 帧,内存占用还是和看 50 帧时一样,稳稳当当。
  • 速度飞快:因为不用翻旧账,处理速度非常快,甚至能达到实时(FPS 很高)。
  • 画质更好:有趣的是,“记性太好”反而不好。因为删掉了那些重复、混乱的垃圾信息,OVGGT 重建出来的 3D 模型,比那些试图记住一切的旧模型更清晰、更准确

总结

OVGGT 就像是一个学会了“断舍离”的 3D 导游。

以前的导游是“有闻必录”,结果脑子塞爆了,路也走错了。
现在的 OVGGT 导游是**“抓大放小”**:

  1. 自动过滤掉没用的重复信息(自我选择性缓存)。
  2. 死死守住关键的地标和起点(动态锚点保护)。

最终,它让你能在普通的家用显卡上,流畅地处理无限长的视频,实时生成高精度的 3D 世界。这对于未来的自动驾驶、机器人导航和元宇宙应用来说,是一个巨大的突破。