Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence

本文提出了 Holi-Spatial,这是首个完全自动化构建的大规模空间感知多模态数据集,它利用原始视频流生成包含 3D 高斯泼溅重建、物体级语义标注及空间问答对的高质量数据,显著提升了现有基准的规模与质量,并有效增强了视觉语言模型在空间推理任务上的表现。

Yuanyuan Gao, Hao Li, Yifei Liu, Xinhao Ji, Yuning Gong, Yuanjun Liao, Fangfu Liu, Manyuan Zhang, Yuchen Yang, Dan Xu, Xue Yang, Huaxi Huang, Hongjie Zhang, Ziwei Liu, Xiao Sun, Dingwen Zhang, Zhihang Zhong

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 Holi-Spatial 的超级项目,它的核心目标可以用一句话概括:把普通的手机视频,自动变成拥有“空间智慧”的 3D 世界地图,而且全程不需要人工干预。

为了让你更容易理解,我们可以用几个生动的比喻来拆解它:

1. 痛点:以前的“盲人摸象”

想象一下,你想教一个机器人(或者 AI 模型)理解现实世界。

  • 以前的做法:就像让机器人去读一本只有几页的、人工编写的绘本(比如 ScanNet 数据集)。这本绘本里只有几千个房间,而且都是人工一个个画好标注的。
    • 缺点:书太薄了(数据少),机器人读完后,换个没见过的房间就晕头转向了。而且人工画太慢、太贵,根本没法大规模推广。
  • 现在的困境:互联网上有海量的视频,但机器人看不懂视频里的“深度”和“空间关系”,它们只能看到平面的图片,不知道桌子离沙发有多远,也不知道门在左边还是右边。

2. 解决方案:Holi-Spatial 的“全自动工厂”

Holi-Spatial 就像是一个全自动的 3D 世界加工厂。它不需要人工去画线、标框,而是直接吞下原始视频,吐出高质量的 3D 数据。

这个工厂有三个核心车间(步骤):

第一车间:几何优化(把“纸片”变成“积木”)

  • 比喻:想象你有一堆拍得乱七八糟的照片(视频帧)。普通的 AI 看这些照片,觉得物体是平面的,或者像纸片一样飘在空中(这叫“浮游物”)。
  • Holi-Spatial 的做法:它先利用一种叫 3DGS(3D 高斯泼溅) 的魔法技术,像拼乐高一样,把散落在不同角度的照片碎片,强行“捏”成一个稳固的、有厚度的 3D 模型。
  • 效果:原本飘在空中的“纸片”变成了实实在在的“积木”,墙壁变直了,地板变平了,消除了那些奇怪的鬼影和漂浮物。

第二车间:图像感知(给积木贴标签)

  • 比喻:现在有了 3D 积木,但上面还是光秃秃的。我们需要知道哪块是“红色的沙发”,哪块是“木头的桌子”。
  • Holi-Spatial 的做法:它请来了一个超级聪明的“图书管理员”(大语言模型 VLM),让它看视频里的关键帧,告诉它:“这是沙发,那是灯”。然后,它利用一个超级分割工具(SAM3),像用剪刀剪纸一样,把视频里的物体轮廓精准地剪下来。
  • 关键点:它不是只看一张图,而是把剪下来的“纸片”根据刚才建好的 3D 模型,重新粘贴回 3D 空间里。

第三车间:场景精炼(去伪存真,生成考题)

  • 比喻:工厂里可能会有一些次品,比如把“半张沙发”误认为是“两个沙发”,或者把“垃圾桶”看成了“椅子”。
  • Holi-Spatial 的做法
    1. 合并:如果两个视角都看到了同一个沙发,它就把它们合并成一个完整的沙发。
    2. 质检:如果 AI 不太确定(比如置信度低),它会请一个“更高级的 AI 质检员”再仔细看看(Zoom in 放大看),确认是不是真的。
    3. 出题:最后,它根据这个完美的 3D 场景,自动生成成千上万道空间推理题
      • 题目示例:“如果你站在书桌前面向行李箱,那个瓶子在你的哪个方向?”(前左、后右?)

3. 成果:Holi-Spatial-4M 数据集

经过这个工厂的加工,他们造出了一个巨大的宝藏库:Holi-Spatial-4M

  • 规模:包含 12,000 个优化过的 3D 场景,400 万条标注数据。
  • 内容:有 3D 边界框(给物体画框)、有物体描述(写小作文)、有 3D 定位(指哪打哪),还有 120 万道空间推理题。
  • 特点:它是开放词汇的。以前的数据集只能识别“椅子、桌子”等 50 种东西;这个数据集能识别“那个有点破的蓝色懒人沙发”、“带花纹的复古台灯”等任何你叫得出的东西。

4. 为什么这很重要?(实际效果)

为了验证这个工厂好不好用,作者把造出来的数据用来训练现有的 AI 模型(比如 Qwen3-VL)。

  • 结果:就像给原本只有小学水平的机器人,突然灌输了大学的空间几何知识。
  • 提升
    • 3D 检测:准确率提升了 64%(以前可能把沙发看成两半,现在能完整识别)。
    • 空间推理:在测试题中,正确率大幅提升。
    • 泛化能力:以前只能在训练过的房间里认路,现在到了没见过的复杂环境,也能大概知道东西在哪。

总结

Holi-Spatial 就像是给 AI 世界装上了一双能看透深度的“透视眼”,并且通过自动化流水线,把互联网上无穷无尽的普通视频,转化成了训练 AI 理解 3D 世界的顶级教材

它不再需要人类一个个去标注,而是让 AI 自己学会如何从视频中“看”懂空间。这为未来的机器人导航、自动驾驶、增强现实(AR) 打下了最坚实的基础。