SLARM: Streaming and Language-Aligned Reconstruction Model for Dynamic Scenes

本文提出了 SLARM,一种基于前馈架构的统一模型,通过高阶运动建模、语言对齐特征蒸馏及窗口因果注意力机制,在无需光流监督的情况下实现了动态场景的实时流式重建、语义理解与语言查询,并在运动精度、重建质量和分割性能上均取得了最先进水平。

Zhicheng Qiu, Jiarui Meng, Tong-an Luo, Yican Huang, Xuan Feng, Xuanfu Li, ZHan Xu

发布于 2026-03-25
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 SLARM 的新 AI 模型。为了让你轻松理解,我们可以把 SLARM 想象成一位**“拥有超能力的 3D 电影导演兼翻译官”**。

以前的 3D 重建技术(比如给视频建模)通常像是一个笨重的工匠:它需要花几个小时甚至几天去慢慢打磨一个场景,而且一旦场景里有东西在动(比如人走路、车转弯),它就晕头转向,要么修不好,要么修得歪歪扭扭。

而 SLARM 则像是一位**“闪电侠”,它不仅能实时**(Streaming)处理视频,还能听懂人话(Language-Aligned),并且能精准地捕捉复杂的动作

下面我们用几个生动的比喻来拆解它的三大核心绝招:

1. 它是如何“看懂”复杂动作的?(高阶运动建模)

  • 以前的做法:想象你在教一个机器人走路。以前的模型(比如 STORM)只会教机器人:“你现在的速度是 5 公里/小时,保持匀速。”如果机器人突然加速、急刹车或者像人一样摆动手臂,这个模型就懵了,因为它只懂“匀速直线运动”。
  • SLARM 的做法:SLARM 是个**“物理学家”。它不仅知道速度,还知道加速度**(踩油门的力度)和加加速度(也就是“急动度”,比如突然猛踩刹车或急转弯的顿挫感)。
    • 它用一种**“泰勒展开”**(听起来很数学,其实就是把动作拆成无数个微小的变化)来预测物体下一秒、下下一秒会怎么动。
    • 比喻:就像看一部动作电影,以前的模型只能看到“他在跑”,SLARM 能看到“他先加速,然后为了躲避障碍突然急转弯,最后因为惯性身体前倾”。这让它在重建动态场景(如行人、车辆)时,动作极其自然流畅,不会像机器人那样僵硬。

2. 它是如何“听懂人话”的?(语言对齐语义)

  • 以前的做法:以前的 3D 模型像个**“哑巴”**。你给它看一张图,它能画出 3D 形状,但你问它:“图里那个穿红衣服的人是谁?”或者“把‘汽车’标出来”,它完全听不懂,因为它只认识像素,不认识概念。
  • SLARM 的做法:SLARM 是个**“翻译官”**。它向一个已经学会“看图说话”的超级大脑(LSeg 模型)偷师学艺(蒸馏技术)。
    • 它把 3D 场景里的每一个小点(高斯点)都贴上了**“语言标签”**。
    • 比喻:以前重建的 3D 城市里,所有的车、树、人都是灰色的,没有名字。SLARM 重建后,你只要在对话框里输入“把所有的行人标成红色”,它瞬间就能在 3D 世界里把行人高亮显示出来。甚至你可以问它:“哪里有自行车?”它也能立刻指出来。这让 AI 不仅能“看”到世界,还能“理解”世界。

3. 它是如何做到“实时直播”的?(流式推理)

  • 以前的做法:以前的模型像是一个**“剪辑师”**。它必须等整部电影(整个视频片段)拍完,把过去和未来的画面都放在桌子上,反复对比、修改,才能剪出一集。这意味着它不能直播,只能事后诸葛亮,而且内存占用巨大。
  • SLARM 的做法:SLARM 是个**“直播主播”。它采用“流式处理”**。
    • 它每收到一帧画面,就立刻处理并输出结果,不需要等待未来的画面。
    • 它有一个**“记忆窗口”**,只保留最近的一小段历史,处理完就释放内存,永远保持轻装上阵。
    • 比喻:就像你在看直播,SLARM 是**“边看边画”**。不管视频播了多久,它占用的内存和反应时间都是一样的,不会越看越卡。这对于自动驾驶汽车(需要实时反应)和机器人(需要实时感知)来说,简直是救命稻草。

总结:SLARM 到底强在哪?

如果把重建动态 3D 世界比作**“拍一部科幻大片”**:

  1. 速度快:它不需要后期慢慢渲染,而是实时生成,像直播一样流畅。
  2. 动作真:它能捕捉到人类走路、车辆转弯时那种非匀速的复杂动态,不会把动作做得像机器人。
  3. 懂语言:它不仅能画出 3D 模型,还能听懂你的指令(比如“找出所有的树”),让 3D 世界变得可交互、可查询。

一句话概括:SLARM 是一个能实时直播、动作逼真、且能听懂人话的 3D 世界重建大师,它让自动驾驶和机器人能更聪明、更安全地理解我们周围那个充满动态变化的世界。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →