Geometry-Aware Rotary Position Embedding for Consistent Video World Model

本文提出了 ViewRope(一种将相机射线方向直接注入 Transformer 注意力层的几何感知旋转位置编码)及配套的帧稀疏注意力机制,旨在解决现有视频世界模型在长轨迹中因依赖屏幕空间位置嵌入而导致的几何漂移问题,从而显著提升了 3D 场景的一致性与计算效率。

Chendong Xiang, Jiajun Liu, Jintao Zhang, Xiao Yang, Zhengwei Fang, Shizun Wang, Zijun Wang, Yingtian Zou, Hang Su, Jun Zhu

发布于 2026-02-24
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 ViewRope 的新技术,旨在解决当前 AI 生成视频时最大的痛点之一:“记性不好”和“空间感混乱”

为了让你轻松理解,我们可以把 AI 生成视频的过程想象成一个画家在画一幅巨大的、可以无限延伸的长卷画

1. 核心问题:画家的“健忘症”与“幻觉”

想象一下,你让这位 AI 画家画一段视频:

  • 场景:你站在一个房间里,先向左转看窗户,再向右转看门,最后转回来看窗户
  • 现状(旧模型的问题)
    • 当你第一次看窗户时,画得很清楚。
    • 当你转回来再看窗户时,旧模型画的窗户可能变了样:颜色不对了,或者窗户上凭空多了一朵花(幻觉),甚至窗户的位置都歪了。
    • 原因:旧模型就像是一个只盯着画布局部看的画家。它只记得“上一笔画在画布的左上角”,但它不知道“左上角”在现实世界里对应的是哪面墙。一旦你转动视角(相机移动),画布上的坐标就全乱了,它就把“左上角”和“右上角”搞混了,导致画面无法连贯。

2. 解决方案:ViewRope(给画家装上“指南针”)

作者提出的 ViewRope,就像是给这位画家装上了一个高精度的“空间指南针”和“记忆锚点”

  • 以前的做法(屏幕空间)

    • 画家只记坐标:“我在画布的 (100, 200) 位置画了一棵树”。
    • 当你转身时,树在画布上的位置变了,画家就懵了,以为那是另一棵树,于是重新画了一棵不一样的。
  • ViewRope 的做法(几何感知)

    • 画家不再记画布坐标,而是记**“光线”的方向**。
    • 它会对每一笔都打上标签:“这一笔是朝着正北方的窗户画的”。
    • 当你转了一圈又回到窗户前,画家会想:“哦,我现在又对着正北方了!那我之前画的那棵‘正北方的树’应该还在老地方。”
    • 结果:无论相机怎么转,只要回到同一个角度,AI 就能精准地调出之前画好的内容,保证窗户还是那个窗户,门还是那个门,不会变样,也不会凭空多出东西。

3. 效率提升:聪明的“记忆检索”(几何感知稀疏注意力)

除了让画得更准,ViewRope 还解决了一个**“太慢”**的问题。

  • 旧问题:为了画好长视频,AI 需要把过去几百帧画面都“背”下来,每次画新的一笔,都要把几百张旧图翻一遍来找灵感。这就像让你背下整本字典,每次写字都要翻一遍,效率极低,电脑容易卡死。
  • ViewRope 的优化
    • 因为它知道“正北方”对应的是哪段记忆,它就不需要翻遍所有旧图。
    • 它像是一个聪明的图书管理员:当你问“正北方的窗户”时,它直接跳过无关的“厨房”和“卧室”章节,只把“正北方”那几页书拿出来给你参考。
    • 效果:既保证了画得准(只参考最相关的记忆),又大大加快了速度(不用翻全本书)。

4. 新考场:ViewBench(专门测试“转圈圈”的考试)

为了证明这个方法真的有效,作者还设计了一个专门的测试题 ViewBench

  • 考什么:专门让 AI 画“转圈圈”的视频(比如转 360 度回到原点)。
  • 怎么打分:不看画得漂不漂亮,只看**“转回来时,画面是不是和出发时一模一样”**。
  • 结果:使用 ViewRope 的模型,在“转圈圈”测试中表现远超其他模型,几乎完美地记住了场景,没有产生幻觉或漂移。

总结

简单来说,这篇论文做了一件很酷的事:
它教会了 AI 视频生成模型**“用三维世界的逻辑去思考”**,而不是死记硬背二维画布的坐标。

  • 以前:AI 像个路痴,转个身就不知道自己在哪,画出来的世界支离破碎。
  • 现在 (ViewRope):AI 像个拥有完美空间感的导游,无论怎么转,都能精准地带你回到原来的位置,看到一模一样的风景,而且跑得还更快。

这项技术对于未来的VR(虚拟现实)、AR(增强现实)游戏以及自动驾驶模拟至关重要,因为它能让虚拟世界变得真实、稳定且连贯,不再是一个充满 Bug 的“幻觉世界”。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →