Lumos-1: On Autoregressive Video Generation with Discrete Diffusion from a Unified Model Perspective

本文提出了 Lumos-1,一种基于统一大语言模型架构的自回归视频生成模型,通过引入适配时空特征的 MM-RoPE 位置编码和结合帧间因果注意力掩码的自回归离散扩散强迫策略,在有限算力与数据下实现了超越现有主流模型的视频生成效果。

Hangjie Yuan, Weihua Chen, Jun Cen, Hu Yu, Jingyun Liang, Shuning Chang, Zhihui Lin, Tao Feng, Pengwei Liu, Jiazheng Xing, Hao Luo, Jiasheng Tang, Fan Wang, Yi Yang

发布于 2026-03-17
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 Lumos-1 的新 AI 模型。你可以把它想象成一位**“全能导演”**,它不仅能看懂文字,还能根据文字或图片,像变魔术一样“拍”出视频。

以前的 AI 拍视频,要么像“笨拙的工匠”(架构复杂、速度慢),要么像“依赖翻译的画家”(需要外部工具辅助)。而 Lumos-1 的厉害之处在于,它直接用了目前最强大的**大语言模型(LLM)**的“大脑”来拍视频,并且解决了很多以前解决不了的难题。

为了让你更容易理解,我们用几个生动的比喻来拆解它的核心创新:

1. 核心挑战:给视频“穿”上语言的衣服

大语言模型(比如 Chat 机器人)很擅长处理文字,因为文字是一条线(从前读到后)。但视频是立体的:有高度、宽度,还有时间(帧与帧之间)。

  • 问题: 如果强行把视频塞进语言模型,就像让一个只习惯走直线的单行道司机突然去开立体的螺旋楼梯,他会晕头转向,分不清上下左右和前后。
  • Lumos-1 的解法(MM-RoPE):
    以前的方法给视频加位置标签时,就像给楼梯的台阶贴标签,有的贴得太密,有的贴得太疏,导致司机(模型)在某些地方转得太快(看不清细节),在某些地方转得太慢(跟不上节奏)。
    Lumos-1 发明了一种**“智能导航系统”(MM-RoPE)。它重新设计了标签的贴法,让楼梯的每一个维度(高、宽、时间)都有均匀且丰富**的标签。
    • 比喻: 就像给一个 3D 迷宫里的每个角落都贴上了既清晰又均匀的坐标贴纸。这样,模型就能完美地理解“这个物体在左边”、“那个物体在下一帧移动到了右边”,从而拍出连贯的视频。

2. 核心挑战:如何高效地“画”出视频?

传统的语言模型是**“逐字生成”**(Next-token prediction),就像写文章一样,写完一个字再写下一个。

  • 问题: 如果拍 25 帧的视频,每帧有几千个像素块,逐字生成就像让画家一笔一笔画完整个电影,速度慢到让人绝望,而且容易画着画着就“跑偏”了(前后帧不连贯)。
  • Lumos-1 的解法(AR-DF):
    它换了一种思路,叫**“离散扩散”。想象一下,它不是从零开始画,而是先拿出一张全是马赛克(乱码)的画布**。
    • 训练时的秘密(时间管状掩码): 以前训练时,模型容易偷懒。比如画第 10 帧时,它直接“抄”第 1 帧的答案,因为第 1 帧已经画好了,这导致它学不会真正的“运动”。
      Lumos-1 发明了一种**“时间管状遮罩”。它把第 1 帧到第 10 帧同一个位置的像素都遮住,强迫模型必须根据时间的流动**去猜,而不是直接抄袭。
      • 比喻: 就像老师教学生做数学题,以前是让学生看答案抄(偷懒);现在老师把第 1 题到第 10 题的同一个关键步骤都盖住,逼学生必须理解“解题逻辑”才能把第 10 题解出来。
    • 推理时的秘密(部分观察): 在真正生成视频时,它也不是完全从头画。它先画好第一帧,然后故意把后面几帧的一部分擦掉(变成马赛克),让模型去“补全”。
      • 比喻: 就像玩“你画我猜”,先画个大概,然后盖住一部分,让你去猜剩下的。这样既快,又能保证画面连贯,不会出现“上一秒在笑,下一秒脸歪了”的恐怖谷效应。

3. 为什么它这么厉害?(成果)

  • 小身材,大能量: 它只用 48 张显卡(很多大模型需要成千上万张)就训练出来了。
  • 全能选手: 它不仅能文生图(文字变图片)、图生视频(图片变视频),还能文生视频(文字直接变视频)。
  • 效果惊人: 在多个权威测试(GenEval, VBench)中,它的表现超过了那些用了更多数据、更大算力的竞争对手(如 Show-o2, OpenSoraPlan 等)。

总结

Lumos-1 就像是给大语言模型装上了一套**“立体导航仪”(MM-RoPE)“快速补全画笔”(AR-DF)
它不再是一个只会写文章的“书呆子”,而变成了一位
懂电影、懂物理、动作流畅的导演**。它证明了,只要方法得当,用通用的语言模型架构,也能高效、高质量地生成复杂的视频,而且不需要庞大的算力堆砌。

一句话概括: 这是一个让 AI 从“只会写剧本”进化到“能直接拍大片”的突破性尝试,而且是用一种更聪明、更省钱的方式做到的。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →