S2DiT: Sandwich Diffusion Transformer for Mobile Streaming Video Generation

本文提出了专为移动设备设计的 S2DiT(流式三明治扩散 Transformer),通过混合高效注意力机制、预算感知的动态规划搜索以及 2 合 1 蒸馏框架,在 iPhone 上实现了超过 10 FPS 的实时流式视频生成,同时达到了与顶尖服务器模型相当的高质量。

Lin Zhao, Yushu Wu, Aleksei Lebedev, Dishani Lahiri, Meng Dong, Arpit Sahni, Michael Vasilkovsky, Hao Chen, Ju Hu, Aliaksandr Siarohin, Sergey Tulyakov, Yanzhi Wang, Anil Kag, Yanyu Li

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 S2DiT 的新技术,它的核心目标非常酷:让你的手机(比如 iPhone)也能像超级计算机一样,实时、流畅地生成高质量的视频。

想象一下,以前你想在手机上看 AI 生成的视频,要么画质很模糊,要么要等很久,甚至手机会发烫死机。而 S2DiT 就像是一个“魔法盒子”,能让你的手机在几秒钟内,一边生成一边播放视频,就像看直播一样流畅。

为了让你更容易理解,我们可以用几个生动的比喻来拆解这项技术:

1. 核心难题:手机太“瘦”,任务太“重”

目前的顶级视频生成模型(像 Wan 或 Sora)就像是一个体重 200 斤的相扑选手。他力气大、画得好,但需要巨大的舞台(服务器)和大量的食物(算力)。如果把他硬塞进手机这个“小房间”里,不仅跑不动,还会把房子撑爆(内存溢出)。

以前的手机视频模型为了塞进手机,不得不把相扑选手“压缩”成一个小矮人,结果就是画质差、动作僵硬。

2. S2DiT 的解决方案:三明治架构 (The Sandwich)

S2DiT 没有选择把模型“压缩”成小矮人,而是设计了一种**“三明治”结构**,让模型在保持画质的同时,变得轻盈灵活。

  • 面包片(LCHA 模块):负责“细节”
    这就好比三明治里的新鲜生菜和番茄。它们负责捕捉视频中的每一个微小细节(比如人物的表情、衣服的纹理)。这部分计算量很大,但 S2DiT 发明了一种叫“线性注意力”的新方法,让它在处理细节时,不再需要像以前那样“逐个检查”,而是能“一眼扫过”,速度极快。
  • 肉饼(SSA 模块):负责“大局”
    这是三明治里的厚切牛肉。它负责理解视频的整体结构和动作逻辑(比如宇航员在跑,而不是在飞)。为了节省空间,它会把画面稍微“缩小”一点再处理,这样计算起来就快多了。
  • 智能厨师(动态搜索算法):如何摆放?
    怎么把“生菜”和“肉饼”叠在一起最好吃?S2DiT 有一个智能厨师,它会根据手机的电量、内存和速度限制,自动计算最佳的“三明治”层数。是放三层生菜两层肉?还是两层生菜三层肉?它会自动找到那个“既好吃(画质好)又吃不撑(不卡顿)”的完美平衡点。

3. 魔法教学:2-in-1 蒸馏 (The 2-in-1 Distillation)

有了好的架构,还需要教它怎么画。通常,教一个小模型画好画,需要一个大画家(老师模型,比如 140 亿参数的 Wan 2.2)在旁边实时指导。但这太慢了,手机等不起。

S2DiT 发明了一种**“离线备课”**的方法:

  • 传统做法:学生每画一笔,老师都要现场看一遍,再给建议。这太慢了。
  • S2DiT 的做法:老师先把自己画过的所有好作品(数据)和对应的讲解(知识)全部提前打印出来,存进一个巨大的题库里
  • 学生(手机模型)在训练时,直接看这个题库,不需要老师实时在场。这样,学生就能以极快的速度学会大画家的技巧,而且不需要占用手机太多的内存。

4. 实时流式生成:像“接龙”一样画画

以前的视频生成是“先画完整个画面,再给你看”。S2DiT 则是**“流式生成”**。
想象你在玩“你画我猜”的接龙游戏:

  • 手机先画出第一帧(比如宇航员的头)。
  • 紧接着,基于第一帧,它立刻画出第二帧(身体)。
  • 再画出第三帧(腿)。
  • 这个过程是因果相连的,就像流水一样源源不断。
  • 为了不让画面“断片”或“抖动”,S2DiT 还用了**“自我强迫”**策略,让模型在训练时就模拟这种“边画边看”的过程,确保每一帧都跟上一帧完美衔接。

总结:它做到了什么?

  • 速度快:在 iPhone 16 Pro Max 上,它能达到 10 帧/秒 的生成速度,这意味着你可以实时看着视频“长”出来。
  • 画质好:它的效果几乎和那些运行在昂贵服务器上的顶级模型一样好,甚至更好。
  • 省资源:它不需要巨大的服务器,只需要你的手机就能运行。

一句话概括:
S2DiT 就像给你的手机装上了一个**“智能、高效且懂艺术的瑞士军刀”**,它通过巧妙的“三明治”结构和“离线备课”教学法,让手机也能实时生成好莱坞级别的视频,彻底打破了“好画质必须靠大服务器”的魔咒。