Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 Helios 的超级视频生成模型。为了让你轻松理解，我们可以把视频生成想象成**“让 AI 画一部连续的电影”**。

以前的 AI 画电影有个大毛病：要么画得太慢（画 5 秒钟要等半小时），要么画长了就“忘本”（画面开始扭曲、变色，或者人物突然变成另一个人）。而 Helios 就像是一个**“超级快手且记忆力超群的电影导演”**。

以下是 Helios 的三大核心绝招，用生活中的比喻来解释：

1. 它是“快手导演”：140 亿参数的模型，跑得像 13 亿的小模型一样快

背景：通常，模型越大（参数越多），画得越好看，但速度越慢。这就好比让一个拥有 140 亿个脑细胞的超级大脑去画画，通常慢得像蜗牛。
Helios 的绝招：它虽然是个“超级大脑”（14B 参数），但它学会了一套**“压缩记忆法”**。
- 比喻：想象你在写长篇小说。以前的方法是把前面写过的每一页都重新读一遍才能写下一页，太慢了。Helios 则像是一个**“精明的图书管理员”**，它把很久以前的故事压缩成几个关键词（短、中、长期记忆），只保留最重要的部分。
- 效果：它不需要把整个历史都塞进脑子里，所以它能在单张显卡上以19.5 帧/秒的速度生成视频。这比很多小模型还快，而且画质依然保持顶级。

2. 它是“防走神专家”：画长视频不“漂移”

背景：很多 AI 画长视频时，画着画着就“漂移”了。比如画一只猫，画到后面猫变成了狗，或者颜色突然变绿了。这就像你让一个人闭眼转圈走直线，走远了肯定走歪。
Helios 的绝招：它不需要像别人那样用复杂的“作弊手段”（比如强行修正错误）来防止走偏，而是**“在训练时就模拟走偏”**。
- 比喻：
  - 第一帧锚点（First Frame Anchor）：就像你画画时，先死死盯住第一张图，把它作为“定海神针”，不管后面怎么变，整体色调和主角长相不能变。
  - 模拟故障（Frame-Aware Corrupt）：Helios 在训练时，故意给历史画面加点“噪点”或“模糊”，就像让画家在看不清旧画的情况下继续画。这样训练出来的画家，即使面对模糊的旧图，也能凭本能画出连贯的新图，不会画崩。
- 效果：它能生成几分钟甚至更长的视频，画面始终稳定，人物不会突然变形，颜色也不会乱跳。

3. 它是“全能导演”：一个模型搞定所有任务

背景：以前，让 AI 根据文字画画（文生图）、根据图片画视频（图生视频）、或者让视频接着画（视频续写），通常需要三个不同的模型，或者很麻烦的切换。
Helios 的绝招：它有一个**“万能接口”**。
- 比喻：就像你有一个**“万能遥控器”**。如果你输入文字，它就当文字导演；如果你给它一张图，它就当图片导演；如果你给它一段视频，它就当视频续写导演。它不需要换电池（换模型），同一个大脑就能灵活切换。
- 效果：它不仅能生成视频，还能在生成过程中实时互动。比如你正在看它生成的视频，突然想改一下剧情（比如把“晴天”改成“下雨”），它能立刻反应过来，平滑地过渡，不会让画面闪烁或断裂。

总结：Helios 到底强在哪？

特性	以前的 AI (比如 Krea, Wan 等)	Helios (这篇论文的主角)	比喻
速度	大模型很慢，小模型画质一般	14B 大模型，速度却像 1.3B 小模型	法拉利引擎装在自行车上，还跑得飞快
时长	画久了就“漂移”、变形	分钟级长视频，稳如泰山	长跑运动员跑马拉松不喘气，姿势不变形
技术	依赖复杂的“纠错”或“缓存”	靠“压缩记忆”和“模拟故障”训练	靠内功心法，而不是靠外挂
应用	只能做单一任务	文、图、视频通吃，还能实时改剧情	一个演员能演所有角色，还能即兴改剧本

一句话总结：
Helios 就像一个既聪明又手速极快、而且记性超好的电影导演。它不需要昂贵的设备堆砌，就能在单张显卡上实时生成高质量、超长时间且不会“画崩”的互动视频。这标志着 AI 视频生成从“只能看短片”迈向了“实时生成世界”的新阶段。

Each language version is independently generated for its own context, not a direct translation.

Helios：实时长视频生成模型技术总结

1. 研究背景与问题 (Problem)

现有的视频生成模型（如 Diffusion Transformers）虽然在短片段（5-10 秒）生成上取得了显著进展，但在实时长视频生成（Real-Time Long Video Generation）方面仍面临巨大挑战：

生成速度慢：主流模型（如 Wan2.1 14B）生成 5 秒视频通常需要数十分钟，无法满足游戏引擎或交互式生成的实时需求。
长视频漂移（Drifting）：随着视频时长增加，画面会出现严重的语义漂移、颜色偏移、位置偏移或重复运动，导致视频质量急剧下降。
现有方案的局限性：
- 现有的实时长视频方案多基于小参数模型（如 1.3B），难以表达复杂运动和保留高频细节。
- 大模型方案（如 Krea-RealTime-14B）速度较慢（约 6.7 FPS），且严重依赖昂贵的训练策略（如 Self-Forcing、Error-banks）来缓解漂移，导致训练成本高昂且泛化性差。
- 许多方法依赖因果掩码（Causal Masking），破坏了预训练模型的双向注意力机制，限制了生成质量。

2. 核心方法论 (Methodology)

Helios 是一个140 亿参数（14B）的自回归扩散模型，旨在单张 NVIDIA H100 GPU 上实现19.5 FPS的实时长视频生成。其核心创新分为三个维度：

2.1 统一历史注入与无限生成 (Unified History Injection)

架构设计：将双向预训练模型转化为自回归生成器，支持 T2V（文生视频）、I2V（图生视频）和 V2V（视频生视频）的统一框架。
表示控制 (Representation Control)：输入由“历史上下文”（ $X_{Hist}$ ，干净帧）和“噪声上下文”（ $X_{Noisy}$ ，待生成帧）拼接而成。通过控制 $X_{Hist}$ 的表示（全零、仅最后一帧、或多帧）自动切换任务模式。
引导注意力 (Guidance Attention)：
- 在自注意力层中，对历史 Key 引入头级放大令牌（amp），增强历史上下文对未来的引导作用，同时抑制冗余信号。
- 在交叉注意力层中，仅对噪声上下文注入文本语义，避免对已包含语义的历史帧重复注入。
相对 RoPE (Relative RoPE)：采用相对时间索引，避免绝对位置编码导致的周期性重复运动（Repetitive Motion）和超出训练范围的漂移。

2.2 简易抗漂移策略 (Easy Anti-Drifting)

Helios 摒弃了 Self-Forcing 和 Error-banks 等复杂策略，通过以下三种训练策略显式模拟漂移：

首帧锚定 (First-Frame Anchor)：在训练和推理中始终保留第一帧作为历史上下文，作为全局视觉锚点，约束后续片段的分布偏移，有效缓解颜色漂移。
帧感知腐蚀 (Frame-Aware Corrupt)：在训练时，对历史帧独立采样曝光调整、添加噪声或下采样再上采样等扰动。这模拟了推理时历史帧不完美累积的误差，提高了模型对“有瑕疵历史”的鲁棒性。
自适应采样 (Adaptive Sampling)：推理时监测潜在空间的统计量（均值/方差），若检测到显著漂移，则对历史上下文应用帧感知腐蚀，迫使模型回归生成先验。

2.3 深度压缩流 (Deep Compression Flow)

为了在 14B 模型上实现实时生成，Helios 大幅降低了计算量：

多术语记忆分块 (Multi-Term Memory Patchification)：将历史上下文分为短、中、长三个时间窗口，分别应用不同粒度的时空卷积核进行压缩。随着时间距离增加，压缩比增大，从而在固定 Token 预算下保留超长历史。
金字塔统一预测校正器 (Pyramid Unified Predictor Corrector)：将生成过程分为多尺度阶段（低分辨率->高分辨率）。早期步骤在低分辨率潜空间处理全局结构，后期逐步细化细节。这显著减少了早期步骤的 Token 数量。
对抗分层蒸馏 (Adversarial Hierarchical Distillation)：
- 纯教师强制 (Pure Teacher Forcing)：仅使用自回归模型作为教师，无需长序列 rollout，大幅降低训练成本。
- 分层反向模拟 (Staged Backward Simulation)：将 DMD 的反向模拟分解为多阶段，逐步恢复清晰样本。
- 对抗后训练 (Adversarial Post-Training)：引入 GAN 目标，利用真实数据监督，突破教师模型的性能上限，提升真实感。
- 最终将采样步数从 50 步减少到3 步。

2.4 基础设施优化

显存优化：通过分片 EMA、异步显存释放、GAN 梯度缓存（Cache Grad）等技术，实现在单卡 80GB 显存上训练 14B 模型，且无需并行分片框架。
算子融合：实现了 Flash Normalization 和 Flash RoPE 的 Triton 内核，显著降低显存占用并提升吞吐量。

3. 关键贡献 (Key Contributions)

首个 14B 实时长视频模型：在单张 H100 上实现 19.5 FPS，速度超越部分 1.3B 蒸馏模型，且无需 KV-cache、稀疏注意力或量化等标准加速技术。
无漂移长视频生成：在不使用 Self-Forcing、Error-banks 或关键帧采样的情况下，实现了分钟级（1440 帧）的高质量、高一致性视频生成。
训练效率突破：无需并行或分片框架即可训练 14B 模型，Batch Size 可媲美图像扩散模型，大幅降低了训练门槛和成本。
HeliosBench 基准：构建了包含 240 个提示词、覆盖四种时长（81-1440 帧）的开源基准，填补了实时长视频生成评估的空白。

4. 实验结果 (Results)

速度：Helios-Distilled 在单卡 H100 上达到 19.53 FPS，比同量级的 FastVideo 和 TurboDiffusion 快 2-3 倍，比 Wan 2.1 14B 快 52 倍。
质量：
- 短视频：在美学、动态、平滑度、语义和自然度等指标上，Helios 优于所有现有的蒸馏模型，并与同尺寸的基础模型（Base Models）持平或更优。
- 长视频：在 1440 帧生成中，Helios 的总评分（Total Score）达到 6.94，优于最强的基线 Reward Forcing (6.88)。
- 抗漂移性：在美学、平滑度、语义和自然度的漂移评分上，Helios 表现出显著更低的漂移，画面在长时间生成中保持稳定。
用户研究：在侧面对比测试中，Helios 在长视频和短视频生成任务中均被用户评为优于现有方法。

5. 意义与影响 (Significance)

技术突破：证明了大参数模型（14B）可以通过架构创新和训练策略优化，在单卡上实现实时推理，打破了“大模型必然慢”的刻板印象。
应用价值：为游戏引擎、交互式内容创作、世界模型构建提供了可行的实时视频生成工具。
开源贡献：计划开源代码、基础模型和蒸馏模型，并发布了 HeliosBench，将推动社区在长视频生成领域的进一步发展。
范式转变：提出了一种不依赖因果掩码和昂贵 rollout 策略的长视频生成新范式，为未来世界模型的研究提供了重要参考。

Helios 的成功表明，通过精细的上下文压缩、显式的漂移模拟训练以及分层蒸馏策略，可以在保持高质量的同时，将视频生成的延迟降低到交互级水平。

Helios: Real Real-Time Long Video Generation Model