Mohamed Elmoghany, Liangbing Zhao, Xiaoqian Shen, Subhojyoti Mukherjee, Yang Zhou, Gang Wu, Viet Dac Lai, Seunghyun Yoon, Ryan Rossi, Abdullah Rashwan, Puneet Mathur, Varun Manjunatha, Daksh Dangi, Chien Nguyen, Nedim Lipka, Trung Bui, Krishna Kumar Singh, Ruiyi Zhang, Xiaolei Huang, Jaemin Cho, Yu Wang, Namyong Park, Zhengzhong Tu, Hongjie Chen, Hoda Eldardiry, Nesreen Ahmed, Thien Nguyen, Dinesh Manocha, Mohamed Elhoseiny, Franck Dernoncourt

发布于 2026-03-05

📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

想象一下，你是一位导演，想要拍一部长达一小时的电影。以前，用 AI 拍电影就像是用乐高积木搭城堡：每拍一个镜头（比如主角在森林里说话），AI 就重新搭一次森林。结果就是，虽然主角长得差不多，但上一秒的森林是晴天，下一秒突然变成了雨天，或者树的位置变了，甚至主角突然“瞬移”了。观众看着看着就会出戏，觉得“这不对劲”。

这篇名为 InfinityStory 的论文，就是为了解决这个“拍长电影”的难题。它提出了一套全新的方法，让 AI 能像真正的电影团队一样，拍出背景连贯、人物动作流畅的长视频。

我们可以用三个生动的比喻来理解它的核心创新：

1. 背景一致性：给每个场景发一张“固定地图”

以前的做法：每拍一个镜头，AI 都要重新画一遍背景。就像你每次去同一个公园拍照，AI 都重新画一遍公园，结果每次画的树、长椅位置都不一样，公园“漂移”了。

InfinityStory 的做法：
它先让 AI 团队（多智能体系统）把整个故事分成几个大章节，然后为每个章节预先设计好一张“固定地图”（比如“城堡大厅”或“森林空地”）。

怎么做：不管在这个场景里拍多少个镜头，AI 都强制使用同一张“地图”作为背景。
效果：就像你拿着同一张地图去公园的不同角落拍照，公园的样子永远不变。这样，无论故事讲多久，观众看到的背景（光线、建筑、布局）都是稳定一致的，不会忽左忽右。

2. 镜头切换：让角色“优雅地进出”，而不是“瞬移”

以前的做法：在两个镜头之间切换时，AI 经常让角色突然消失，或者在下一个镜头里突然凭空出现。就像魔术表演一样，观众还没看清，人就不见了，或者突然多了一个人，非常生硬。

InfinityStory 的做法：
它专门训练了一个“转场专家”（叫 FLF2V 模型），并给它看了一万多个专门设计的“进出场”视频。

怎么做：这个模型学会了如何处理复杂的多人互动。比如，一个人从画面外走进来，另一个人从画面外走出去，或者两个人交换位置。它不是直接“切”镜头，而是像电影里的长镜头一样，平滑地展示人物移动的过程。
效果：就像看真正的电影，角色是自然地走进房间或走出房间，而不是像变魔术一样“啪”地出现或消失。即使是多个人同时进出，也能丝滑过渡。

3. 导演团队：一个超级智能的“制片厂”

为了做到上面两点，InfinityStory 不像以前那样让 AI 自己瞎猜，而是组建了一个虚拟的“电影制片厂”，里面有不同的“智能导演”分工合作：

总导演（Chapter Agent）：把故事分成几个大章节，规划剧情走向。
场景设计师（Location Agent）：负责设计并“锁定”每个场景的背景图，确保不漂移。
分镜师（Shot Agent）：把每个场景拆成具体的镜头，安排谁在什么时候说话、做什么动作，并特别标注好“谁要进来了”、“谁要走了”。
剪辑师（Transition Model）：专门负责把两个镜头平滑地连起来，处理人物的进出场。

总结：它厉害在哪里？

这篇论文的成果（InfinityStory）在测试中拿到了第一名。

背景最稳：背景一致性得分最高（88.94），就像真的在同一个地方拍了一整天。
人物最像：角色长得最像（Subject Consistency 82.11），不会拍着拍着就变了脸。
转场最顺：它是第一个能完美处理多个人物同时进出场的模型，让长视频看起来像一部真正的电影，而不是一堆拼凑的短视频。

一句话总结：
InfinityStory 就像给 AI 配了一个专业的电影制片团队，让它们学会了“守规矩”（背景不乱变）和“懂表演”（人物进出自然），从而能真正拍出连贯、流畅的长故事视频。

Each language version is independently generated for its own context, not a direct translation.

InfinityStory 技术总结：具有世界一致性与角色感知镜头转换的无限视频生成

1. 研究背景与核心问题

长篇幅叙事视频的生成在视觉合成领域仍是一个巨大的挑战。现有的生成式 AI 方法（如多智能体框架 MovieAgent、Captain Cinema 等）虽然能规划故事结构，但在生成连续视频时存在以下三个关键局限性：

背景一致性缺失（Background Consistency）：现有方法通常将背景视为隐式部分，随着镜头切换，背景的光照、布局和外观会发生漂移（Scene Drift），导致场景身份不稳定。
多主体镜头转换生硬（Shot-to-Shot Transitions）：大多数流水线生成的独立片段拼接在一起时，人物会突然出现在画面中或消失。现有的转换方法（如 CineTrans）主要关注单主体或简单的镜头运动，缺乏对多主体进入、退出或替换（Multi-subject entry/exit/replacement）的平滑建模。
可扩展性不足：现有方法难以扩展到小时级的长叙事，且缺乏对数百个镜头的长期视觉一致性控制。

2. 方法论 (Methodology)

InfinityStory 提出了一套端到端的框架，通过多智能体系统、基于位置的背景注入和专门的转换模型来解决上述问题。

2.1 多智能体叙事规划 (Multi-Agent Narrative Planning)

系统采用分层多智能体架构，将高层故事规范分解为章节、地点、场景和镜头：

Chapter Agent：分析故事结构，划分章节，定义角色关系和叙事弧光。
Location Agent：构建可复用的地点库（Location Library）。为每个地点生成固定的背景描述（建筑、光照、天气等），确保同一场景内的所有镜头共享相同的背景布局。
Scene Agent：将章节扩展为场景，强制每个场景绑定一个固定地点，并规定场景内必须包含奇数个镜头（用于交替 I2V 和 FLF2V 生成）。
Shot Agent：分解场景为具体镜头。
- 奇数镜头（叙事镜头）：使用图像转视频（I2V）生成内容。
- 偶数镜头（转换镜头）：使用首尾帧转视频（FLF2V）生成平滑过渡。
- 关键创新：为偶数镜头生成显式的转换元数据（Transition Metadata, $\tau_k$ ），明确指定角色的进入、退出、停留及运动类型（Entry/Exit/No Change/Combination）。

2.2 基于位置注入的背景一致性 (Location-Grounded Background Injection)

为解决背景漂移问题，InfinityStory 采用“背景解耦”策略：

预生成背景：利用文本到图像（T2I）模型为每个地点生成固定的基准背景图 $B_\ell$ 。
关键帧融合：对于每个镜头，使用图像到图像（I2I）模型将固定背景 $B_\ell$ 与角色参考图 $R_k$ 融合，生成关键帧 $K_k$ 。
视频生成：
- 奇数镜头：基于 $K_k$ 进行 I2V 生成。
- 偶数镜头（转换）：基于前一镜头的最后一帧和下一镜头的关键帧 $K_{k+1}$ （两者均包含相同的背景 $B_\ell$ ）进行 FLF2V 生成。
损失约束：引入感知损失（Perceptual Loss），惩罚视频帧与基准背景之间的偏差，确保背景在长序列中保持稳定。

2.3 电影级多主体转换合成 (Cinematic Multi-Subject Transition Synthesis, CMTS)

针对多主体平滑转换的缺失，作者提出了 CMTS 方法：

合成数据集构建：利用多智能体系统生成了 10,000 个 包含多主体进入、退出、替换等动态场景的合成视频。
数据过滤：使用视觉语言模型（VLM, Qwen3-VL）对生成的视频进行严格过滤，确保角色数量准确且无突兀出现/消失，最终保留约 3,980 个高质量视频。
模型微调：在过滤后的数据集上对 FLF2V 模型（基于 Wan2.1-14B）进行 LoRA 微调，使其能够学习复杂的角色运动 choreography（编舞），实现平滑的镜头间过渡。

2.4 生成流程

规划：多智能体生成包含地点绑定和转换元数据的详细脚本。
背景与关键帧：生成固定背景并融合角色生成关键帧。
交替生成：
- 奇数镜头： $Keyframe \xrightarrow{I2V} Video$
- 偶数镜头： $(LastFrame_{prev}, NextKeyframe) \xrightarrow{FLF2V} TransitionVideo$
拼接：将所有镜头拼接成连贯的长视频。

3. 主要贡献 (Key Contributions)

CMTS 方法：首次系统性地解决了多主体电影级镜头转换问题，通过显式的运动类型监督（进入/退出/替换），实现了角色在镜头间平滑出现和消失，避免了突兀的剪辑。
可扩展的长视频框架：提出了一个端到端框架，能够生成小时级的叙事视频，同时保持故事结构和电影级的一致性。
背景一致性流水线：设计了基于位置注入（Location Injection）和选择性跨镜头记忆门控的机制，将背景生成与前景动态解耦，实现了用户可控的长序列场景稳定性。
大规模合成数据集：贡献了一个包含 10,000 个多主体转换序列的合成数据集，填补了动态场景组合（特别是多主体进出）的数据空白。

4. 实验结果 (Results)

在 VBench 基准测试中，InfinityStory 在 TinyStories 数据集上进行了评估，并与 StoryGen, MovieAgent, VideoGen-of-Thought 等最新基线模型进行了对比。

综合排名：InfinityStory 获得了最佳平均排名 (2.80)，优于所有基线模型。
背景一致性 (Background Consistency)：得分 88.94，在所有模型中最高，证明了其背景注入策略的有效性。
主体一致性 (Subject Consistency)：得分 82.11，同样为最高，表明角色身份在长序列中保持高度稳定。
运动平滑度 (Motion Smoothness)：得分 98.58，与基线相当，证明一致性设计未牺牲时间连贯性。
消融实验：
- 移除背景注入导致主体一致性和背景一致性显著下降（分别下降 3.6 和 1.6）。
- 移除多主体转换模块导致运动平滑度和美学评分下降，证明转换模型对处理角色交接至关重要。

注：图像质量和美学评分略低于部分基线，这主要归因于 480p 的生成分辨率以及图像编辑模块引入的轻微伪影，但这在长视频生成中是可接受的权衡。

5. 意义与展望 (Significance)

InfinityStory 代表了长篇幅叙事视频生成的重大突破：

技术突破：它解决了长期存在的“场景漂移”和“角色突兀跳变”问题，为生成电影级质量的长视频提供了可行的技术路径。
应用价值：该框架可应用于自动化电影制作、教育视频生成、交互式故事讲述等领域，大幅降低了长视频内容的创作门槛。
未来方向：目前的局限性在于 FLF2V 模型对未见过的角色组合泛化能力有限。未来工作将致力于扩展转换数据集，并引入多提示监督以增强鲁棒性和叙事灵活性。

总之，InfinityStory 通过显式的地点绑定和受监督的多主体转换，为构建具有世界一致性和流畅镜头语言的生成式视频系统奠定了坚实基础。

InfinityStory: Unlimited Video Generation with World Consistency and Character-Aware Shot Transitions