InfinityStory: Unlimited Video Generation with World Consistency and Character-Aware Shot Transitions

本文提出了名为 InfinityStory 的新框架、数据集及模型,通过引入背景一致性生成流程、多主体过渡感知合成模块以及包含 1 万条序列的合成数据集,有效解决了长篇幅叙事视频中背景连贯性、多主体镜头切换及长时扩展性三大挑战,并在 VBench 评测中实现了背景与主体一致性的最优表现。

Mohamed Elmoghany, Liangbing Zhao, Xiaoqian Shen, Subhojyoti Mukherjee, Yang Zhou, Gang Wu, Viet Dac Lai, Seunghyun Yoon, Ryan Rossi, Abdullah Rashwan, Puneet Mathur, Varun Manjunatha, Daksh Dangi, Chien Nguyen, Nedim Lipka, Trung Bui, Krishna Kumar Singh, Ruiyi Zhang, Xiaolei Huang, Jaemin Cho, Yu Wang, Namyong Park, Zhengzhong Tu, Hongjie Chen, Hoda Eldardiry, Nesreen Ahmed, Thien Nguyen, Dinesh Manocha, Mohamed Elhoseiny, Franck Dernoncourt

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

想象一下,你是一位导演,想要拍一部长达一小时的电影。以前,用 AI 拍电影就像是用乐高积木搭城堡:每拍一个镜头(比如主角在森林里说话),AI 就重新搭一次森林。结果就是,虽然主角长得差不多,但上一秒的森林是晴天,下一秒突然变成了雨天,或者树的位置变了,甚至主角突然“瞬移”了。观众看着看着就会出戏,觉得“这不对劲”。

这篇名为 InfinityStory 的论文,就是为了解决这个“拍长电影”的难题。它提出了一套全新的方法,让 AI 能像真正的电影团队一样,拍出背景连贯、人物动作流畅的长视频。

我们可以用三个生动的比喻来理解它的核心创新:

1. 背景一致性:给每个场景发一张“固定地图”

以前的做法:每拍一个镜头,AI 都要重新画一遍背景。就像你每次去同一个公园拍照,AI 都重新画一遍公园,结果每次画的树、长椅位置都不一样,公园“漂移”了。

InfinityStory 的做法
它先让 AI 团队(多智能体系统)把整个故事分成几个大章节,然后为每个章节预先设计好一张“固定地图”(比如“城堡大厅”或“森林空地”)。

  • 怎么做:不管在这个场景里拍多少个镜头,AI 都强制使用同一张“地图”作为背景。
  • 效果:就像你拿着同一张地图去公园的不同角落拍照,公园的样子永远不变。这样,无论故事讲多久,观众看到的背景(光线、建筑、布局)都是稳定一致的,不会忽左忽右。

2. 镜头切换:让角色“优雅地进出”,而不是“瞬移”

以前的做法:在两个镜头之间切换时,AI 经常让角色突然消失,或者在下一个镜头里突然凭空出现。就像魔术表演一样,观众还没看清,人就不见了,或者突然多了一个人,非常生硬。

InfinityStory 的做法
它专门训练了一个“转场专家”(叫 FLF2V 模型),并给它看了一万多个专门设计的“进出场”视频

  • 怎么做:这个模型学会了如何处理复杂的多人互动。比如,一个人从画面外走进来,另一个人从画面外走出去,或者两个人交换位置。它不是直接“切”镜头,而是像电影里的长镜头一样,平滑地展示人物移动的过程。
  • 效果:就像看真正的电影,角色是自然地走进房间或走出房间,而不是像变魔术一样“啪”地出现或消失。即使是多个人同时进出,也能丝滑过渡。

3. 导演团队:一个超级智能的“制片厂”

为了做到上面两点,InfinityStory 不像以前那样让 AI 自己瞎猜,而是组建了一个虚拟的“电影制片厂”,里面有不同的“智能导演”分工合作:

  • 总导演(Chapter Agent):把故事分成几个大章节,规划剧情走向。
  • 场景设计师(Location Agent):负责设计并“锁定”每个场景的背景图,确保不漂移。
  • 分镜师(Shot Agent):把每个场景拆成具体的镜头,安排谁在什么时候说话、做什么动作,并特别标注好“谁要进来了”、“谁要走了”。
  • 剪辑师(Transition Model):专门负责把两个镜头平滑地连起来,处理人物的进出场。

总结:它厉害在哪里?

这篇论文的成果(InfinityStory)在测试中拿到了第一名

  • 背景最稳:背景一致性得分最高(88.94),就像真的在同一个地方拍了一整天。
  • 人物最像:角色长得最像(Subject Consistency 82.11),不会拍着拍着就变了脸。
  • 转场最顺:它是第一个能完美处理多个人物同时进出场的模型,让长视频看起来像一部真正的电影,而不是一堆拼凑的短视频。

一句话总结
InfinityStory 就像给 AI 配了一个专业的电影制片团队,让它们学会了“守规矩”(背景不乱变)和“懂表演”(人物进出自然),从而能真正拍出连贯、流畅的长故事视频。