Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning

本文提出了名为“叙事编织者(Narrative Weaver)”的新框架,通过结合多模态大语言模型进行叙事规划、引入动态记忆库实现细粒度控制,并发布了首个电商广告视频分镜数据集(EAVSD),从而解决了生成式 AI 在长序列内容创作中难以维持多模态可控性与视觉一致性的核心挑战。

Zhengjian Yao, Yongzhi Li, Xinyuan Gao, Quan Chen, Peng Jiang, Yanye Lu

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 Narrative Weaver(叙事编织者) 的全新人工智能框架。为了让你轻松理解,我们可以把它想象成一位**“全能电影导演”,专门负责解决目前 AI 生成视频或图片时最大的痛点:“拍着拍着就变样了”**。

1. 核心痛点:AI 为什么总是“记不住”?

想象一下,你让现在的 AI 画一个故事:

  • 第一张图:一个穿着红斗篷的女人在秋天公园喂宝宝。
  • 第二张图:AI 画了,但女人的头发颜色变了,或者宝宝的脸长得不一样了。
  • 第三张图:背景里的树突然变成了夏天,或者女人的衣服风格完全变了。

现有的 AI 就像是一个**“只有短期记忆的画家”**。它画每一张图都很厉害,但画下一张时,它忘了上一张长什么样。这就导致无法制作连贯的长电影或广告,因为角色和场景总是“漂移”的。

2. 解决方案:Narrative Weaver 是如何工作的?

Narrative Weaver 就像组建了一个**“超级电影摄制组”**,它把任务分成了三个关键角色,协同工作:

🎬 角色一:总导演 (Multimodal Large Language Model, MLLM)

  • 作用:这是大脑。它不直接画画,而是负责写剧本做规划
  • 比喻:就像一位经验丰富的导演,看着你给的第一张参考图(比如产品图),然后说:“好,第一幕是喂宝宝,第二幕妈妈站起来,第三幕大家坐下聊天。”它把整个故事的逻辑、场景转换都规划得清清楚楚。
  • 创新点:以前的 AI 只能听文字指令,这个导演还能“看懂”图片,并且能自动规划出复杂的剧情。

🧠 角色二:记忆银行 (Dynamic Memory Bank)

  • 作用:这是“记事本”。它专门负责防止遗忘
  • 比喻:想象导演在画每一张新图之前,都会去翻看之前的“记忆相册”。这个记忆银行会告诉 AI:“注意!上一张图里女人的红斗篷是深红色的,宝宝手里拿的是蓝色瓶子,背景是金黄色的落叶。”
  • 神奇之处:它不是死板地复制,而是像人类一样,随着故事发展,动态地记住关键特征(比如衣服颜色、人物长相),确保无论故事讲多长,主角还是那个主角,场景风格始终如一。

🎨 角色三:精细画师 (Diffusion Model + Learnable Queries)

  • 作用:这是执行者。它根据导演的剧本和记忆银行的提示,把画面画出来。
  • 比喻:它不再是一个盲目乱画的画师,而是一个拿着“详细说明书”的工匠。说明书里写着:“要画得细腻,光影要像刚才那样,人物动作要连贯。”

3. 独特的训练方法:像“学艺”一样分阶段

为了让这个系统既聪明又高效,作者设计了一个**“三步走”**的训练策略,就像培养一个演员:

  1. 第一阶段(学剧本):先只训练“总导演”,让它学会怎么根据图片写故事、规划剧情。这时候它还不负责画画。
  2. 第二阶段(学沟通):训练“导演”和“画师”之间的沟通语言。让导演写的剧本,画师能听得懂,并且能画出大概的样子。
  3. 第三阶段(练细节):最后训练“画师”,让它学会如何根据“记忆银行”的提示,把细节(如衣服纹理、光影变化)画得完美无缺,确保每一帧都严丝合缝。

4. 为什么这对我们很重要?(实际应用)

这篇论文不仅提出了理论,还解决了一个大问题:没有好数据

  • 造数据:作者发现市面上没有适合训练这种“长故事”的数据集。于是,他们自己造了一个电商广告视频分镜数据集 (EAVSD)
    • 比喻:就像为了教 AI 拍广告,他们收集了 33 万张高质量图片,每一张都标注了“这是卖什么产品”、“场景是什么”、“剧情怎么发展”。
  • 应用场景
    • 拍广告:你可以给 AI 一个产品图,它就能自动生成一系列连贯的广告分镜,产品永远在画面中心,模特永远穿着同样的衣服,场景从公园变到咖啡馆,但风格不乱。
    • 拍电影:未来可以用它来辅助生成电影剧本的分镜图,甚至直接生成短视频。

5. 总结

Narrative Weaver 就像是给 AI 装上了**“长期记忆”“导演思维”**。

  • 以前:AI 画一张图很牛,画十张就乱套。
  • 现在:AI 能像人类导演一样,先想好故事,再记住角色特征,最后一步步把连贯的长故事画出来。

这项技术让 AI 从“只会画单张图的画家”进化成了“能讲长故事的导演”,为未来的 AI 电影、电商广告和自动化内容创作打开了大门。