Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 Narrative Weaver（叙事编织者） 的全新人工智能框架。为了让你轻松理解，我们可以把它想象成一位**“全能电影导演”，专门负责解决目前 AI 生成视频或图片时最大的痛点：“拍着拍着就变样了”**。

1. 核心痛点：AI 为什么总是“记不住”？

想象一下，你让现在的 AI 画一个故事：

第一张图：一个穿着红斗篷的女人在秋天公园喂宝宝。
第二张图：AI 画了，但女人的头发颜色变了，或者宝宝的脸长得不一样了。
第三张图：背景里的树突然变成了夏天，或者女人的衣服风格完全变了。

现有的 AI 就像是一个**“只有短期记忆的画家”**。它画每一张图都很厉害，但画下一张时，它忘了上一张长什么样。这就导致无法制作连贯的长电影或广告，因为角色和场景总是“漂移”的。

2. 解决方案：Narrative Weaver 是如何工作的？

Narrative Weaver 就像组建了一个**“超级电影摄制组”**，它把任务分成了三个关键角色，协同工作：

🎬 角色一：总导演 (Multimodal Large Language Model, MLLM)

作用：这是大脑。它不直接画画，而是负责写剧本和做规划。
比喻：就像一位经验丰富的导演，看着你给的第一张参考图（比如产品图），然后说：“好，第一幕是喂宝宝，第二幕妈妈站起来，第三幕大家坐下聊天。”它把整个故事的逻辑、场景转换都规划得清清楚楚。
创新点：以前的 AI 只能听文字指令，这个导演还能“看懂”图片，并且能自动规划出复杂的剧情。

🧠 角色二：记忆银行 (Dynamic Memory Bank)

作用：这是“记事本”。它专门负责防止遗忘。
比喻：想象导演在画每一张新图之前，都会去翻看之前的“记忆相册”。这个记忆银行会告诉 AI：“注意！上一张图里女人的红斗篷是深红色的，宝宝手里拿的是蓝色瓶子，背景是金黄色的落叶。”
神奇之处：它不是死板地复制，而是像人类一样，随着故事发展，动态地记住关键特征（比如衣服颜色、人物长相），确保无论故事讲多长，主角还是那个主角，场景风格始终如一。

🎨 角色三：精细画师 (Diffusion Model + Learnable Queries)

作用：这是执行者。它根据导演的剧本和记忆银行的提示，把画面画出来。
比喻：它不再是一个盲目乱画的画师，而是一个拿着“详细说明书”的工匠。说明书里写着：“要画得细腻，光影要像刚才那样，人物动作要连贯。”

3. 独特的训练方法：像“学艺”一样分阶段

为了让这个系统既聪明又高效，作者设计了一个**“三步走”**的训练策略，就像培养一个演员：

第一阶段（学剧本）：先只训练“总导演”，让它学会怎么根据图片写故事、规划剧情。这时候它还不负责画画。
第二阶段（学沟通）：训练“导演”和“画师”之间的沟通语言。让导演写的剧本，画师能听得懂，并且能画出大概的样子。
第三阶段（练细节）：最后训练“画师”，让它学会如何根据“记忆银行”的提示，把细节（如衣服纹理、光影变化）画得完美无缺，确保每一帧都严丝合缝。

4. 为什么这对我们很重要？（实际应用）

这篇论文不仅提出了理论，还解决了一个大问题：没有好数据。

造数据：作者发现市面上没有适合训练这种“长故事”的数据集。于是，他们自己造了一个电商广告视频分镜数据集 (EAVSD)。
- 比喻：就像为了教 AI 拍广告，他们收集了 33 万张高质量图片，每一张都标注了“这是卖什么产品”、“场景是什么”、“剧情怎么发展”。
应用场景：
- 拍广告：你可以给 AI 一个产品图，它就能自动生成一系列连贯的广告分镜，产品永远在画面中心，模特永远穿着同样的衣服，场景从公园变到咖啡馆，但风格不乱。
- 拍电影：未来可以用它来辅助生成电影剧本的分镜图，甚至直接生成短视频。

5. 总结

Narrative Weaver 就像是给 AI 装上了**“长期记忆”和“导演思维”**。

以前：AI 画一张图很牛，画十张就乱套。
现在：AI 能像人类导演一样，先想好故事，再记住角色特征，最后一步步把连贯的长故事画出来。

这项技术让 AI 从“只会画单张图的画家”进化成了“能讲长故事的导演”，为未来的 AI 电影、电商广告和自动化内容创作打开了大门。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文 《Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning》 的详细技术总结。

1. 研究背景与核心问题 (Problem)

尽管现有的生成式 AI 模型（如 Sora, Midjourney, Flux 等）在生成高保真度的单帧图像或短视频片段方面表现出色，但在长序列视觉内容的生成上仍面临巨大挑战：

叙事连贯性缺失：现有模型难以在长序列中维持一致的角色、背景和故事情节，导致生成的视频或故事板缺乏逻辑连续性。
视觉漂移 (Visual Drift)：随着序列长度的增加，生成内容往往会出现角色特征改变、风格不一致或环境突变的问题。
缺乏细粒度控制：现有的长视频生成方法多依赖纯文本条件，难以实现基于初始图像和具体指令的精确控制，无法满足电影制作或电商广告等对品牌一致性要求极高的应用场景。
数据匮乏：缺乏能够支持“（文本，图像）→（文本，多帧图像序列）”这种多模态条件生成的高质量数据集。

2. 方法论 (Methodology)

作者提出了 Narrative Weaver，这是一个融合了自回归 (AR) 规划与扩散 (Diffusion) 生成的混合框架，旨在实现细粒度控制、自动叙事规划和长程视觉一致性。

2.1 核心架构

多模态大语言模型 (MLLM) 作为“导演”：
- 利用 MLLM（如 Qwen2.5-VL）作为自回归部分，接收初始视觉和文本上下文。
- 双重功能：一方面生成高层级的叙事计划（文本形式的分镜描述 $T$ ）；另一方面将历史多模态信息压缩为可学习的查询向量 (Learnable Queries, $Q$ )。
- 动态因果注意力掩码 (Dynamic Causal Attention Mask)：设计了一种特殊的注意力机制，允许可学习查询访问完整的上下文（输入、历史文本、历史查询），而文本 token 仅遵循因果掩码。这确保了视觉生成的连贯性同时不破坏文本规划的逻辑。
动态记忆库 (Dynamic Memory Bank)：
- 为了解决长序列中的视觉漂移，引入记忆库缓存已生成图像的 VAE 特征。
- 几何衰减机制：对历史特征进行平均池化，并随时间步长进行几何衰减（Decay），在保留近期关键信息的同时控制计算复杂度，防止序列长度无限增长。
- 生成的第 $n$ 帧的条件信号 $C_n$ 由当前可学习查询、当前输入条件特征以及记忆库中的历史特征拼接而成。
混合生成流程：AR 部分负责规划逻辑和编码上下文，扩散模型（Diffusion Model）负责根据融合后的条件信号 $C$ 解码生成高一致性的视觉内容。

2.2 渐进式多阶段训练策略 (Progressive Multi-Stage Training)

为了在有限数据下高效训练，提出了三阶段训练策略：

阶段 1：叙事规划 (Narrative Planning)
- 冻结 ViT 编码器，仅训练 MLLM。
- 目标：学习制定叙事计划并确定视觉生成的最佳时机。
阶段 2：语义连贯视觉生成 (Semantically Coherent Visual Generation)
- 训练可学习查询和 MLLM 到扩散模型的投影层。
- 先在大规模低分辨率图文对上预训练，再在高分辨率数据上微调，使查询向量与扩散模型的语义空间对齐。
阶段 3：细粒度对齐 (Fine-grained Alignment)
- 全量微调扩散模型。
- 引入记忆库特征和细粒度条件特征，专门优化帧间的一致性（如角色身份、光照、风格）。

3. 关键贡献 (Key Contributions)

首个全栈解决方案：提出了首个将高层叙事规划、细粒度视觉控制和长程一致性无缝整合的框架。
新数据集 EAVSD：针对现有数据缺乏长程叙事和多模态条件的痛点，构建了电商广告视频分镜数据集 (EAVSD)。
- 包含约 33 万张 高质量图像。
- 涵盖产品图、描述、营销目标到多场景分镜的完整三元组。
- 专为电商营销设计，强调品牌视觉的一致性。
高效训练与推理：
- 通过 MLLM 中介和可学习查询，将扩散模型的输入序列长度固定，使计算复杂度从二次方降低为线性增长，显著提升了长序列生成的效率。
- 多阶段训练策略使得模型在有限数据下也能达到 SOTA 性能。
性能突破：在可控多场景生成、自主故事讲述和电商广告三个场景中，均展现出优于现有方法（如 StoryDiffusion, Flux.1-Kontext, Qwen-Image-Edit 等）的表现。

4. 实验结果 (Results)

一致性评估 (Q1)：
- 在 OmniGen2 数据集的测试中，Narrative Weaver 在文本 - 图像一致性 (ITC)、多镜头风格一致性 (MSSC) 和多镜头内容一致性 (MSCC) 等指标上均达到或接近 SOTA。
- 相比专门优化的编辑模型（如 Flux.1-Kontext），Narrative Weaver 在保持环境一致性和动态叙事推进方面表现更佳，避免了“复制粘贴”式的静态行为。
- 用户研究（User Study）显示，用户显著偏好 Narrative Weaver 生成的结果，认为其更具电影感和美学质量。
自主叙事规划 (Q2)：
- 在 CoMM 基准测试中，模型在风格、实体、趋势一致性以及叙事完整性 (CPL) 上均优于基线模型（包括 Qwen2.5-VL + Flux 的组合）。
- 能够自主规划符合电影语言（如特写、交叉剪辑）的后续镜头。
实际应用 (Q3)：
- 在 EAVSD 数据集上，模型能根据产品图和指令生成连贯的电商广告分镜，严格保持产品身份和视觉风格的一致性。
消融实验：
- 证明了三个阶段训练缺一不可。移除阶段 3 会导致严重的视觉漂移；移除阶段 2 则导致语义对齐失败。

5. 意义与影响 (Significance)

推动 AI 内容创作 (AIGC)：Narrative Weaver 解决了从“单帧生成”向“长序列叙事生成”跨越的关键瓶颈，为 AI 辅助电影制作、广告视频生成提供了可行的技术路径。
方法论创新：提出的“MLLM 规划 + 扩散生成 + 动态记忆库”架构，为处理长程依赖和一致性控制问题提供了新的范式，具有推广到视频生成领域的潜力。
数据建设：发布的 EAVSD 数据集填补了该领域高质量多模态条件数据的空白，将推动后续相关研究的发展。
商业价值：特别是在电商领域，能够低成本、高效率地生成符合品牌规范的多样化广告素材，具有巨大的商业应用前景。

总结：Narrative Weaver 通过创新的混合架构和渐进式训练策略，成功实现了在长序列视觉生成中兼顾“可控性”、“叙事性”和“一致性”，是生成式 AI 向复杂内容创作迈进的重要一步。