PropFly: Learning to Propagate via On-the-Fly Supervision from Pre-trained Video Diffusion Models

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 PropFly 的新方法，它能让视频编辑变得像“变魔术”一样简单、精准且自然。

为了让你轻松理解，我们可以把视频编辑想象成**“给一部正在播放的电影换主角或换场景”**。

1. 以前的难题：要么“听指挥但乱变”，要么“听指挥但太累”

在 PropFly 出现之前，视频编辑主要有两种流派，但都有大毛病：

流派一：听文字指挥（Text-guided）
- 比喻：你像是一个对导演说“我要把主角换成一只穿西装的猫”的编剧。
- 问题：导演（AI 模型）虽然听懂了，但经常“发挥过度”。它可能把猫换好了，但把背景里的树也变成了猫，或者让猫的动作变得很僵硬。它很难精准地只改你想改的那一小部分，同时保持视频里其他东西（比如人物的走路姿势、光影）完全不变。
流派二：手动指定一帧（Propagation-based）
- 比喻：你直接给导演看一张修好的照片（比如第一帧），说：“照着这张图，把后面所有的画面都改成这样。”
- 问题：这听起来很完美，但训练这种“听话”的导演需要海量的“原片”和“修好后的片子”成对数据。这就好比你要教一个厨师，必须给他看几百万道“原菜”和“成品菜”的对比图。收集这些数据既贵又难，而且很难覆盖所有风格（比如从“晴天”变“雨天”很容易，但从“真人”变“机器人”就很难凑齐数据）。

2. PropFly 的绝招：不用“死记硬背”，而是“现场教学”

PropFly 的核心思想是：既然没有现成的“原片 vs 成品”教材，那我们就利用一个已经学成的大师（预训练视频模型），在现场“即兴表演”出教材来教学生。

核心比喻：同一个剧本，不同的“导演风格”

想象你有一个已经非常有名的电影导演（预训练的视频扩散模型）。他非常擅长拍电影，而且手里有一个神奇的遥控器，叫 CFG（引导强度）。

低档位（Low CFG）：导演按部就班地拍，画面很自然，保留了原视频的结构和动作（比如一个人走路）。
高档位（High CFG）：导演把“风格”拉满。如果你告诉他“变成机器人”，他就会在保留走路动作的同时，把人的皮肤、衣服全部变成金属质感。

PropFly 的魔法在于：
它不需要去网上找几百万个“真人走路”和“机器人走路”的配对视频。它只需要让这位导演在同一秒钟，用“低档位”拍一帧，再用“高档位”拍一帧。

低档位画面 = 源视频（保留动作和结构）。
高档位画面 = 目标视频（保留了动作，但风格变了）。

这就相当于现场生成了完美的“教学教材”！而且因为是用同一个导演、同一组动作生成的，所以动作和结构是完美对齐的，不会出现“人还在走，腿却断了”的怪事。

3. 怎么训练？（PropFly 的工作流程）

准备素材：随便找一段视频（比如“熊在走路”）。
现场出题（On-the-Fly）：
- 把这段视频“加噪”（打乱一下）。
- 让大导演用低强度指令还原它（得到“源”）。
- 让大导演用高强度指令（比如“变成雪地里的熊”）还原它（得到“目标”）。
- 注：这里不需要跑完整个复杂的生成过程，只需要算一步就能得到大概的样子，速度极快。
训练小助手（Adapter）：
- 我们有一个小助手（Adapter），它负责学习怎么把“源”变成“目标”。
- 小助手看着“源视频”（知道动作）和“目标的第一帧”（知道长什么样），然后努力预测：“如果我要把后面所有的帧都变成目标的样子，我该怎么调整？”
- 通过这种“现场出题、现场批改”的方式，小助手学会了如何精准地传播修改，同时保持动作流畅。

4. 为什么它这么厉害？

不用买教材：不再需要昂贵的成对视频数据集，只要有视频和文字提示，就能随时生成训练数据。
动作不崩坏：因为“源”和“目标”是同一个导演在同一时刻生成的，所以动作（走路、跳跃）是天然对齐的，不会出现视频里的人突然瞬移或变形。
什么都能改：无论是换个物体（把马换成独角兽）、换个背景（公园换成废墟）、还是换个天气（晴天变雪天），甚至换一种艺术风格（变成油画风），它都能搞定。

总结

PropFly 就像是一个聪明的学徒。以前学徒需要师傅拿着几百万张对比图手把手教（数据稀缺且昂贵）。现在，PropFly 让学徒直接观察大师（预训练模型）在同一个场景下，用不同风格即兴表演的过程。

学徒通过观察这种“即兴表演”，学会了如何精准地复制风格变化，同时完美保留原有的动作和结构。这让视频编辑变得既简单又高质量，而且不再受限于昂贵的数据收集。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

视频编辑的范式转变：
目前的视频编辑方法主要分为两类：

文本引导 (Text-guided)： 依赖用户输入文本提示词（Prompt）来修改视频。虽然直观，但难以精确控制细粒度的视觉属性，且往往无法完美反映用户的创作意图（例如难以精确描述“将熊变成熊猫”的具体形态）。
传播引导 (Propagation-based)： 用户只需编辑视频中的单帧（通常是第一帧），模型将该编辑效果传播到整个视频序列。这种方法能更好地保留原始视频的运动结构和上下文，提供更高的可控性。

核心痛点：
训练基于传播的视频编辑模型面临巨大的数据瓶颈。

需要大规模、成对的（源视频 + 编辑后视频）数据集。
获取此类数据成本极高且复杂。
现有的合成数据方法（如基于掩码的 GenProp）仅适用于局部修改（如物体增减），难以处理全局变换（如风格迁移、天气变化）。
依赖辅助信号（如光流、深度图）的方法容易因信号误差产生伪影。
利用扩散模型合成配对数据（如 Señorita-2M）计算成本高昂，且覆盖的编辑类型有限。

目标：
提出一种无需预先构建大规模配对数据集，即可训练出能够进行高质量、全局性视频编辑传播的模型的方法。

2. 方法论 (Methodology)

PropFly 提出了一种基于预训练视频扩散模型（VDMs）的“即时（On-the-Fly）监督”训练流水线。其核心思想是利用预训练 VDM 的生成能力，在训练过程中动态生成“源 - 目标”数据对，而非依赖静态数据集。

2.1 核心洞察

CFG 尺度的语义调制作用： 在扩散模型采样过程中，改变 Classifier-Free Guidance (CFG) 的尺度不仅影响图像质量，还能直接调制输出的全局视觉属性（如风格、色调、纹理），同时保持视频的整体结构和运动不变。
单步估计的有效性： 从中间噪声潜变量（noised latent）出发，仅需单步（One-step） 的去噪估计即可得到合理的干净潜变量，无需进行完整的迭代采样过程。

2.2 训练流水线 (Training Pipeline)

PropFly 的训练流程包含三个关键步骤（如图 3 所示）：

数据采样与随机风格提示融合 (Data Sampling & RSPF)：
- 从视频数据集中采样原始视频 $x_0$ 和文本描述 $c_{text}$ 。
- 引入 随机风格提示融合 (RSPF)：随机选择一个风格提示词 $c_{style}$ （如"in snow", "cyberpunk style"）与 $c_{text}$ 拼接，生成增强提示词 $c_{aug}$ 。这增加了训练数据的多样性。
即时数据对生成 (On-the-Fly Data Pair Generation)：
- 对原始视频 $x_0$ 添加噪声得到中间潜变量 $x_t$ 。
- 利用预训练的冻结 VDM（ $\theta$ ），在同一 $x_t$ 上，分别使用低 CFG 尺度 ( $\omega_L$ ) 和 高 CFG 尺度 ( $\omega_H$ ) 进行单步干净潜变量估计。
- 源潜变量 ( $\hat{x}^{low}_{0|t}$ )：低 CFG 生成，保留原始结构和运动，作为“源”。
- 目标潜变量 ( $\hat{x}^{high}_{0|t}$ )：高 CFG 生成，根据 $c_{aug}$ 进行了语义变换（如改变风格、物体），作为“编辑目标”。
- 优势： 两者源自同一 $x_t$ 和同一速度预测，因此结构完美对齐，但语义不同。这避免了全采样带来的运动错位问题，且计算高效。
引导调制流匹配 (Guidance-Modulated Flow Matching, GMFM)：
- 在预训练 VDM 上附加一个可训练的 Adapter ( $\phi$ )。
- 输入条件： 整个源视频潜变量 $\hat{x}^{low}_{0|t}$ （提供结构约束） + 目标视频的第一帧 $\hat{x}^{high}_{0|t}[0]$ （提供视觉风格引导）+ 增强文本 $c_{aug}$ 。
- 损失函数： 模型被训练去预测高 CFG 尺度下的速度场 $\hat{v}^{high}_{\theta}$ 。
- GMFM Loss： $L_{GMFM} = ||\hat{v}_{\theta,\phi} - sg(\hat{v}^{high}_{\theta})||^2$ 。
- 该损失函数强制 Adapter 学习如何将源视频的结构与目标帧的风格相结合，从而复现预训练模型所掌握的变换能力。

3. 关键贡献 (Key Contributions)

PropFly 训练流水线： 提出了一种无需任何现成或预计算的配对视频数据集，仅利用预训练 VDM 的生成能力进行“即时监督”的视频编辑训练框架。
基于 CFG 调制的单步估计： 利用 CFG 尺度变化和单步潜变量估计，以极低的计算成本生成结构对齐但语义多样的训练数据对，解决了数据稀缺问题。
引导调制流匹配 (GMFM) 损失： 设计了一种新的损失函数，指导模型学习从源结构到目标变换的映射，有效解决了传统流匹配损失在编辑传播任务中的目标冲突问题。
卓越的性能： 在多种视频编辑任务（局部物体替换、背景更换、风格迁移、天气变化等）上，PropFly 在视频质量、文本对齐度和时间一致性方面均显著优于现有的 SOTA 方法。

4. 实验结果 (Results)

4.1 定量评估

在 EditVerseBench-Appearance 和 TGVE 基准测试上进行了评估：

视频质量 (Pick Score)： PropFly-14B 在所有指标上均达到 SOTA，显著优于文本引导方法（如 Runway, EditVerse）和传播引导方法（如 Señorita-2M, AnyV2V）。
时间一致性 (Temporal Consistency)： 在 CLIP 和 DINO 特征空间下的帧间相似度指标上表现最佳，证明了其优秀的运动保持能力。
文本对齐 (Text Alignment)： 在 ViCLIP 指标上表现优异，表明编辑结果能准确反映目标风格。

4.2 定性对比

对比对象： AnyV2V (零样本方法), Señorita-2M (基于大数据集训练), STDF/TokenFlow (文本引导)。
表现：
- AnyV2V 在复杂编辑中常出现严重的伪影和运动错位（如物体结构崩塌）。
- Señorita-2M 在处理复杂变换（如人物变机器人）时难以保持时间一致性，且容易丢失原始结构。
- PropFly 能够稳健地传播各种编辑（从局部物体到全局风格），完美保留原始视频的运动轨迹和背景上下文，即使在遮挡区域也能正确合成。

4.3 消融实验

单步估计 vs. 全采样： 全采样基线因独立采样路径导致运动错位，性能大幅下降；单步估计保证了完美的结构对齐。
GMFM Loss vs. 标准 FM Loss： 标准 FM 损失导致模型倾向于重建原始视频而非传播编辑；GMFM 成功引导模型学习变换。
RSPF (随机风格融合)： 移除此模块会导致风格泛化能力下降，无法处理未见过的风格组合。
即时监督 vs. 配对数据集： 使用 PropFly 即时生成的数据训练的模型，性能优于使用 Señorita-2M 配对数据集训练的模型，证明了即时监督的多样性和有效性。

5. 意义与影响 (Significance)

打破数据依赖： PropFly 证明了视频编辑模型不再依赖昂贵且难以获取的大规模配对视频数据集。通过利用预训练模型的内在知识，实现了“自监督”式的传播学习。
计算效率与可扩展性： 相比合成数据或全采样方法，PropFly 的训练开销极低（仅增加约 5% 的迭代时间），且推理效率与基础 VDM 相当。
通用性与泛化能力： 该方法不仅适用于特定的编辑任务，还能处理从局部修改到全局风格迁移的广泛任务。实验表明，该方法可以迁移到不同的预训练骨干网络（如 Wan2.1, LTX-Video），具有模型无关性。
未来方向： 为构建更强大、更通用的视频编辑框架提供了新的范式，即利用生成式先验（Generative Priors）来指导编辑传播，而非依赖静态监督数据。

总结： PropFly 通过巧妙利用预训练视频扩散模型中的 CFG 机制和单步估计技术，成功解决了视频传播编辑中的数据稀缺难题，实现了高质量、高一致性的视频编辑传播，是该领域的一项突破性进展。