FoleyDirector: Fine-Grained Temporal Steering for Video-to-Audio Generation via Structured Scripts

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 FoleyDirector（拟音导演）的新系统。为了让你轻松理解，我们可以把“视频转音频”（Video-to-Audio）的过程想象成给一部无声电影配声音。

🎬 核心故事：从“自动配音”到“导演指挥”

以前的困境：
想象一下，你有一部无声电影，以前的 AI 就像是一个只会凭直觉工作的“自动配音员”。

它看到画面里有狗，就自动加狗叫声。
但如果你想要“在第 5 秒狗叫，第 6 秒突然变成猫叫，或者画面外有雷声”，这个自动配音员就懵了。它要么乱叫，要么完全听不到你的指挥，因为它只盯着画面看，不懂你的“剧本”。

FoleyDirector 的突破：
FoleyDirector 把这个“自动配音员”升级成了一位听从你指挥的“拟音导演”。你不再只是给一个模糊的指令，而是可以给它一份**“分镜剧本”（Structured Temporal Scripts, STS）**。

🛠️ 三大核心魔法（技术原理通俗版）

1. 分镜剧本 (Structured Temporal Scripts, STS)

比喻： 以前的 AI 看的是“整部电影的大纲”，现在 FoleyDirector 拿到的是精确到秒的“分镜头脚本”。
怎么做： 系统把视频切分成很多小段（比如每 1 秒一段）。对于每一段，你都可以写具体的指令，比如"0-2 秒：火车鸣笛声”、"3-4 秒：静音”、"5-6 秒：画外有人说话”。
效果： 就像导演拿着剧本对录音师说：“这一秒要这个声音，下一秒要那个声音”，AI 就能精准地在特定时间生成特定的声音，哪怕那个声音在画面里根本看不到（比如画外的雷声）。

2. 时间融合模块 (Script-Guided Temporal Fusion Module)

比喻： 这是一个**“超级翻译官”**。
怎么做： AI 原本只懂“画面语言”和“全局文字”，现在它需要听懂你的“分镜剧本”。这个模块就像一个翻译官，把你的剧本指令（比如"5 秒猫叫”）翻译成 AI 能听懂的“时间坐标信号”，并把它完美地嵌入到生成过程中。
关键点： 它用了**“交错罗盘”（Interleaved RoPE）**技术。想象一下，把时间轴像编织毛衣一样，把“剧本指令”和“画面特征”紧密地编织在一起，确保 AI 不会搞错时间顺序，知道什么时候该放什么声音。

3. 双轨合成框架 (Bi-Frame Sound Synthesis)

比喻： 这是**“画内”与“画外”的双声道录音棚**。
痛点： 以前 AI 很难处理“画外音”（比如画面里是人在笑，但声音是画外的老虎吼叫）。因为 AI 太依赖画面，看到人笑就只敢生成笑声。
怎么做： FoleyDirector 把声音生成分成两条路：
- 轨道 A（画内）： 盯着画面看，生成画面里该有的声音（如脚步声）。
- 轨道 B（画外）： 闭上眼睛不看画面，只根据你的剧本指令生成声音（如老虎吼叫）。
- 最后融合： 系统把这两条轨道的声音，按照你剧本里的时间线，像剪辑师一样完美拼接在一起。
效果： 你可以让画面里的人在笑，同时生成画外老虎的吼声，互不干扰，非常灵活。

📊 它有多厉害？（实验结果）

作者做了一个**“导演大考”（DirectorBench）**，测试 AI 能不能听指挥。

以前的 AI： 就像个不听话的实习生，你让它"5 秒停”，它可能一直响；你让它“画外有雷声”，它可能完全没反应。准确率（F1 分数）只有 0.24 左右。
FoleyDirector： 就像个金牌拟音师，完全听懂了你的分镜剧本。准确率提升到了 0.48，几乎是翻倍！
音质： 最重要的是，它虽然加了这么多控制，声音的质量并没有变差，依然清晰、自然，和原来的顶级 AI 一样好听。

💡 总结

FoleyDirector 就像是给视频配音领域装上了**“时间遥控器”和“剧本编辑器”**。

以前：AI 看着画面，猜该放什么声音。
现在：你拿着剧本告诉 AI，在什么时间、放什么声音（哪怕是画外的），AI 就精准执行。

这让普通用户也能像专业的“拟音导演”一样，轻松创作出充满创意、时间精准、甚至带有“画外音”惊喜的高质量视频配乐。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

背景：
随着 AIGC 技术的发展，视频生成模型（如 Sora, HunyuanVideo 等）已能生成高保真的视觉内容，但大多数开源框架生成的视频仍是静音的。Video-to-Audio (V2A) 任务旨在为无声视频自动合成语义和时序一致的高质量音频。

现有挑战：
尽管现有的 V2A 模型（如 MMAudio, HunyuanVideo-Foley）在音频质量上取得了进展，但在以下方面存在显著局限：

细粒度时序控制能力不足： 现有模型通常将提示词（Caption）视为粗粒度的语义线索。当需要控制特定时间段的声音（例如"5-6 秒鸣笛，其余静音”）或多个事件（如“先猫叫，后人声”）时，模型难以精确捕捉事件的时间关系。
视觉线索不足时的表现差： 当声音来源是画外音（Off-screen）、小区域物体、被遮挡物体或视觉特征模糊时，模型难以仅凭视觉信息控制声音的生成时机和内容。
缺乏可控性： 用户无法像“拟音师（Foley Director）”一样，灵活地指导声音何时出现、何时消失或生成与画面不完全对应的反事实声音（Counterfactual sounds）。

2. 核心方法论 (Methodology)

作者提出了 FoleyDirector 框架，基于预训练的 DiT（Diffusion Transformer）架构（具体基于 MMAudio），通过引入结构化脚本和双路径合成机制，实现了细粒度的时序控制。

2.1 结构化时序脚本 (Structured Temporal Scripts, STS)

概念： 将全局描述分解为对应短时间段（如 1 秒）的细粒度字幕集合。每个脚本片段包含该时间段内的声音类别、响度、音色等属性。
作用： 为模型提供比视觉信息更丰富、更精确的时序和语义线索，弥补视觉信息的缺失。
提取流程： 利用多模态大模型（Qwen-Omni）构建数据流水线：
1. 感知与识别： 生成音频的全局描述并识别声音类型。
2. 片段级分类： 将音频切分为 1 秒片段，对每个片段进行二分类（是否存在某声音），并生成该片段的具体描述（STS）。

2.2 脚本引导的时序融合模块 (Script-Guided Temporal Fusion Module, SG-TFM)

架构： 作为一个适配器（Adapter）插入到预训练的 MMAudio 模型中，不破坏原有生成能力。
核心机制：
- 时序脚本注意力 (Temporal Script Attention, TSA)： 将 STS 特征与音频潜在特征（Audio Latents）进行融合。
- 交错 RoPE (Interleaved RoPE)： 为了解决 STS 特征与音频特征在时间维度上的对齐问题，采用交错位置编码机制。先将 STS 和音频特征在时间维度上交错排列，应用 RoPE 编码，再分离回各自流。这确保了时序信息的连贯融合。
灵活性： 用户可通过简单地禁用 SG-TFM 模块，无缝切换回标准的 V2A 生成模式。

2.3 双帧声音合成框架 (Bi-Frame Sound Synthesis Framework)

目标： 解决复杂场景下的**画内（In-frame）与画外（Out-of-frame）**声音的联合渲染问题。
机制：
- 将音频生成流复制为两条并行路径：
  1. 画内路径： 同时接收视频特征 ( $F_v$ )、文本特征 ( $F_t$ ) 和 STS 特征 ( $F_{tsr}$ )。
  2. 画外路径： 接收文本特征 ( $F_t$ ) 和 STS 特征 ( $F_{tsr}$ )，但使用可学习的空视觉嵌入 ( $F_\emptyset$ ) 替代视频特征，从而切断视觉主导，专注于生成画外音或反事实声音。
- 融合： 在每个时间片段内，根据控制指令将两条路径的输出按时间顺序拼接（Fuse），实现画内画外声音的无缝切换和共存。

3. 数据集与基准 (Datasets & Benchmarks)

为了训练和评估，作者构建了以下资源：

DirectorSound 数据集： 基于 VGGSound 和 AudioCaps 等现有数据集，利用上述 STS 提取流水线构建的训练集，包含细粒度的时序标注。
DirectorBench： 用于评估可控性的基准。包含 100 个视频样本，涵盖时序控制（指定时间发声/静音）和反事实控制（生成与画面不符的声音）。
VGGSound-Director： 用于评估生成质量的基准。基于 VGGSound 子集，标注了 STS，用于对比音频分布、语义对齐和时序同步指标。

4. 实验结果 (Results)

4.1 可控性评估 (DirectorBench)

F1 分数提升显著： 在时序控制和反事实控制任务上，FoleyDirector 的 F1 分数从基线模型（如 Hunyuan-Foley 的 0.2451）提升至 0.4819，提升幅度超过 100%。
精确控制： 能够精确地在指定时间窗口内生成声音（如"5-6 秒鸣笛”），并在其他时间保持静音，而基线模型往往在整个片段生成声音或无法响应特定指令。

4.2 生成质量评估 (VGGSound-Director)

保持高保真度： 引入 STS 和 SG-TFM 后，音频生成的分布匹配度（FD, KL 散度）和感知质量（ISC）未受负面影响，甚至在某些指标上优于基线。
视觉 - 音频对齐： 在 DeSync（时序错位）指标上表现优异，证明了模型在引入额外控制信号的同时，依然保持了良好的视听同步性。

4.3 消融实验

STS 的作用： 移除 STS 导致可控性大幅下降。
Interleaved RoPE： 证明了交错位置编码对时序对齐的重要性。
Bi-Frame： 在处理画外音和复杂多事件场景时，Bi-Frame 框架显著提升了性能，证明了分离画内/画外路径的必要性。

5. 主要贡献 (Key Contributions)

首个引入细粒度时序控制的 V2A 框架： 提出了 FoleyDirector，首次实现了在 DiT 架构下对 V2A 生成的精确时序引导，同时保留了基础模型的音频质量。
结构化时序脚本 (STS) 与融合模块： 提出将复杂描述分解为 STS，并设计了 SG-TFM 模块（含 TSA 和 Interleaved RoPE），实现了时序信息的连贯融合。
双帧合成机制： 提出 Bi-Frame Sound Synthesis，通过解耦画内/画外路径，有效解决了视觉线索不足或需要生成反事实声音的复杂场景。
数据与基准建设： 构建了 DirectorSound 数据集、DirectorBench 和 VGGSound-Director 基准，填补了该领域细粒度控制评估的空白。

6. 意义与影响 (Significance)

角色转变： 将用户从被动的“提示词输入者”转变为主动的“拟音导演（Foley Director）”，赋予用户精确控制声音何时、何地、如何出现的能力。
技术突破： 解决了现有 V2A 模型在处理画外音、小物体声音及复杂多事件时序控制上的痛点，推动了视频生成向高可控性、高表达力方向发展。
应用前景： 在影视后期制作、游戏音效生成、无障碍辅助（为视障人士描述声音）以及创意内容创作中具有巨大的应用潜力。

总结： FoleyDirector 通过引入结构化脚本和创新的融合架构，成功在保持高音频质量的前提下，实现了视频到音频生成的细粒度时序控制，是该领域向可控生成迈出的重要一步。