FoleyDirector: Fine-Grained Temporal Steering for Video-to-Audio Generation via Structured Scripts

本文提出了 FoleyDirector 框架,通过引入结构化时间脚本(STS)和双向帧声音合成技术,首次实现了基于 DiT 的视频转音频生成中的细粒度时间控制,在保持高保真音质的同时显著提升了多事件场景下的可控性。

You Li, Dewei Zhou, Fan Ma, Fu Li, Dongliang He, Yi Yang

发布于 2026-03-23
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 FoleyDirector(拟音导演)的新系统。为了让你轻松理解,我们可以把“视频转音频”(Video-to-Audio)的过程想象成给一部无声电影配声音

🎬 核心故事:从“自动配音”到“导演指挥”

以前的困境:
想象一下,你有一部无声电影,以前的 AI 就像是一个只会凭直觉工作的“自动配音员”

  • 它看到画面里有狗,就自动加狗叫声。
  • 但如果你想要“在第 5 秒狗叫,第 6 秒突然变成猫叫,或者画面外有雷声”,这个自动配音员就懵了。它要么乱叫,要么完全听不到你的指挥,因为它只盯着画面看,不懂你的“剧本”。

FoleyDirector 的突破:
FoleyDirector 把这个“自动配音员”升级成了一位听从你指挥的“拟音导演”。你不再只是给一个模糊的指令,而是可以给它一份**“分镜剧本”(Structured Temporal Scripts, STS)**。


🛠️ 三大核心魔法(技术原理通俗版)

1. 分镜剧本 (Structured Temporal Scripts, STS)

  • 比喻: 以前的 AI 看的是“整部电影的大纲”,现在 FoleyDirector 拿到的是精确到秒的“分镜头脚本”
  • 怎么做: 系统把视频切分成很多小段(比如每 1 秒一段)。对于每一段,你都可以写具体的指令,比如"0-2 秒:火车鸣笛声”、"3-4 秒:静音”、"5-6 秒:画外有人说话”。
  • 效果: 就像导演拿着剧本对录音师说:“这一秒要这个声音,下一秒要那个声音”,AI 就能精准地在特定时间生成特定的声音,哪怕那个声音在画面里根本看不到(比如画外的雷声)。

2. 时间融合模块 (Script-Guided Temporal Fusion Module)

  • 比喻: 这是一个**“超级翻译官”**。
  • 怎么做: AI 原本只懂“画面语言”和“全局文字”,现在它需要听懂你的“分镜剧本”。这个模块就像一个翻译官,把你的剧本指令(比如"5 秒猫叫”)翻译成 AI 能听懂的“时间坐标信号”,并把它完美地嵌入到生成过程中。
  • 关键点: 它用了**“交错罗盘”(Interleaved RoPE)**技术。想象一下,把时间轴像编织毛衣一样,把“剧本指令”和“画面特征”紧密地编织在一起,确保 AI 不会搞错时间顺序,知道什么时候该放什么声音。

3. 双轨合成框架 (Bi-Frame Sound Synthesis)

  • 比喻: 这是**“画内”与“画外”的双声道录音棚**。
  • 痛点: 以前 AI 很难处理“画外音”(比如画面里是人在笑,但声音是画外的老虎吼叫)。因为 AI 太依赖画面,看到人笑就只敢生成笑声。
  • 怎么做: FoleyDirector 把声音生成分成两条路:
    • 轨道 A(画内): 盯着画面看,生成画面里该有的声音(如脚步声)。
    • 轨道 B(画外): 闭上眼睛不看画面,只根据你的剧本指令生成声音(如老虎吼叫)。
    • 最后融合: 系统把这两条轨道的声音,按照你剧本里的时间线,像剪辑师一样完美拼接在一起。
  • 效果: 你可以让画面里的人在笑,同时生成画外老虎的吼声,互不干扰,非常灵活。

📊 它有多厉害?(实验结果)

作者做了一个**“导演大考”(DirectorBench)**,测试 AI 能不能听指挥。

  • 以前的 AI: 就像个不听话的实习生,你让它"5 秒停”,它可能一直响;你让它“画外有雷声”,它可能完全没反应。准确率(F1 分数)只有 0.24 左右。
  • FoleyDirector: 就像个金牌拟音师,完全听懂了你的分镜剧本。准确率提升到了 0.48,几乎是翻倍!
  • 音质: 最重要的是,它虽然加了这么多控制,声音的质量并没有变差,依然清晰、自然,和原来的顶级 AI 一样好听。

💡 总结

FoleyDirector 就像是给视频配音领域装上了**“时间遥控器”“剧本编辑器”**。

  • 以前:AI 看着画面,该放什么声音。
  • 现在:你拿着剧本告诉 AI,在什么时间、放什么声音(哪怕是画外的),AI 就精准执行。

这让普通用户也能像专业的“拟音导演”一样,轻松创作出充满创意、时间精准、甚至带有“画外音”惊喜的高质量视频配乐。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →