Audio-sync Video Instance Editing with Granularity-Aware Mask Refiner

本文提出了 AVI-Edit 框架,通过粒度感知掩码细化器和自反馈音频代理,实现了具备高保真音画同步与细粒度时空控制能力的视频实例编辑,并构建了相应的大规模数据集以验证其优越性。

Haojie Zheng, Shuchen Weng, Jingqi Liu, Siqi Yang, Boxin Shi, Xinlong Wang

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 AVI-Edit 的新工具,你可以把它想象成视频编辑界的“全能魔法棒”,但它有一个最厉害的本领:它能听懂声音,并且让画面和声音完美同步地发生变化。

为了让你更容易理解,我们把视频编辑比作**“给电影里的角色换装和改台词”**。

1. 以前的痛点:只有“视觉”没有“听觉”

想象一下,你以前用普通的视频编辑软件想给电影里的主角换件衣服。

  • 普通软件:就像是一个只会画画的画家。你让他把主角的衣服从“蓝色”改成“红色”,他确实能把衣服涂红,但他完全不管主角嘴里在说什么。结果就是,画面变了,但声音还是原来的,或者声音和画面完全对不上(比如嘴巴在动,声音却是风声),看起来很假。
  • 现有的高级软件:有些能处理声音,但通常只能处理整个场景(比如把整个房间的嘈杂声都关掉),或者只能处理整个视频,没法精准地只改“某一个人”的声音和形象。

2. AVI-Edit 的三大“超能力”

AVI-Edit 就像是一个懂心理学的导演 + 一个精明的裁缝 + 一个声音魔术师的组合。它主要解决了三个问题:

超能力一:把“粗略的草图”变成“精准的轮廓” (Granularity-Aware Mask Refiner)

  • 场景:你想修改视频里的一只猫。但你给软件画的圈(遮罩)很粗糙,可能把猫旁边的桌子也圈进去了。
  • 以前的做法:软件会傻乎乎地把桌子也一起改了,或者把猫的边缘切得很难看。
  • AVI-Edit 的做法:它有一个**“智能修图师”。你给它一个粗略的圈,它会结合画面里的细节(猫毛的纹理)和声音(猫叫的位置),自动把圈修得严丝合缝**,只圈住猫,不碰桌子。
  • 比喻:就像你给厨师一个大概的“切这块肉”的指令,厨师不仅切得准,还能自动避开骨头和肥肉,只切出最完美的肉块。

超能力二:让声音和画面“跳双人舞” (Self-Feedback Audio Agent)

  • 场景:你想把视频里男人的声音改成女人的声音,或者把狗叫声改成猫叫声。
  • 以前的做法:直接替换声音,结果发现嘴巴还在动原来的口型,或者新声音和背景音(比如风声、掌声)混在一起很刺耳。
  • AVI-Edit 的做法:它有一个**“声音导演”**,工作流程是:
    1. 分离:先把原视频里的声音像剥洋葱一样剥开,把“要保留的背景音”(如掌声)和“要修改的声音”(如男人的说话声)分开。
    2. 生成:根据你写的文字(比如“改成温柔的女声”),生成新的声音。
    3. 混合与试错:把新声音和保留的背景音混在一起。
    4. 自我批评(关键步骤):这个“声音导演”会自己听一遍混好的声音,问自己:“这听起来自然吗?背景音还在吗?新声音符合要求吗?”如果不好听,它就自动重写指令,重新生成,直到完美为止。
  • 比喻:就像你点了一杯特调咖啡,调酒师(AI)调好后,自己先尝一口,觉得太苦了,就自动加糖再调一次,直到你觉得“完美”才端给你。

超能力三:精准控制“谁在动,谁在叫”

它不仅能改声音,还能改画面。

  • 例子:视频里一个人在说话,你可以只改他的台词(声音变了,但脸没变);或者只改他的长相(脸变了,但声音还是原来的);甚至可以把一只变成,同时把“汪汪”声变成“喵喵”声。

3. 它是怎么做到的?(简单版原理)

  1. 大模型打底:它基于一个很强大的视频生成模型(Wan2.2),这个模型本身就很会“无中生有”地生成视频。
  2. 数据训练:作者专门造了一个巨大的“题库”(AVISET 数据集),里面有 7 万多段视频,每一段都标注了“谁在说话/发声”以及对应的声音。这让 AI 学会了“谁在动,谁就发声”的规律。
  3. 双重保险
    • 视觉端:用那个“智能修图师”把你要改的地方圈得死死的。
    • 听觉端:用那个“自我批评的声音导演”确保声音既符合你的要求,又和画面完美同步。

4. 总结:这有什么用?

想象一下未来的应用场景:

  • 电影修复:老电影里演员的台词听不清,你可以直接让 AI 根据画面重新生成清晰的台词,而且口型完全对上。
  • 创意视频:你想让视频里的猫开口说人话,或者让视频里的雨声变成雷声,AVI-Edit 都能轻松搞定,而且看起来非常自然,不会像以前那样“假假的”。
  • 无障碍辅助:把视频里的外语自动翻译成母语,同时让说话人的口型也自动调整成说中文的样子。

一句话总结
AVI-Edit 就像是一个既懂画画又懂录音的超级助手,它能精准地找到视频里的某个物体,根据你的要求,同时修改它的样子和声音,并且保证它们看起来、听起来都天衣无缝,就像原本就是那样拍的一样。