JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization

本文提出了名为 JavisDiT 的新型联合音视频扩散 Transformer 模型,通过引入分层时空先验同步机制实现高质量且精准同步的音视频生成,并发布了包含 1 万余条数据的 JavisBench 基准及相应评估指标,在综合性能上显著超越了现有方法。

Kai Liu, Wei Li, Lai Chen, Shengqiong Wu, Yanhao Zheng, Jiayi Ji, Fan Zhou, Jiebo Luo, Ziwei Liu, Hao Fei, Tat-Seng Chua

发布于 2026-02-24
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 JavisDiT 的人工智能新系统,它的核心能力是:根据你写的一段文字,同时生成一段“有声有画”的视频,而且声音和画面是完美同步的。

想象一下,你给 AI 一个指令:“一只机器人在后院和一只淘气的黑狗打闹,旁边还有两个外星人说话。”

  • 以前的 AI:可能会先画出一个机器人和狗打架的视频,然后随便配点机械声;或者先配好声音,再让画面去勉强配合声音。结果往往是:狗叫的时候机器人没动,或者外星人说话的时候嘴巴没张,听起来非常“假”和“错位”。
  • JavisDiT:它就像一位全能导演,在按下“开始”的那一刻,大脑里同时构思画面和声音,确保机器人转头的瞬间,机械声刚好响起;狗叫的瞬间,声音也刚好爆发。

为了让你更轻松地理解这项技术,我们可以用几个生活中的比喻来拆解它的核心创新:

1. 核心架构:从“流水线”到“交响乐团”

以前的生成方法像流水线:先做视频,再做音频,或者反过来。这就像先盖好房子,再试图把家具硬塞进去,经常会出现“门打不开”或者“桌子没地儿放”的尴尬(即音画不同步)。

JavisDiT 则像是一个交响乐团

  • 它有一个统一的指挥(基于 Diffusion Transformer 架构),让“画面乐手”和“声音乐手”同时演奏。
  • 它们共享同一个乐谱(文本提示),并且时刻互相倾听,确保小提琴(画面)拉出的每一个音符,都精准对应大提琴(声音)的震动。

2. 核心黑科技:HiST-Sypo(像是一个“时空导航仪”)

这是论文最厉害的地方。为了让声音和画面不仅“对得上”,还能“对得准”(比如狗在左边叫,声音就在左边;狗叫了 3 秒,声音也持续 3 秒),作者设计了一个叫 HiST-Sypo 的模块。

你可以把它想象成给 AI 戴上了一副**“时空导航眼镜”**:

  • 粗粒度导航(全局):告诉 AI 整个场景的大概剧情。比如“这是一个后院,有机器人和狗”。
  • 细粒度导航(精准定位):这是关键!它不仅能告诉 AI“有狗”,还能精确指出:“狗在左上角2 秒时开始叫,5 秒时停止”。
  • 作用:这副眼镜让 AI 在生成每一帧画面和每一毫秒声音时,都知道“谁在什么时候、在什么位置”发出了声音。这就解决了以前 AI 经常出现的“画面里的人在说话,但声音却是从屏幕外传出来的”这种尴尬情况。

3. 新考场:JavisBench(给 AI 出的“高难度期末考”)

以前的 AI 测试题太简单了,比如只让 AI 生成“一个人跳舞”或者“下雨的声音”。这就像让一个刚学会走路的孩子去跑马拉松,稍微复杂点就摔倒了。

作者觉得现有的测试不够用,于是自己建了一个新考场,叫 JavisBench

  • 题目更难:里面有 10,000 多个视频,场景非常复杂。比如“工厂里机器轰鸣,同时有人在说话,背景还有鸟叫”。
  • 陷阱更多:有些声音是画外音(画面里看不见声源),有些是多个声音同时发生。
  • 目的:只有能在这种复杂环境下还能“指哪打哪”的 AI,才算真正合格。

4. 新评分标准:JavisScore(不再只看“大概像不像”)

以前评价 AI 生成的视频,主要看画面清不清晰、声音好不好听。但这次,作者发明了一个新尺子叫 JavisScore

  • 它不像以前那样只看“有没有声音”,而是像法医一样,拿着放大镜去检查:画面里那个气泡破裂的瞬间,声音是不是刚好在 0.01 秒内响起了?
  • 如果 AI 生成的视频里,狗在叫,但声音慢了半拍,这个尺子就会立刻扣分。

总结

JavisDiT 就像是一个拥有“读心术”和“超快反应”的虚拟导演
它不再把画面和声音当作两件事分开做,而是通过一种精细的时空导航机制,让两者在生成的每一刻都紧紧锁在一起。

这项技术的意义在于:

  • 对于创作者:以后做电影、短视频,不需要后期辛苦地手动去“对口型”或“配音效”,AI 能一键搞定,而且非常自然。
  • 对于未来:它让 AI 生成的内容更接近真实世界,让我们能创造出以前不敢想象的复杂互动视频(比如让游戏里的 NPC 根据环境实时发出完美的声音)。

简单来说,以前的 AI 生成的视频是“画是画,声是声,拼在一起”;现在的 JavisDiT 生成的视频是“画中有声,声中有画,浑然一体”。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →