JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation

本文提出了 JavisDiT++,这是一种基于 Wan2.1-1.3B 架构的轻量级统一框架,通过引入模态特定混合专家(MS-MoE)设计、时序对齐 RoPE(TA-RoPE)策略以及音视频直接偏好优化(AV-DPO)方法,在仅使用约 100 万条公开训练数据的情况下,实现了在生成质量、时间同步性和语义对齐方面超越现有开源方法并媲美商业模型(如 Veo3)的联合音视频生成效果。

Kai Liu, Yanhao Zheng, Kai Wang, Shengqiong Wu, Rongjunchen Zhang, Jiebo Luo, Dimitrios Hatzinakos, Ziwei Liu, Hao Fei, Tat-Seng Chua

发布于 2026-02-24
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 JavisDiT++ 的新模型,它的核心任务是:根据一段文字描述,同时生成一段“有声音”的视频

想象一下,你给 AI 一个指令:“一只棕熊在森林里咆哮着走向镜头”,AI 不仅要画出熊走路的画面,还要配上逼真的咆哮声和踩碎树叶的声音,而且声音和画面必须严丝合缝(熊张嘴时正好有声音)。

以前的开源模型虽然能做,但效果往往像“劣质配音”:画面和声音对不上,或者声音听起来很假。而 JavisDiT++ 就像是一个超级导演,它用三个“独门秘籍”解决了这些问题。

以下是用通俗语言和比喻对这三个核心技术的解释:

1. 核心架构:MS-MoE(“双轨制”专家团队)

以前的做法:就像让一个全能但有点“大锅饭”的厨师,用同一套锅具和调料同时炒“视频”和“音频”。结果往往是顾此失彼,视频炒糊了,或者声音没味道。
JavisDiT++ 的做法:它建立了一个**“双轨制”的专家团队**。

  • 共享大脑(注意力层):视频和音频的“大脑”部分(注意力机制)是共享的,它们可以互相交流:“嘿,画面里熊在张嘴,声音那边准备咆哮!”
  • 专属厨房(FFN 层):交流完之后,它们会分流到各自专属的“厨房”。视频专家只管把画面画得漂亮,音频专家只管把声音调得逼真。
  • 比喻:这就像一支交响乐团。指挥(共享层)让大家配合默契,但小提琴手(视频专家)只负责拉琴,大鼓手(音频专家)只负责敲鼓。这样既保证了合奏的和谐,又让每个乐手都能发挥到极致,而且不需要雇佣两倍的乐手(节省算力)。

2. 时间同步:TA-RoPE(“统一的时间轴”)

以前的痛点:以前的模型里,视频和音频像是两个拿着不同手表的人。视频说“现在是第 3 秒”,音频可能觉得“那是第 2.5 秒”。结果就是:熊刚张嘴,声音却过了半秒才出来,或者声音还在响,熊已经闭嘴了。
JavisDiT++ 的做法:它给视频和音频都发了一张完全同步的“时间身份证”

  • 比喻:想象视频和音频是两列并排行驶的火车。以前的模型是两列火车各自跑,偶尔撞一下。JavisDiT++ 给它们铺了一条单轨铁路,强制它们每一节车厢(每一帧画面和每一段声音)都严格对应同一个时间点。
  • 效果:熊张嘴的瞬间,声音信号正好到达,实现了帧级的精准同步,就像真人说话一样自然,没有“口型对不上”的尴尬。

3. 人类偏好对齐:AV-DPO(“挑剔的影评人”)

以前的局限:模型训练时,只要“像”就行,不管好不好看。比如生成的视频虽然熊在动,但动作很僵硬;声音虽然有,但像机器人。
JavisDiT++ 的做法:它引入了**“人类偏好优化”,就像给模型请了一位挑剔的“影评人”**。

  • 工作流程
    1. 模型生成两个版本(比如版本 A 和版本 B)。
    2. “影评人”(奖励模型)从画质、声音质量、同步度等多个维度打分。
    3. 模型只学习那个得分高的版本(“赢家”),并努力避免那个得分低的版本(“输家”)。
  • 比喻:这就像练书法。以前是老师只告诉你“写对了”,现在老师会拿着两个作品对比:“你看,A 的墨色更浓,B 的笔锋更有力,下次你要学 A 的墨色和 B 的笔锋。”通过这种不断的“优胜劣汰”,模型生成的视频越来越符合人类的审美。

总结:为什么它很厉害?

  • 小身材,大能量:它只用了大约 100 万 条公开数据(相比商业巨头动辄几十亿的数据量),就达到了世界顶尖水平。
  • 效率高:它不需要像以前的模型那样把两个大模型“硬拼”在一起,而是像搭积木一样,用更聪明的结构实现了 1+1>2 的效果。
  • 开源:代码、模型和数据都公开了,让全世界的开发者都能用。

一句话总结
JavisDiT++ 就像是一个懂艺术、守纪律且善于学习的年轻导演。它用“双轨专家”分工合作,用“统一时间轴”确保音画同步,再用“影评人反馈”不断打磨细节,最终用很少的素材,就能拍出画面逼真、声音同步、符合人类审美的“有声电影”。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →