ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance

本文提出了 ExpGest 框架,这是一种基于扩散模型的首创性全肢体手势生成方法,通过融合音频与文本信息、引入噪声情感分类器及潜在空间对齐技术,有效解决了现有方法在情感表达、语义一致性和全身运动自然度方面的不足,实现了更具表现力和可控性的演讲者动作生成。

Yongkang Cheng, Mingjiang Liang, Shaoli Huang, Gaoge Han, Jifeng Ning, Wei LiuTue, 10 Ma💻 cs

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

本文介绍了 DCASE 2025 挑战赛中的第五项任务,即一个涵盖生物声学、时间声景和复杂问答等多领域的音频问答基准,旨在通过多样化的数据集和评估协议推动音频语言模型在声学内容推理方面的发展,使其具备接近人类水平的感知与交互能力。

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan CatanzaroTue, 10 Ma💬 cs.CL