Fast-Converging Distributed Signal Estimation in Topology-Unconstrained Wireless Acoustic Sensor Networks

Cet article propose l'algorithme TI-DANSE+, une amélioration de TI-DANSE qui accélère la convergence de l'estimation de signal dans les réseaux de capteurs acoustiques sans fil en exploitant les sommes partielles des voisins et une stratégie d'élagage d'arbre, tout en conservant la robustesse aux pannes de liens et en réduisant la bande passante de communication.

Paul Didier, Toon van Waterschoot, Simon Doclo, Jörg Bitzer, Marc MoonenWed, 11 Ma⚡ eess

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

Ce papier présente VSSFlow, un cadre unifié basé sur l'appariement de flux et un mécanisme d'agrégation de conditions désengagé qui résout simultanément et avec une performance supérieure les tâches de génération de sons et de parole à partir de vidéos, démontrant ainsi le potentiel des modèles génératifs unifiés.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua SongWed, 11 Ma🤖 cs.AI

VoiceBridge: General Speech Restoration with One-step Latent Bridge Models

Ce papier présente VoiceBridge, un modèle de pont latent en une seule étape capable de restaurer efficacement la parole large bande de haute qualité à partir de diverses distorsions grâce à un auto-encodeur variationnel préservant l'énergie, un prior neuronal conjoint et un entraînement unifié transformant le modèle en générateur sans distillation.

Chi Zhang, Kaiwen Zheng, Zehua Chen, Jun ZhuWed, 11 Ma🤖 cs.AI

LARA-Gen: Enabling Continuous Emotion Control for Music Generation Models via Latent Affective Representation Alignment

LARA-Gen est un cadre innovant qui permet un contrôle continu et fin des émotions dans la génération musicale en alignant les états internes du modèle sur une représentation affective latente, en découplant les attributs émotionnels du contenu textuel via un espace valence-arousal, et en offrant une évaluation objective grâce à un nouveau benchmark.

Jiahao Mei, Xuenan Xu, Zeyu Xie, Zihao Zheng, Ye Tao, Yue Ding, Mengyue WuWed, 11 Ma💻 cs

Noise-Conditioned Mixture-of-Experts Framework for Robust Speaker Verification

Cet article propose un cadre de vérification de locuteur robuste basé sur un mélange d'experts conditionné par le bruit, qui décompose l'espace des caractéristiques en sous-espaces spécialisés via un routage automatique, une spécialisation d'experts universels et un apprentissage par curriculum à SNR décroissant pour améliorer la généralisation dans des conditions bruyantes.

Bin Gu, Haitao Zhao, Jibo WeiWed, 11 Ma⚡ eess

Rethinking Discrete Speech Representation Tokens for Accent Generation

Cet article présente la première étude systématique de l'encodage de l'information accentuelle dans les tokens de représentation de parole discrète (DSRT), révélant que le choix des couches est déterminant pour conserver ces informations, que la supervision par la reconnaissance automatique de la parole les réduit considérablement, et que la simple réduction de la taille du codebook ne permet pas de les dissocier efficacement des informations phonétiques et de locuteur.

Jinzuomu Zhong, Yi Wang, Korin Richmond, Peter BellWed, 11 Ma⚡ eess

EDMFormer: Genre-Specific Self-Supervised Learning for Music Structure Segmentation

L'article présente EDMFormer, un modèle de type transformer utilisant un apprentissage auto-supervisé sur un nouveau jeu de données annoté (EDM-98) pour améliorer la segmentation structurelle de la musique électronique, en se concentrant spécifiquement sur des caractéristiques comme l'énergie et le rythme plutôt que sur la mélodie ou les paroles.

Sahal Sajeer, Krish Patel, Oscar Chung, Joel Song BaeWed, 11 Ma🤖 cs.AI

Universal Speech Content Factorization

L'article propose l'USCF, une méthode linéaire simple et inversible qui extrait une représentation speech de faible rang en supprimant le timbre de l'orateur tout en préservant le contenu phonétique, permettant ainsi une conversion vocale en zéro-shot et un entraînement efficace de modèles de synthèse vocale textuelle.

Henry Li Xinyuan, Zexin Cai, Lin Zhang, Leibny Paola García-Perera, Berrak Sisman, Sanjeev Khudanpur, Nicholas Andrews, Matthew WiesnerWed, 11 Ma⚡ eess

Gender Fairness in Audio Deepfake Detection: Performance and Disparity Analysis

Cette étude analyse les disparités de genre dans la détection des deepfakes audio en démontrant que l'évaluation basée uniquement sur des métriques globales comme le taux d'erreur égalisé masque des biais démographiques significatifs, soulignant ainsi la nécessité d'adopter des mesures d'équité spécifiques pour développer des systèmes plus justes et fiables.

Aishwarya Fursule, Shruti Kshirsagar, Anderson R. AvilaWed, 11 Ma🤖 cs.AI

Trade-offs Between Capacity and Robustness in Neural Audio Codecs for Adversarially Robust Speech Recognition

Cette étude démontre que l'ajustement de la profondeur de la quantification vectorielle résiduelle dans les codecs audio neuronaux permet de trouver un compromis optimal entre la préservation du contenu linguistique et la robustesse aux attaques adverses, surpassant ainsi les méthodes de compression traditionnelles.

Jordan Prescott, Thanathai Lertpetchpun, Shrikanth NarayananWed, 11 Ma⚡ eess

How Contrastive Decoding Enhances Large Audio Language Models?

Cette étude évalue systématiquement quatre stratégies de décodage contrastif pour améliorer les grands modèles de langage audio, identifiant les méthodes les plus efficaces et introduisant un cadre de matrice de transition pour expliquer comment ces techniques corrigent spécifiquement les erreurs d'absence d'audio ou d'incertitude tout en échouant à réparer les raisonnements défectueux, offrant ainsi des directives pour adapter l'amélioration aux profils d'erreurs des modèles.

Tzu-Quan Lin, Wei-Ping Huang, Yi-Cheng Lin, Hung-yi LeeWed, 11 Ma💬 cs.CL