eess.AS articles | Gist.Science

Textless and Non-Parallel Speech-to-Speech Emotion Style Transfer

Cet article propose S2S-ZEST, un cadre de transfert de style émotionnel speech-to-speech sans texte et non parallèle qui permet de transférer les émotions d'une parole de référence à une parole source tout en préservant l'identité du locuteur et le contenu sémantique.

Soumya Dutta, Avni Jain, Sriram GanapathyWed, 11 Ma⚡ eess

Fast-Converging Distributed Signal Estimation in Topology-Unconstrained Wireless Acoustic Sensor Networks

Cet article propose l'algorithme TI-DANSE+, une amélioration de TI-DANSE qui accélère la convergence de l'estimation de signal dans les réseaux de capteurs acoustiques sans fil en exploitant les sommes partielles des voisins et une stratégie d'élagage d'arbre, tout en conservant la robustesse aux pannes de liens et en réduisant la bande passante de communication.

Paul Didier, Toon van Waterschoot, Simon Doclo, Jörg Bitzer, Marc MoonenWed, 11 Ma⚡ eess

Human-CLAP: Human-perception-based contrastive language-audio pretraining

Ce papier présente Human-CLAP, un modèle préentraîné par contraste texte-audio optimisé sur des évaluations subjectives humaines, qui améliore significativement la corrélation entre les scores d'évaluation automatique et le jugement humain par rapport aux méthodes CLAP conventionnelles.

Taisei Takano, Yuki Okamoto, Yusuke Kanamori, Yuki Saito, Ryotaro Nagase, Hiroshi SaruwatariWed, 11 Ma⚡ eess

Benchmarking Humans and Machines on Complex Multilingual Speech Understanding Tasks

Cette étude propose un paradigme systématique pour comparer la compréhension de la parole en multilingue chez les humains et les machines, révélant que si les modèles de langage surpassent les humains dans des conditions acoustiques propres, ils peinent à imiter la capacité humaine d'attention sélective dans des scènes complexes, contrairement aux humains dont la performance dépend fortement de la langue maternelle.

Sai Samrat Kankanala, Ram Chandra, Sriram GanapathyWed, 11 Ma⚡ eess

Evaluating pretrained speech embedding systems for dysarthria detection across heterogenous datasets

Cette étude évalue de manière exhaustive 17 systèmes d'incorporation de parole préentraînés sur six jeux de données hétérogènes pour la détection de la dysarthrie, révélant des variations significatives des performances selon les jeux de données et des difficultés de généralisation inter-jeux qui soulèvent des questions sur la validité clinique des modèles entraînés et testés sur les mêmes données.

Lovisa Wihlborg, Jemima Goodall, David Wheatley, Jacob J. Webber, Johnny Tam, Christine Weaver, Suvankar Pal, Siddharthan Chandran, Sohan Seth, Oliver Watts, Cassia Valentini-BotinhaoWed, 11 Ma⚡ eess

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

Ce papier présente VSSFlow, un cadre unifié basé sur l'appariement de flux et un mécanisme d'agrégation de conditions désengagé qui résout simultanément et avec une performance supérieure les tâches de génération de sons et de parole à partir de vidéos, démontrant ainsi le potentiel des modèles génératifs unifiés.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua SongWed, 11 Ma🤖 cs.AI

VoiceBridge: General Speech Restoration with One-step Latent Bridge Models

Ce papier présente VoiceBridge, un modèle de pont latent en une seule étape capable de restaurer efficacement la parole large bande de haute qualité à partir de diverses distorsions grâce à un auto-encodeur variationnel préservant l'énergie, un prior neuronal conjoint et un entraînement unifié transformant le modèle en générateur sans distillation.

Chi Zhang, Kaiwen Zheng, Zehua Chen, Jun ZhuWed, 11 Ma🤖 cs.AI

Latent Speech-Text Transformer

Le papier présente le Latent Speech-Text Transformer (LST), une architecture qui améliore l'efficacité computationnelle et les performances des modèles multimodaux en regroupant les tokens de parole en patches latents pour aligner leur granularité avec celle du texte, permettant ainsi des gains significatifs de précision à la fois pour la parole et le texte.

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc LeWed, 11 Ma🤖 cs.AI

Noise-Conditioned Mixture-of-Experts Framework for Robust Speaker Verification

Cet article propose un cadre de vérification de locuteur robuste basé sur un mélange d'experts conditionné par le bruit, qui décompose l'espace des caractéristiques en sous-espaces spécialisés via un routage automatique, une spécialisation d'experts universels et un apprentissage par curriculum à SNR décroissant pour améliorer la généralisation dans des conditions bruyantes.

Bin Gu, Haitao Zhao, Jibo WeiWed, 11 Ma⚡ eess

Modeling strategies for speech enhancement in the latent space of a neural audio codec

Cette étude compare les stratégies d'amélioration de la parole dans l'espace latent de codecs audio neuronaux, démontrant que la prédiction de représentations continues avec un modèle non-autoregressif et un fine-tuning de l'encodeur offre les meilleures performances globales, malgré un compromis sur la reconstruction du codec.

Sofiene Kammoun, Xavier Alameda-Pineda, Simon LeglaiveWed, 11 Ma⚡ eess

WhisperVC: Decoupled Cross-Domain Alignment and Speech Generation for Low-Resource Whisper-to-Normal Conversion

Le papier présente WhisperVC, un cadre à trois étapes qui découple l'alignement inter-domaines et la génération vocale pour convertir efficacement la parole chuchotée en parole normale avec peu de données, en utilisant une VAE basée sur Conformer et un générateur de mélodies conditionné par le locuteur.

Dong Liu, Juan Liu, Wei Ju, Yao Tian, Ming LiWed, 11 Ma⚡ eess

Multiplexing Neural Audio Watermarks

Ce papier propose une nouvelle approche de multiplexage, incluant des stratégies parallèles et séquentielles ainsi que le modèle MaskNet, qui combine plusieurs techniques de tatouage audio pour surmonter les limites des schémas uniques et offrir une protection robuste contre les distorsions sophistiquées et les attaques neuronales.

Zheqi Yuan, Yucheng Huang, Guangzhi Sun, Zengrui Jin, Chao ZhangWed, 11 Ma⚡ eess

Head, posture, and full-body gestures in unscripted dyadic conversations in noise

Cette étude démontre que, lors de conversations dyadiques en milieu bruyant, les locuteurs augmentent la complexité de leurs gestes et la modulation de leurs mouvements de tête et de tronc pour soutenir la communication, tandis que les auditeurs intensifient leurs rétroactions, le tout s'accompagnant d'une légère diminution de la synchronie main-parole.

Luboš Hládek, Bernhard U. SeeberWed, 11 Ma⚡ eess

Rethinking Discrete Speech Representation Tokens for Accent Generation

Cet article présente la première étude systématique de l'encodage de l'information accentuelle dans les tokens de représentation de parole discrète (DSRT), révélant que le choix des couches est déterminant pour conserver ces informations, que la supervision par la reconnaissance automatique de la parole les réduit considérablement, et que la simple réduction de la taille du codebook ne permet pas de les dissocier efficacement des informations phonétiques et de locuteur.

Jinzuomu Zhong, Yi Wang, Korin Richmond, Peter BellWed, 11 Ma⚡ eess

Bottleneck Transformer-Based Approach for Improved Automatic STOI Score Prediction

Cette étude présente une nouvelle approche basée sur un transformateur à goulot d'étranglement pour prédire la métrique STOI de manière non intrusive, surpassant les modèles de l'état de l'art en termes de corrélation et d'erreur quadratique moyenne grâce à une architecture combinant blocs convolutifs et attention multi-têtes.

Amartyaveer, Murali Kadambi, Chandra Mohan Sharma, Anupam Mondal, Prasanta Kumar GhoshWed, 11 Ma🤖 cs.LG

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

Le papier présente VoxEmo, un benchmark complet pour l'évaluation des modèles de langage audio dans la reconnaissance des émotions, qui propose un protocole d'étiquetage souple et des stratégies d'ensemble pour mieux capturer l'ambiguïté inhérente aux émotions humaines et la subjectivité des annotations.

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

Can You Hear, Localize, and Segment Continually? An Exemplar-Free Continual Learning Benchmark for Audio-Visual Segmentation

Cet article présente le premier benchmark d'apprentissage continu sans exemples pour la segmentation audio-visuelle, accompagné de la méthode ATLAS qui intègre un conditionnement pré-fusion guidé par l'audio et une ancrage de faible rang pour atténuer l'oubli catastrophique dans des environnements dynamiques.

Siddeshwar Raghavan, Gautham Vinod, Bruce Coburn, Fengqing ZhuWed, 11 Ma⚡ eess

Universal Speech Content Factorization

L'article propose l'USCF, une méthode linéaire simple et inversible qui extrait une représentation speech de faible rang en supprimant le timbre de l'orateur tout en préservant le contenu phonétique, permettant ainsi une conversion vocale en zéro-shot et un entraînement efficace de modèles de synthèse vocale textuelle.

Henry Li Xinyuan, Zexin Cai, Lin Zhang, Leibny Paola García-Perera, Berrak Sisman, Sanjeev Khudanpur, Nicholas Andrews, Matthew WiesnerWed, 11 Ma⚡ eess

Trade-offs Between Capacity and Robustness in Neural Audio Codecs for Adversarially Robust Speech Recognition

Cette étude démontre que l'ajustement de la profondeur de la quantification vectorielle résiduelle dans les codecs audio neuronaux permet de trouver un compromis optimal entre la préservation du contenu linguistique et la robustesse aux attaques adverses, surpassant ainsi les méthodes de compression traditionnelles.

Jordan Prescott, Thanathai Lertpetchpun, Shrikanth NarayananWed, 11 Ma⚡ eess

Emotion-Aware Prefix: Towards Explicit Emotion Control in Voice Conversion Models

Cet article propose une méthode de préfixe sensible aux émotions qui améliore considérablement le contrôle explicite des émotions dans la conversion vocale, doublant la précision de conversion tout en préservant l'identité du locuteur et la qualité de la parole.

Haoyuan Yang, Mu Yang, Jiamin Xie, Szu-Jui Chen, John H. L. HansenWed, 11 Ma⚡ eess