cs.SD articles | Gist.Science

Textless and Non-Parallel Speech-to-Speech Emotion Style Transfer

Cet article propose S2S-ZEST, un cadre de transfert de style émotionnel speech-to-speech sans texte et non parallèle qui permet de transférer les émotions d'une parole de référence à une parole source tout en préservant l'identité du locuteur et le contenu sémantique.

Soumya Dutta, Avni Jain, Sriram GanapathyWed, 11 Ma⚡ eess

Fast-Converging Distributed Signal Estimation in Topology-Unconstrained Wireless Acoustic Sensor Networks

Cet article propose l'algorithme TI-DANSE+, une amélioration de TI-DANSE qui accélère la convergence de l'estimation de signal dans les réseaux de capteurs acoustiques sans fil en exploitant les sommes partielles des voisins et une stratégie d'élagage d'arbre, tout en conservant la robustesse aux pannes de liens et en réduisant la bande passante de communication.

Paul Didier, Toon van Waterschoot, Simon Doclo, Jörg Bitzer, Marc MoonenWed, 11 Ma⚡ eess

Human-CLAP: Human-perception-based contrastive language-audio pretraining

Ce papier présente Human-CLAP, un modèle préentraîné par contraste texte-audio optimisé sur des évaluations subjectives humaines, qui améliore significativement la corrélation entre les scores d'évaluation automatique et le jugement humain par rapport aux méthodes CLAP conventionnelles.

Taisei Takano, Yuki Okamoto, Yusuke Kanamori, Yuki Saito, Ryotaro Nagase, Hiroshi SaruwatariWed, 11 Ma⚡ eess

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

Ce papier présente VSSFlow, un cadre unifié basé sur l'appariement de flux et un mécanisme d'agrégation de conditions désengagé qui résout simultanément et avec une performance supérieure les tâches de génération de sons et de parole à partir de vidéos, démontrant ainsi le potentiel des modèles génératifs unifiés.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua SongWed, 11 Ma🤖 cs.AI

VoiceBridge: General Speech Restoration with One-step Latent Bridge Models

Ce papier présente VoiceBridge, un modèle de pont latent en une seule étape capable de restaurer efficacement la parole large bande de haute qualité à partir de diverses distorsions grâce à un auto-encodeur variationnel préservant l'énergie, un prior neuronal conjoint et un entraînement unifié transformant le modèle en générateur sans distillation.

Chi Zhang, Kaiwen Zheng, Zehua Chen, Jun ZhuWed, 11 Ma🤖 cs.AI

LARA-Gen: Enabling Continuous Emotion Control for Music Generation Models via Latent Affective Representation Alignment

LARA-Gen est un cadre innovant qui permet un contrôle continu et fin des émotions dans la génération musicale en alignant les états internes du modèle sur une représentation affective latente, en découplant les attributs émotionnels du contenu textuel via un espace valence-arousal, et en offrant une évaluation objective grâce à un nouveau benchmark.

Jiahao Mei, Xuenan Xu, Zeyu Xie, Zihao Zheng, Ye Tao, Yue Ding, Mengyue WuWed, 11 Ma💻 cs

Noise-Conditioned Mixture-of-Experts Framework for Robust Speaker Verification

Cet article propose un cadre de vérification de locuteur robuste basé sur un mélange d'experts conditionné par le bruit, qui décompose l'espace des caractéristiques en sous-espaces spécialisés via un routage automatique, une spécialisation d'experts universels et un apprentissage par curriculum à SNR décroissant pour améliorer la généralisation dans des conditions bruyantes.

Bin Gu, Haitao Zhao, Jibo WeiWed, 11 Ma⚡ eess

Modeling strategies for speech enhancement in the latent space of a neural audio codec

Cette étude compare les stratégies d'amélioration de la parole dans l'espace latent de codecs audio neuronaux, démontrant que la prédiction de représentations continues avec un modèle non-autoregressif et un fine-tuning de l'encodeur offre les meilleures performances globales, malgré un compromis sur la reconstruction du codec.

Sofiene Kammoun, Xavier Alameda-Pineda, Simon LeglaiveWed, 11 Ma⚡ eess

Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound

Cet article présente le premier cadre formel pour les modèles de monde audiovisuels (AVWM), introduisant le jeu de données AVW-4k et le modèle AV-CDiT basé sur la diffusion pour simuler de manière synchronisée les dynamiques visuelles et sonores, améliorant ainsi significativement la navigation des agents.

Jiahua Wang, Leqi Zheng, Jialong Wu, Yaoxin MaoWed, 11 Ma💻 cs

Head, posture, and full-body gestures in unscripted dyadic conversations in noise

Cette étude démontre que, lors de conversations dyadiques en milieu bruyant, les locuteurs augmentent la complexité de leurs gestes et la modulation de leurs mouvements de tête et de tronc pour soutenir la communication, tandis que les auditeurs intensifient leurs rétroactions, le tout s'accompagnant d'une légère diminution de la synchronie main-parole.

Luboš Hládek, Bernhard U. SeeberWed, 11 Ma⚡ eess

Rethinking Discrete Speech Representation Tokens for Accent Generation

Cet article présente la première étude systématique de l'encodage de l'information accentuelle dans les tokens de représentation de parole discrète (DSRT), révélant que le choix des couches est déterminant pour conserver ces informations, que la supervision par la reconnaissance automatique de la parole les réduit considérablement, et que la simple réduction de la taille du codebook ne permet pas de les dissocier efficacement des informations phonétiques et de locuteur.

Jinzuomu Zhong, Yi Wang, Korin Richmond, Peter BellWed, 11 Ma⚡ eess

EDMFormer: Genre-Specific Self-Supervised Learning for Music Structure Segmentation

L'article présente EDMFormer, un modèle de type transformer utilisant un apprentissage auto-supervisé sur un nouveau jeu de données annoté (EDM-98) pour améliorer la segmentation structurelle de la musique électronique, en se concentrant spécifiquement sur des caractéristiques comme l'énergie et le rythme plutôt que sur la mélodie ou les paroles.

Sahal Sajeer, Krish Patel, Oscar Chung, Joel Song BaeWed, 11 Ma🤖 cs.AI

Fish Audio S2 Technical Report

Ce rapport technique présente Fish Audio S2, un système de synthèse vocale open-source capable de suivre des instructions en langage naturel pour générer de la parole multi-parleurs et multi-tours, accompagné d'un moteur d'inférence optimisé pour la production.

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei HanWed, 11 Ma🤖 cs.AI

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

Le papier présente VoxEmo, un benchmark complet pour l'évaluation des modèles de langage audio dans la reconnaissance des émotions, qui propose un protocole d'étiquetage souple et des stratégies d'ensemble pour mieux capturer l'ambiguïté inhérente aux émotions humaines et la subjectivité des annotations.

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

Universal Speech Content Factorization

L'article propose l'USCF, une méthode linéaire simple et inversible qui extrait une représentation speech de faible rang en supprimant le timbre de l'orateur tout en préservant le contenu phonétique, permettant ainsi une conversion vocale en zéro-shot et un entraînement efficace de modèles de synthèse vocale textuelle.

Henry Li Xinyuan, Zexin Cai, Lin Zhang, Leibny Paola García-Perera, Berrak Sisman, Sanjeev Khudanpur, Nicholas Andrews, Matthew WiesnerWed, 11 Ma⚡ eess

Gender Fairness in Audio Deepfake Detection: Performance and Disparity Analysis

Cette étude analyse les disparités de genre dans la détection des deepfakes audio en démontrant que l'évaluation basée uniquement sur des métriques globales comme le taux d'erreur égalisé masque des biais démographiques significatifs, soulignant ainsi la nécessité d'adopter des mesures d'équité spécifiques pour développer des systèmes plus justes et fiables.

Aishwarya Fursule, Shruti Kshirsagar, Anderson R. AvilaWed, 11 Ma🤖 cs.AI

Trade-offs Between Capacity and Robustness in Neural Audio Codecs for Adversarially Robust Speech Recognition

Cette étude démontre que l'ajustement de la profondeur de la quantification vectorielle résiduelle dans les codecs audio neuronaux permet de trouver un compromis optimal entre la préservation du contenu linguistique et la robustesse aux attaques adverses, surpassant ainsi les méthodes de compression traditionnelles.

Jordan Prescott, Thanathai Lertpetchpun, Shrikanth NarayananWed, 11 Ma⚡ eess

The Costs of Reproducibility in Music Separation Research: a Replication of Band-Split RNN

Cette étude tente de reproduire le modèle BSRNN pour la séparation de sources musicales, révélant les coûts de la non-reproductibilité tout en proposant une version optimisée du modèle et en plaidant pour des pratiques de recherche plus transparentes.

Paul Magron, Romain Serizel, Constance DouwesWed, 11 Ma🤖 cs.LG

How Contrastive Decoding Enhances Large Audio Language Models?

Cette étude évalue systématiquement quatre stratégies de décodage contrastif pour améliorer les grands modèles de langage audio, identifiant les méthodes les plus efficaces et introduisant un cadre de matrice de transition pour expliquer comment ces techniques corrigent spécifiquement les erreurs d'absence d'audio ou d'incertitude tout en échouant à réparer les raisonnements défectueux, offrant ainsi des directives pour adapter l'amélioration aux profils d'erreurs des modèles.

Tzu-Quan Lin, Wei-Ping Huang, Yi-Cheng Lin, Hung-yi LeeWed, 11 Ma💬 cs.CL

Paralinguistic Emotion-Aware Validation Timing Detection in Japanese Empathetic Spoken Dialogue

Cette étude propose un modèle combinant des indices paralinguistiques et des informations émotionnelles pour détecter le moment optimal d'une validation empathique dans le dialogue parlé japonais, sans recourir au contexte textuel, afin d'améliorer les interactions humain-robot.

Zi Haur Pang, Yahui Fu, Yuan Gao, Tatsuya KawaharaWed, 11 Ma💻 cs