eess.AS articles | Gist.Science

Acoustic and Semantic Modeling of Emotion in Spoken Language

Cette thèse propose des modèles acoustiques et sémantiques avancés pour comprendre et synthétiser les émotions dans la parole, en intégrant l'apprentissage pré-entraîné, l'architecture hiérarchique pour la reconnaissance conversationnelle et un cadre de transfert de style sans texte pour améliorer la génération et la reconnaissance affectives.

Soumya DuttaWed, 11 Ma⚡ eess

SPAR-K: Scheduled Periodic Alternating Early Exit for Spoken Language Models

Le papier propose SPAR-K, un cadre d'exécution anticipée périodique et alternée qui accélère l'inférence des modèles de langage parlés en réduisant la profondeur de décodage sans compromettre la qualité perceptive ni la précision des tâches, tout en démontrant que les stratégies d'exécution anticipée basées sur la confiance, efficaces pour les LLM textuels, sont sous-optimales pour les modèles de parole.

Hsiao-Ying Huang, Cheng-Han Chiang, Hung-yi LeeWed, 11 Ma💬 cs.CL

How Contrastive Decoding Enhances Large Audio Language Models?

Cette étude évalue systématiquement quatre stratégies de décodage contrastif pour améliorer les grands modèles de langage audio, identifiant les méthodes les plus efficaces et introduisant un cadre de matrice de transition pour expliquer comment ces techniques corrigent spécifiquement les erreurs d'absence d'audio ou d'incertitude tout en échouant à réparer les raisonnements défectueux, offrant ainsi des directives pour adapter l'amélioration aux profils d'erreurs des modèles.

Tzu-Quan Lin, Wei-Ping Huang, Yi-Cheng Lin, Hung-yi LeeWed, 11 Ma💬 cs.CL

StuPASE: Towards Low-Hallucination Studio-Quality Generative Speech Enhancement

Le papier présente StuPASE, une méthode d'amélioration de la parole générative qui combine un module d'entraînement sur cibles sèches et un flux de correspondance pour atteindre une qualité studio tout en minimisant les hallucinations, surpassant ainsi les méthodes actuelles.

Xiaobin Rong, Jun Gao, Zheng Wang, Mansur Yesilbursa, Kamil Wojcicki, Jing LuWed, 11 Ma⚡ eess

Physics-Informed Neural Engine Sound Modeling with Differentiable Pulse-Train Synthesis

Cet article présente le modèle Pulse-Train-Resonator (PTR), une architecture de synthèse audio différentiable qui intègre des biais physiques pour générer des sons de moteur réalistes en modélisant directement les impulsions de pression et les résonances d'échappement, surpassant ainsi les approches basées sur les harmoniques.

Robin Doerfler, Lonce WyseWed, 11 Ma🤖 cs.AI

End-to-End Direction-Aware Keyword Spotting with Spatial Priors in Noisy Environments

Cet article présente un cadre de détection de mots-clés (KWS) multi-canaux et orienté de bout en bout qui, en exploitant des indices spatiaux et des priors directionnels, améliore significativement la robustesse au bruit par rapport aux approches conventionnelles.

Rui Wang, Zhifei Zhang, Yu Gao, Xiaofeng Mou, Yi XuWed, 11 Ma⚡ eess

A Fast Solver for Interpolating Stochastic Differential Equation Diffusion Models for Speech Restoration

Cet article propose un nouveau formalisme d'équations différentielles stochastiques d'interpolation (iSDE) et un solveur rapide permettant d'accélérer considérablement le processus d'échantillonnage des modèles de diffusion pour la restauration de la parole, réduisant le nombre d'évaluations du réseau neuronal à seulement 10.

Bunlong Lay, Timo GerkmannWed, 11 Ma⚡ eess

Speech-Omni-Lite: Portable Speech Interfaces for Vision-Language Models

Ce papier présente Speech-Omni-Lite, un cadre économe en ressources qui enrichit les modèles vision-langage pré-entraînés de capacités de compréhension et de génération vocale via des modules légers et des données synthétiques, permettant d'atteindre des performances comparables aux modèles omni-évolutifs massifs avec une fraction des données et de la puissance de calcul.

Dehua Tao, Xuan Luo, Daxin Tan, Kai Chen, Lanqing Hong, Jing Li, Ruifeng Xu, Xiao ChenWed, 11 Ma⚡ eess

Finetuning a Text-to-Audio Model for Room Impulse Response Generation

Cet article propose une méthode novatrice de génération de réponses impulsionnelles de salle (RIR) en affinant un modèle de texte-vers-audio pré-entraîné, en utilisant des modèles vision-langage pour créer des données d'entraînement et une stratégie d'apprentissage en contexte pour permettre des requêtes libres, démontrant ainsi son efficacité pour la simulation acoustique et l'augmentation de données de parole.

Kirak Kim, Sungyoung KimWed, 11 Ma⚡ eess

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

Le papier présente MUGEN, une nouvelle référence évaluant la compréhension multi-audio des grands modèles audio-langage, révélant leurs limites face à l'augmentation du nombre d'entrées et démontrant que des stratégies d'inférence comme la cohérence auto-permutative et le raisonnement en chaîne améliorent significativement leurs performances.

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi LeeWed, 11 Ma🤖 cs.AI

A Semi-spontaneous Dutch Speech Dataset for Speech Enhancement and Speech Recognition

Ce papier présente DRES, un ensemble de données de parole néerlandaise réaliste et semi-spontanée enregistré dans des environnements bruyants, conçu pour évaluer les performances des modèles d'amélioration de la parole et de reconnaissance automatique de la parole, révélant que l'application d'algorithmes d'amélioration de la parole mono-canal n'améliore pas systématiquement les résultats de reconnaissance dans des conditions réalistes.

Dimme de Groot, Yuanyuan Zhang, Jorge Martinez, Odette ScharenborgWed, 11 Ma⚡ eess

Distributed Multichannel Wiener Filtering for Wireless Acoustic Sensor Networks

Cet article propose le filtre de Wiener multicanal distribué (dMWF), un algorithme non itératif et optimal pour les réseaux de capteurs acoustiques sans fil qui permet d'estimer des signaux de parole spécifiques à chaque nœud avec des performances équivalentes à un système centralisé tout en réduisant l'utilisation de la bande passante, même lorsque les nœuds observent des ensembles de sources différents.

Paul Didier, Toon van Waterschoot, Simon Doclo, Jörg Bitzer, Pourya Behmandpoor, Henri Gode, Marc MoonenWed, 11 Ma⚡ eess

Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Fold Paralysis

Cet article présente le MLVAS, un système multimodal innovant qui combine l'analyse vidéo et audio pour extraire automatiquement des segments clés et des métriques objectives afin d'assister le diagnostic clinique de la paralysie des cordes vocales.

Yucong Zhang, Xin Zou, Jinshan Yang, Wenjun Chen, Juan Liu, Faya Liang, Ming LiTue, 10 Ma💻 cs

ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance

Le papier présente ExpGest, un cadre novateur basé sur un modèle de diffusion qui génère des gestes corporels expressifs et contrôlables en synchronisant les informations audio et textuelles pour surmonter les limitations des méthodes existantes.

Yongkang Cheng, Mingjiang Liang, Shaoli Huang, Gaoge Han, Jifeng Ning, Wei LiuTue, 10 Ma💻 cs

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

Ce papier présente la tâche 5 du défi DCASE 2025, un benchmark de réponse aux questions audio multi-domaines conçu pour évaluer et améliorer les capacités de raisonnement acoustique des modèles audio-langage face à des scènes sonores variées.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan CatanzaroTue, 10 Ma💬 cs.CL

BemaGANv2: Discriminator Combination Strategies for GAN-based Vocoders in Long-Term Audio Generation

Ce papier présente BemaGANv2, un vocodeur basé sur les GAN optimisé pour la génération audio longue durée, qui améliore la fidélité et la cohérence temporelle grâce à l'intégration de modules AMP et d'une combinaison systématique de discriminateurs innovants comme le MED et le MRD.

Taesoo Park, Mungwi Jeong, Mingyu Park, Narae Kim, Junyoung Kim, Mujung Kim, Jisang Yoo, Hoyun Lee, Sanghoon Kim, Soonchul KwonTue, 10 Ma🤖 cs.LG

WaLi: Can Pressure Sensors in HVAC Systems Capture Human Speech?

Ce papier présente WaLi, une attaque de confidentialité qui reconstruit des discours intelligibles à partir des données de capteurs de pression des systèmes HVAC en utilisant un transformateur complexe et des blocs d'attention globale pour surmonter le bruit et la faible résolution, révélant ainsi une nouvelle vulnérabilité de sécurité dans ces infrastructures.

Tarikul Islam Tamiti, Biraj Joshi, Rida Hasan, Anomadarshi BaruaTue, 10 Ma💻 cs

SUBARU: A Practical Approach to Power Saving in Hearables Using SUB-Nyquist Audio Resolution Upsampling

Le papier présente SUBARU, une approche pratique qui réduit la consommation énergétique des appareils auditifs en utilisant un sous-échantillonnage et une résolution binaire faible, tout en restaurant la qualité audio via un suréchantillonnage pour le traitement de la parole en temps réel.

Tarikul Islam Tamiti, Sajid Fardin Dipto, Luke Benjamin Baja-Ricketts, David C Vergano, Anomadarshi BaruaTue, 10 Ma💻 cs

ECHO: Frequency-aware Hierarchical Encoding for Variable-length Signals

Le modèle fondamental ECHO, qui intègre une architecture à bande divisée et des embeddings de position fréquentielle pour traiter des signaux de longueur variable à des taux d'échantillonnage arbitraires, démontre des performances de pointe dans la détection d'anomalies et la classification des défauts sur divers jeux de données de signaux industriels.

Yucong Zhang, Juan Liu, Ming LiTue, 10 Ma🤖 cs.LG

LibriTTS-VI: A Public Corpus and Novel Methods for Efficient Voice Impression Control

Cet article présente LibriTTS-VI, le premier corpus public pour le contrôle des impressions vocales, ainsi que de nouvelles méthodes de désentanglement et sans référence qui améliorent significativement la précision du contrôle numérique de ces impressions en atténuant les fuites d'identité du locuteur.

Junki Ohmura, Yuki Ito, Emiru Tsunoo, Toshiyuki Sekiya, Toshiyuki KumakuraTue, 10 Ma💻 cs

← Précédent Suivant →