cs.SD articles | Gist.Science

TimberAgent: Gram-Guided Retrieval for Executable Music Effect Control

Le papier présente TimberAgent, une méthode de contrôle d'effets audio basée sur la récupération guidée par la grammaire (TRR) qui utilise des matrices de Gram issues de Wav2Vec2 pour combler l'écart sémantique entre l'intention de l'utilisateur et les paramètres de traitement du signal, démontrant ainsi une supériorité sur les méthodes existantes pour la génération de configurations de plugins éditable.

Shihao He, Yihan Xia, Fang Liu, Taotao Wang, Shengli ZhangWed, 11 Ma🤖 cs.AI

Physics-Informed Neural Engine Sound Modeling with Differentiable Pulse-Train Synthesis

Cet article présente le modèle Pulse-Train-Resonator (PTR), une architecture de synthèse audio différentiable qui intègre des biais physiques pour générer des sons de moteur réalistes en modélisant directement les impulsions de pression et les résonances d'échappement, surpassant ainsi les approches basées sur les harmoniques.

Robin Doerfler, Lonce WyseWed, 11 Ma🤖 cs.AI

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

Le papier présente MUGEN, une nouvelle référence évaluant la compréhension multi-audio des grands modèles audio-langage, révélant leurs limites face à l'augmentation du nombre d'entrées et démontrant que des stratégies d'inférence comme la cohérence auto-permutative et le raisonnement en chaîne améliorent significativement leurs performances.

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi LeeWed, 11 Ma🤖 cs.AI

EmoSURA: Towards Accurate Evaluation of Detailed and Long-Context Emotional Speech Captions

L'article propose EmoSURA, un nouveau cadre d'évaluation pour les descriptions émotionnelles de la parole qui remplace le scoring global par une vérification atomique ancrée dans l'audio et introduit le benchmark SURABench pour surmonter les limites des métriques traditionnelles et des juges LLM sur les contextes longs.

Xin Jing, Andreas Triantafyllopoulos, Jiadong Wang, Shahin Amiriparian, Jun Luo, Björn SchullerWed, 11 Ma💻 cs

SCENEBench: An Audio Understanding Benchmark Grounded in Assistive and Industrial Use Cases

Ce papier présente SCENEBench, une nouvelle suite de benchmarks conçue pour évaluer la compréhension audio des grands modèles linguistiques au-delà de la reconnaissance de la parole, en se concentrant sur des cas d'usage réels liés à l'accessibilité et à l'industrie, tout en révélant des lacunes critiques dans les performances actuelles des modèles.

Laya Iyer, Angelina Wang, Sanmi KoyejoWed, 11 Ma🤖 cs.AI

Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Fold Paralysis

Cet article présente le MLVAS, un système multimodal innovant qui combine l'analyse vidéo et audio pour extraire automatiquement des segments clés et des métriques objectives afin d'assister le diagnostic clinique de la paralysie des cordes vocales.

Yucong Zhang, Xin Zou, Jinshan Yang, Wenjun Chen, Juan Liu, Faya Liang, Ming LiTue, 10 Ma💻 cs

ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance

Le papier présente ExpGest, un cadre novateur basé sur un modèle de diffusion qui génère des gestes corporels expressifs et contrôlables en synchronisant les informations audio et textuelles pour surmonter les limitations des méthodes existantes.

Yongkang Cheng, Mingjiang Liang, Shaoli Huang, Gaoge Han, Jifeng Ning, Wei LiuTue, 10 Ma💻 cs

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

Ce papier présente la tâche 5 du défi DCASE 2025, un benchmark de réponse aux questions audio multi-domaines conçu pour évaluer et améliorer les capacités de raisonnement acoustique des modèles audio-langage face à des scènes sonores variées.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan CatanzaroTue, 10 Ma💬 cs.CL

BemaGANv2: Discriminator Combination Strategies for GAN-based Vocoders in Long-Term Audio Generation

Ce papier présente BemaGANv2, un vocodeur basé sur les GAN optimisé pour la génération audio longue durée, qui améliore la fidélité et la cohérence temporelle grâce à l'intégration de modules AMP et d'une combinaison systématique de discriminateurs innovants comme le MED et le MRD.

Taesoo Park, Mungwi Jeong, Mingyu Park, Narae Kim, Junyoung Kim, Mujung Kim, Jisang Yoo, Hoyun Lee, Sanghoon Kim, Soonchul KwonTue, 10 Ma🤖 cs.LG

WaLi: Can Pressure Sensors in HVAC Systems Capture Human Speech?

Ce papier présente WaLi, une attaque de confidentialité qui reconstruit des discours intelligibles à partir des données de capteurs de pression des systèmes HVAC en utilisant un transformateur complexe et des blocs d'attention globale pour surmonter le bruit et la faible résolution, révélant ainsi une nouvelle vulnérabilité de sécurité dans ces infrastructures.

Tarikul Islam Tamiti, Biraj Joshi, Rida Hasan, Anomadarshi BaruaTue, 10 Ma💻 cs

SUBARU: A Practical Approach to Power Saving in Hearables Using SUB-Nyquist Audio Resolution Upsampling

Le papier présente SUBARU, une approche pratique qui réduit la consommation énergétique des appareils auditifs en utilisant un sous-échantillonnage et une résolution binaire faible, tout en restaurant la qualité audio via un suréchantillonnage pour le traitement de la parole en temps réel.

Tarikul Islam Tamiti, Sajid Fardin Dipto, Luke Benjamin Baja-Ricketts, David C Vergano, Anomadarshi BaruaTue, 10 Ma💻 cs

ECHO: Frequency-aware Hierarchical Encoding for Variable-length Signals

Le modèle fondamental ECHO, qui intègre une architecture à bande divisée et des embeddings de position fréquentielle pour traiter des signaux de longueur variable à des taux d'échantillonnage arbitraires, démontre des performances de pointe dans la détection d'anomalies et la classification des défauts sur divers jeux de données de signaux industriels.

Yucong Zhang, Juan Liu, Ming LiTue, 10 Ma🤖 cs.LG

LibriTTS-VI: A Public Corpus and Novel Methods for Efficient Voice Impression Control

Cet article présente LibriTTS-VI, le premier corpus public pour le contrôle des impressions vocales, ainsi que de nouvelles méthodes de désentanglement et sans référence qui améliorent significativement la précision du contrôle numérique de ces impressions en atténuant les fuites d'identité du locuteur.

Junki Ohmura, Yuki Ito, Emiru Tsunoo, Toshiyuki Sekiya, Toshiyuki KumakuraTue, 10 Ma💻 cs

Improving X-Codec-2.0 for Multi-Lingual Speech: 25 Hz Latent Rate and 24 kHz Sampling

Ce travail améliore le modèle X-Codec-2.0 en réduisant son taux latent à 25 Hz et en augmentant sa fréquence d'échantillonnage à 24 kHz, ce qui permet d'obtenir une meilleure efficacité temporelle et une qualité audio supérieure sans modifier l'architecture de base.

Husein ZolkepliTue, 10 Ma💬 cs.CL

Are Audio-Language Models Listening? Audio-Specialist Heads for Adaptive Audio Steering

En identifiant des têtes d'attention spécialisées dans l'audio via l'interprétabilité mécanistique, les auteurs proposent une méthode de guidage par activation à l'inférence qui améliore significativement la précision des modèles audio-langage sans mise à jour des paramètres.

Neta Glazer, Lenny Aharon, Ethan FetayaTue, 10 Ma💻 cs

Adaptive Discovery of Interpretable Audio Attributes with Multimodal LLMs for Low-Resource Classification

Cet article propose une méthode adaptative utilisant des modèles de langage multimodaux pour découvrir rapidement des attributs audio interprétables et améliorer la classification en ressources limitées, surpassant les approches humaines traditionnelles en efficacité et en rapidité.

Kosuke Yoshimura, Hisashi KashimaTue, 10 Ma🤖 cs.LG

Toward Multimodal Industrial Fault Analysis: A Single-Speed Chain Conveyor Dataset with Audio and Vibration Signals

Cet article présente un nouveau jeu de données multimodal pour l'analyse des défauts industriels, comprenant des signaux audio et vibratoires d'un convoyeur à chaîne, conçu pour faciliter la recherche sur la détection de pannes et la fusion multimodale dans des conditions de production réalistes.

Zhang Chen, Yucong Zhang, Xiaoxiao Miao, Ming LiTue, 10 Ma💻 cs

Towards Objective Gastrointestinal Auscultation: Automated Segmentation and Annotation of Bowel Sound Patterns

Cette étude présente un pipeline automatisé utilisant un capteur acoustique portable et un modèle de transformateur audio pour segmenter et classifier les bruits intestinaux, permettant une évaluation objective de l'activité digestive avec une haute précision et une réduction significative du temps d'annotation manuelle.

Zahra Mansour, Verena Uslar, Dirk Weyhe, Danilo Hollosi, Nils StrodthoffTue, 10 Ma🤖 cs.LG

Seeing the Context: Rich Visual Context-Aware Speech Recognition via Multimodal Reasoning

Ce papier présente VASR, une approche de reconnaissance de parole qui intègre un raisonnement multimodal de type « chaîne de pensée » pour exploiter le contexte visuel riche au-delà du mouvement des lèvres, surmontant ainsi les limites des méthodes actuelles et atteignant des performances de pointe.

Wenjie Tian, Mingchen Shao, Bingshen Mu, Xuelong Geng, Chengyou Wang, Yujie Liao, Zhixian Zhao, Ziyu Zhang, Jingbin Hu, Mengqi Wei, Lei XieTue, 10 Ma💻 cs

Fast and Flexible Audio Bandwidth Extension via Vocos

Ce papier présente un modèle d'extension de bande passante audio basé sur Vocos qui génère des contenus haute fréquence manquants pour étendre la plage de 8 à 48 kHz avec une qualité compétitive et un débit extrême, permettant un traitement en temps réel sur des GPU et CPU standards.

Yatharth SharmaTue, 10 Ma🤖 cs.LG

← Précédent Suivant →