cs.SD articoli | Gist.Science

TimberAgent: Gram-Guided Retrieval for Executable Music Effect Control

Il paper presenta TimberAgent, un sistema di recupero guidato da grammatica che utilizza la rappresentazione Texture Resonance Retrieval (TRR) basata su matrici di Gram per colmare il divario semantico tra l'intento percettivo dell'utente e i parametri di elaborazione del segnale, ottenendo risultati superiori nel controllo degli effetti audio modificabili rispetto ai metodi esistenti.

Shihao He, Yihan Xia, Fang Liu, Taotao Wang, Shengli ZhangWed, 11 Ma🤖 cs.AI

Physics-Informed Neural Engine Sound Modeling with Differentiable Pulse-Train Synthesis

Il modello Pulse-Train-Resonator (PTR) proposto supera i metodi di sintesi neurali tradizionali modellando direttamente la struttura temporale degli impulsi di scarico e le risonanze fisiche, ottenendo una ricostruzione armonica superiore e parametri interpretabili per il suono dei motori.

Robin Doerfler, Lonce WyseWed, 11 Ma🤖 cs.AI

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

Il paper introduce MUGEN, un benchmark completo che rivela le carenze dei modelli audio-linguistici nella comprensione di più audio simultanei e dimostra che strategie di inferenza senza addestramento, come la permutazione degli input e il ragionamento a catena, possono migliorare significativamente le prestazioni.

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi LeeWed, 11 Ma🤖 cs.AI

EmoSURA: Towards Accurate Evaluation of Detailed and Long-Context Emotional Speech Captions

Il paper introduce EmoSURA, un nuovo framework di valutazione basato sulla verifica atomica delle unità percettive rispetto al segnale audio originale, che supera i limiti delle metriche tradizionali e dei giudici LLM per fornire una valutazione più accurata e affidabile delle didascalie emotive lunghe e dettagliate.

Xin Jing, Andreas Triantafyllopoulos, Jiadong Wang, Shahin Amiriparian, Jun Luo, Björn SchullerWed, 11 Ma💻 cs

SCENEBench: An Audio Understanding Benchmark Grounded in Assistive and Industrial Use Cases

Questo articolo presenta SCENEBench, una nuova suite di benchmark progettata per valutare la comprensione audio dei modelli linguistici audio di grandi dimensioni (LALM) al di là del riconoscimento vocale, concentrandosi su scenari reali legati all'accessibilità e al monitoraggio industriale come la comprensione dei suoni ambientali, la localizzazione del rumore e il riconoscimento delle caratteristiche vocali.

Laya Iyer, Angelina Wang, Sanmi KoyejoWed, 11 Ma🤖 cs.AI

Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Fold Paralysis

Questo articolo presenta il MLVAS, un sistema multimodale che combina analisi video e audio per estrarre segmenti clinici rilevanti e generare metriche oggettive al fine di assistere nella diagnosi della paralisi delle corde vocali.

Yucong Zhang, Xin Zou, Jinshan Yang, Wenjun Chen, Juan Liu, Faya Liang, Ming LiTue, 10 Ma💻 cs

ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance

Il paper presenta ExpGest, un nuovo framework basato su modelli di diffusione che genera gesti espressivi a corpo intero sincronizzando informazioni audio e testuali, superando i limiti dei metodi esistenti grazie a un classificatore di emozioni del rumore e a una migliore generalizzazione semantica.

Yongkang Cheng, Mingjiang Liang, Shaoli Huang, Gaoge Han, Jifeng Ning, Wei LiuTue, 10 Ma💻 cs

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

Questo documento presenta il Task 5 della sfida DCASE 2025, un benchmark per la risposta alle domande audio (AQA) che valuta la capacità di ragionamento acustico dei modelli linguistico-audio su tre sottogruppi di domini diversi, fornendo dataset, protocolli di valutazione e risultati preliminari di sistemi baselines.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan CatanzaroTue, 10 Ma💬 cs.CL

BemaGANv2: Discriminator Combination Strategies for GAN-based Vocoders in Long-Term Audio Generation

Il documento presenta BemaGANv2, un vocoder basato su GAN avanzato per la generazione audio a lungo termine che integra innovazioni architetturali come il modulo AMP e una valutazione sistematica di diverse strategie di combinazione dei discriminatori, tra cui il nuovo Multi-Envelope Discriminator, per migliorare coerenza temporale e fedeltà del suono.

Taesoo Park, Mungwi Jeong, Mingyu Park, Narae Kim, Junyoung Kim, Mujung Kim, Jisang Yoo, Hoyun Lee, Sanghoon Kim, Soonchul KwonTue, 10 Ma🤖 cs.LG

WaLi: Can Pressure Sensors in HVAC Systems Capture Human Speech?

Il paper presenta WaLi, un attacco che dimostra come i sensori di pressione negli impianti HVAC possano essere sfruttati per ricostruire e intercettare discorsi umani intelligibili, superando le limitazioni dei lavori precedenti e proponendo al contempo soluzioni difensive.

Tarikul Islam Tamiti, Biraj Joshi, Rida Hasan, Anomadarshi BaruaTue, 10 Ma💻 cs

SUBARU: A Practical Approach to Power Saving in Hearables Using SUB-Nyquist Audio Resolution Upsampling

Il paper presenta SUBARU, un approccio pratico che riduce il consumo energetico degli auricolari intelligenti del 3,31 volte sfruttando la sottocampionatura e la bassa risoluzione dei convertitori analogico-digitali, pur garantendo un'efficace enhancement del parlato in tempo reale tramite un innovativo metodo di upsampling.

Tarikul Islam Tamiti, Sajid Fardin Dipto, Luke Benjamin Baja-Ricketts, David C Vergano, Anomadarshi BaruaTue, 10 Ma💻 cs

ECHO: Frequency-aware Hierarchical Encoding for Variable-length Signals

Il paper presenta ECHO, un modello fondazionale innovativo che integra un'architettura a bande divise e embedding posizionali frequenziali per elaborare segnali macchina di lunghezza variabile e a diversi tassi di campionamento, ottenendo prestazioni all'avanguardia nell'individuazione di anomalie e nella classificazione dei guasti.

Yucong Zhang, Juan Liu, Ming LiTue, 10 Ma🤖 cs.LG

LibriTTS-VI: A Public Corpus and Novel Methods for Efficient Voice Impression Control

Il paper presenta LibriTTS-VI, il primo corpus pubblico per il controllo numerico delle impressioni vocali, e propone metodi innovativi di addestramento disaccoppiato e privi di riferimento per mitigare la fuoriuscita di impressione e migliorare significativamente la precisione del controllo nella sintesi vocale.

Junki Ohmura, Yuki Ito, Emiru Tsunoo, Toshiyuki Sekiya, Toshiyuki KumakuraTue, 10 Ma💻 cs

Improving X-Codec-2.0 for Multi-Lingual Speech: 25 Hz Latent Rate and 24 kHz Sampling

Questo lavoro presenta una versione ottimizzata di X-Codec-2.0 che, riducendo il tasso latente a 25 Hz e aumentando la frequenza di campionamento a 24 kHz tramite modifiche semplici alla struttura, migliora l'efficienza e la qualità percettiva della sintesi vocale multilingue rispetto alla configurazione originale.

Husein ZolkepliTue, 10 Ma💬 cs.CL

Are Audio-Language Models Listening? Audio-Specialist Heads for Adaptive Audio Steering

Il paper propone un metodo di interpretabilità meccanicistica per identificare e potenziare specifici "testine" attentive dedicate all'audio nei modelli linguistici multimediali, permettendo di correggere la dominanza del testo e migliorare l'accuratezza fino a 8 punti percentuali tramite un'intervento di steering durante l'inferenza senza aggiornare i parametri.

Neta Glazer, Lenny Aharon, Ethan FetayaTue, 10 Ma💻 cs

Adaptive Discovery of Interpretable Audio Attributes with Multimodal LLMs for Low-Resource Classification

Questo paper presenta un metodo che utilizza Modelli Linguistici Multimodali per scoprire in modo adattivo attributi audio interpretabili, sostituendo l'analisi umana nel framework AdaFlock per ottenere una classificazione a risorse limitate più rapida, accurata e praticabile in soli 11 minuti.

Kosuke Yoshimura, Hisashi KashimaTue, 10 Ma🤖 cs.LG

Toward Multimodal Industrial Fault Analysis: A Single-Speed Chain Conveyor Dataset with Audio and Vibration Signals

Questo lavoro presenta un nuovo dataset multimodale per l'analisi dei guasti industriali, raccolto da un trasportatore a catena monovelocità e comprendente segnali audio e vibrazionali, progettato per supportare la ricerca sulla fusione multimodale e fornire protocolli di valutazione standardizzati per la rilevazione e la classificazione dei guasti in condizioni operative realistiche.

Zhang Chen, Yucong Zhang, Xiaoxiao Miao, Ming LiTue, 10 Ma💻 cs

Towards Objective Gastrointestinal Auscultation: Automated Segmentation and Annotation of Bowel Sound Patterns

Questo studio presenta un sistema automatizzato basato su sensori acustici indossabili e modelli di intelligenza artificiale per la segmentazione e classificazione dei suoni intestinali, che riduce il tempo di annotazione manuale del 70% e offre agli clinici uno strumento diagnostico oggettivo e quantitativo con un'accuratezza superiore al 96%.

Zahra Mansour, Verena Uslar, Dirk Weyhe, Danilo Hollosi, Nils StrodthoffTue, 10 Ma🤖 cs.LG

Seeing the Context: Rich Visual Context-Aware Speech Recognition via Multimodal Reasoning

Il paper propone VASR, un sistema di riconoscimento vocale contestuale che utilizza un ragionamento multimodale a catena di pensiero (AV-CoT) per integrare efficacemente evidenze visive oltre al movimento delle labbra, superando il problema della dominanza di una singola modalità e ottenendo prestazioni all'avanguardia.

Wenjie Tian, Mingchen Shao, Bingshen Mu, Xuelong Geng, Chengyou Wang, Yujie Liao, Zhixian Zhao, Ziyu Zhang, Jingbin Hu, Mengqi Wei, Lei XieTue, 10 Ma💻 cs

Fast and Flexible Audio Bandwidth Extension via Vocos

Il paper propone un modello di estensione della banda audio basato su Vocos che genera contenuti ad alta frequenza mancanti per segnali da 8 a 48 kHz, ottenendo prestazioni di alta qualità e throughput estremo grazie a un'architettura neurale flessibile e un raffinatore leggero.

Yatharth SharmaTue, 10 Ma🤖 cs.LG

← Precedente Successivo →