cs.SD papers | Gist.Science

TimberAgent: Gram-Guided Retrieval for Executable Music Effect Control

Dit paper introduceert TimberAgent, een gram-geleide zoekmethode die Wav2Vec2-activaties gebruikt om de semantische kloof tussen gebruikersintentie en lage-niveau audio-effectparameters te overbruggen door de meest geschikte plugin-configuratie te vinden in plaats van een definitief geluid te genereren.

Shihao He, Yihan Xia, Fang Liu, Taotao Wang, Shengli ZhangWed, 11 Ma🤖 cs.AI

Physics-Informed Neural Engine Sound Modeling with Differentiable Pulse-Train Synthesis

Dit paper introduceert de Pulse-Train-Resonator (PTR), een differentieerbaar synthesemodel dat motorgeluiden nauwkeuriger nabootst door fysisch geïnformeerde pulsreeksen en resonatoren te gebruiken in plaats van traditionele harmonische benaderingen, wat resulteert in een significante verbetering in reconstructiekwaliteit en interpreteerbare parameters.

Robin Doerfler, Lonce WyseWed, 11 Ma🤖 cs.AI

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

Dit paper introduceert MUGEN, een benchmark die de beperkingen van grote audio-taalmodellen bij het verwerken van meerdere simultane audio-invoeren blootlegt en aantoont dat trainingsvrije strategieën zoals Audio-Permutational Self-Consistency de prestaties aanzienlijk verbeteren.

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi LeeWed, 11 Ma🤖 cs.AI

EmoSURA: Towards Accurate Evaluation of Detailed and Long-Context Emotional Speech Captions

In dit paper wordt EmoSURA voorgesteld, een nieuw evaluatiekader dat complexe emotionele spraakbeschrijvingen opdeelt in atomaire eenheden die direct met het audiosignaal worden geverifieerd, waardoor het een betrouwbaardere maatstaf biedt dan traditionele methoden voor langere en gedetailleerde captions.

Xin Jing, Andreas Triantafyllopoulos, Jiadong Wang, Shahin Amiriparian, Jun Luo, Björn SchullerWed, 11 Ma💻 cs

SCENEBench: An Audio Understanding Benchmark Grounded in Assistive and Industrial Use Cases

Dit paper introduceert SCENEBench, een nieuw benchmarkpakket voor het evalueren van het begrip van niet-spraakcomponenten en context in audio door grote audio-taalmodellen, specifiek gericht op toepassing in toegankelijkheidstechnologie en industriële geluidsmeting.

Laya Iyer, Angelina Wang, Sanmi KoyejoWed, 11 Ma🤖 cs.AI

Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Fold Paralysis

Dit paper introduceert MLVAS, een multimodaal systeem dat audio- en videostroboscopische data combineert om automatische segmentatie, kenmerkextractie en objectieve visualisatie te bieden voor de ondersteunde diagnose van stembandverlamming.

Yucong Zhang, Xin Zou, Jinshan Yang, Wenjun Chen, Juan Liu, Faya Liang, Ming LiTue, 10 Ma💻 cs

ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance

ExpGest is een innovatief diffusion-model dat door het synchroniseren van tekst- en audio-informatie expressieve, natuurlijke en emotioneel gecontroleerde full-body gebaren genereert, waarmee het de beperkingen van bestaande methoden die zich uitsluitend op audio en het bovenlichaam richten, overwint.

Yongkang Cheng, Mingjiang Liang, Shaoli Huang, Gaoge Han, Jifeng Ning, Wei LiuTue, 10 Ma💻 cs

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

Dit paper introduceert Task 5 van de DCASE 2025 Challenge, een meerdimensionale benchmark voor audio-vraag-antwoordtaken die de redeneervermogens van audio-taalmodellen in diverse akoestische domeinen evalueert.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan CatanzaroTue, 10 Ma💬 cs.CL

BemaGANv2: Discriminator Combination Strategies for GAN-based Vocoders in Long-Term Audio Generation

Dit paper introduceert BemaGANv2, een geavanceerde GAN-gebaseerde vocoder voor hoogwaardige en langdurige audio-generatie die gebruikmaakt van innovatieve architecturale wijzigingen en een systematische evaluatie van discriminatorscombinaties om temporale coherentie en harmonische structuur te verbeteren.

Taesoo Park, Mungwi Jeong, Mingyu Park, Narae Kim, Junyoung Kim, Mujung Kim, Jisang Yoo, Hoyun Lee, Sanghoon Kim, Soonchul KwonTue, 10 Ma🤖 cs.LG

WaLi: Can Pressure Sensors in HVAC Systems Capture Human Speech?

Dit paper introduceert WaLi, een aanval die intelligibele spraak reconstrueert uit ruisende druksensor-data van HVAC-systemen door gebruik te maken van een complex-waardige conformer en een Complex Global Attention Block, waarmee een tot nu toe onbekend privacyrisico voor deze sensoren wordt blootgelegd.

Tarikul Islam Tamiti, Biraj Joshi, Rida Hasan, Anomadarshi BaruaTue, 10 Ma💻 cs

SUBARU: A Practical Approach to Power Saving in Hearables Using SUB-Nyquist Audio Resolution Upsampling

Dit paper introduceert SUBARU, een energiezuinige aanpak voor hearables die door het bewust toepassen van sub-Nyquist sampling en lage bit-resolutie in combinatie met een breedband-reconstructiemethode, de stroomverbruik met een factor 3,31 verlaagt terwijl het spraakverbetering in realistische omstandigheden behoudt.

Tarikul Islam Tamiti, Sajid Fardin Dipto, Luke Benjamin Baja-Ricketts, David C Vergano, Anomadarshi BaruaTue, 10 Ma💻 cs

ECHO: Frequency-aware Hierarchical Encoding for Variable-length Signals

Dit paper introduceert ECHO, een nieuw foundation model dat geavanceerde band-split architectuur en frequentie-positional embeddings combineert om variabele lengte signaalanalyses op willekeurige samplefrequenties mogelijk te maken, wat leidt tot state-of-the-art prestaties in machine-anomaliedetectie en foutclassificatie.

Yucong Zhang, Juan Liu, Ming LiTue, 10 Ma🤖 cs.LG

LibriTTS-VI: A Public Corpus and Novel Methods for Efficient Voice Impression Control

Dit paper introduceert LibriTTS-VI, het eerste publieke corpus voor numerieke stemindrukcontrole, en stelt nieuwe methoden voor om het probleem van 'impression leakage' op te lossen door het ontkoppelen van sprekeridentiteit en stemindruk, wat leidt tot een aanzienlijke verbetering in de controleerbaarheid van de gegenereerde spraak.

Junki Ohmura, Yuki Ito, Emiru Tsunoo, Toshiyuki Sekiya, Toshiyuki KumakuraTue, 10 Ma💻 cs

Improving X-Codec-2.0 for Multi-Lingual Speech: 25 Hz Latent Rate and 24 kHz Sampling

Dit artikel presenteert een verbeterde versie van X-Codec-2.0 die door een lagere latente rate van 25 Hz en een hogere sample rate van 24 kHz, de efficiëntie en perceptuele kwaliteit voor meertalige spraak significant verhoogt zonder de kernarchitectuur te wijzigen.

Husein ZolkepliTue, 10 Ma💬 cs.CL

Are Audio-Language Models Listening? Audio-Specialist Heads for Adaptive Audio Steering

Dit artikel introduceert een methode om multimodale taalmodellen effectiever audio-informatie te laten verwerken door tijdens de inferentie specifieke 'luister'-aandachtskoppen te lokaliseren en te manipuleren, wat zonder parameterupdates de nauwkeurigheid op de MMAU-benchmark met tot 8,0 procentpunten verbetert.

Neta Glazer, Lenny Aharon, Ethan FetayaTue, 10 Ma💻 cs

Adaptive Discovery of Interpretable Audio Attributes with Multimodal LLMs for Low-Resource Classification

Dit paper introduceert een methode die Multimodal Large Language Models (MLLMs) gebruikt om binnen het AdaFlock-framework snel interpreteerbare audio-attributes te ontdekken voor low-resource classificatie, wat resulteert in een efficiënter en nauwkeuriger ensemble-classificatiesysteem dan directe MLLM-predicties of menselijke benaderingen.

Kosuke Yoshimura, Hisashi KashimaTue, 10 Ma🤖 cs.LG

Toward Multimodal Industrial Fault Analysis: A Single-Speed Chain Conveyor Dataset with Audio and Vibration Signals

Deze paper introduceert een multimodaal dataset voor industriële foutanalyse, bestaande uit audio- en trillingssignalen van een kettingtransportband, dat is ontworpen om robuuste systemen voor foutdetectie en -classificatie onder diverse bedrijfsomstandigheden te ondersteunen.

Zhang Chen, Yucong Zhang, Xiaoxiao Miao, Ming LiTue, 10 Ma💻 cs

Towards Objective Gastrointestinal Auscultation: Automated Segmentation and Annotation of Bowel Sound Patterns

Deze studie presenteert een geautomatiseerd systeem voor het segmenteren en classificeren van darmgeluiden met behulp van een draagbare sensor en een AI-model, wat leidt tot objectieve diagnostiek en een aanzienlijke reductie van de tijd voor handmatige annotatie.

Zahra Mansour, Verena Uslar, Dirk Weyhe, Danilo Hollosi, Nils StrodthoffTue, 10 Ma🤖 cs.LG

Seeing the Context: Rich Visual Context-Aware Speech Recognition via Multimodal Reasoning

Dit paper introduceert VASR, een nieuw model voor contextbewuste spraakherkenning dat gebruikmaakt van Audio-Visual Chain-of-Thought om rijke visuele context te redeneren en zo de prestaties te verbeteren door het probleem van eenzijdige modale dominantie aan te pakken.

Wenjie Tian, Mingchen Shao, Bingshen Mu, Xuelong Geng, Chengyou Wang, Yujie Liao, Zhixian Zhao, Ziyu Zhang, Jingbin Hu, Mengqi Wei, Lei XieTue, 10 Ma💻 cs

Fast and Flexible Audio Bandwidth Extension via Vocos

Dit paper introduceert een snelle en flexibele bandwidth extension-methode op basis van Vocos die ontbrekende hoge frequenties genereert om audio van 8-48 kHz te verbeteren, met een lichtgewicht refiner voor naadloze samenvoeging en uitzonderlijk hoge doorvoer op zowel GPU als CPU.

Yatharth SharmaTue, 10 Ma🤖 cs.LG

← Vorige Volgende →