cs.SD articoli | Gist.Science

Training Dynamics-Aware Multi-Factor Curriculum Learning for Target Speaker Extraction

Questo paper propone un approccio di apprendimento curricolare multi-fattore guidato dalla dinamica di addestramento, che utilizza il framework TSE-Datamap per ottimizzare la selezione progressiva dei dati e migliorare l'estrazione del parlante target in scenari complessi.

Yun Liu, Xuechen Liu, Xiaoxiao Miao + 1 more2026-03-06💻 cs

TW-Sound580K: A Regional Audio-Text Dataset with Verification-Guided Curation for Localized Audio-Language Modeling

Il paper presenta TW-Sound580K, un dataset audio-testo taiwanese curato tramite un protocollo di verifica e generazione che, unito a una strategia di arbitrato dinamico, permette al modello Tai-LALM di migliorare significativamente le prestazioni nella comprensione del linguaggio e delle prosodie dialettali locali.

Hao-Hui Xie, Ho-Lam Chung, Yi-Cheng Lin + 4 more2026-03-06💻 cs

PolyBench: A Benchmark for Compositional Reasoning in Polyphonic Audio

Questo lavoro presenta PolyBench, un benchmark progettato per valutare il ragionamento composizionale in audio polifonico, rivelando che i modelli linguistici audio di ultima generazione mostrano prestazioni significativamente inferiori quando devono elaborare eventi sonori multipli e concorrenti.

Yuanjian Chen, Yang Xiao, Han Yin + 3 more2026-03-06💻 cs

Boosting ASR Robustness via Test-Time Reinforcement Learning with Audio-Text Semantic Rewards

Il paper presenta ASR-TRA, un nuovo framework di adattamento test-time basato sull'apprendimento per rinforzo che utilizza ricompense semantiche audio-testo per migliorare la robustezza e l'accuratezza dei sistemi di riconoscimento vocale in condizioni reali difficili, superando i limiti dei metodi basati sulla minimizzazione dell'entropia.

Linghan Fang, Tianxin Xie, Li Liu2026-03-06🤖 cs.AI

SarcasmMiner: A Dual-Track Post-Training Framework for Robust Audio-Visual Sarcasm Reasoning

Il paper presenta SarcasmMiner, un framework di post-addestramento basato su apprendimento per rinforzo che utilizza una strategia di distillazione a doppio binario e ottimizzazione GRPO per migliorare il ragionamento robusto sulla sarcasmia audio-visiva, ottenendo un F1 del 70,22% sul dataset MUStARD++.

Zhu Li, Yongjian Chen, Huiyuan Lai + 3 more2026-03-06💬 cs.CL

WavSLM: Single-Stream Speech Language Modeling via WavLM Distillation

Il paper presenta WavSLM, un modello linguistico per il parlato che, tramite la distillazione di rappresentazioni WavLM in un unico codice e l'ottimizzazione di un obiettivo di previsione autoregressiva, riesce a modellare congiuntamente informazioni semantiche e acustiche in un singolo flusso di token senza supervisione testuale, ottenendo prestazioni competitive con minori parametri e dati di addestramento.

Luca Della Libera, Cem Subakan, Mirco Ravanelli2026-03-06🤖 cs.AI

SLICE: Speech Enhancement via Layer-wise Injection of Conditioning Embeddings

Il paper propone SLICE, un metodo di potenziamento vocale che inietta condizionamenti di degradazione a livello di ogni strato di un modello diffusion invece che solo all'ingresso, superando così le limitazioni delle tecniche precedenti nel gestire corruzioni multiple e complesse.

Seokhoon Moon, Kyudan Jung, Jaegul Choo2026-03-06💻 cs

Latent-Mark: An Audio Watermark Robust to Neural Resynthesis

Il paper presenta Latent-Mark, il primo framework di watermarking audio a zero bit che garantisce robustezza contro la risintesi neurale inserendo il marchio nello spazio latente invariante del codec, ottimizzando le perturbazioni del segnale attraverso più codec per preservare l'invisibilità e garantire un trasferimento zero-shot su codec non visti.

Yen-Shan Chen, Shih-Yu Lai, Ying-Jung Tsou + 5 more2026-03-06🤖 cs.AI

Hierarchical Decoding for Discrete Speech Synthesis with Multi-Resolution Spoof Detection

Il paper presenta MSpoof-TTS, un framework di inferenza senza addestramento che migliora la sintesi vocale discreta zero-shot integrando una rilevazione di spoofing multi-risoluzione in una strategia di decodifica gerarchica per eliminare le imperfezioni e aumentare la robustezza senza modificare i parametri del modello.

Junchuan Zhao, Minh Duc Vu, Ye Wang2026-03-06💻 cs

Building Enterprise Realtime Voice Agents from Scratch: A Technical Tutorial

Questo tutorial tecnico illustra come costruire agenti vocali aziendali in tempo reale utilizzando un'architettura a pipeline di streaming (STT, LLM e TTS) invece dei modelli nativi speech-to-speech, ottenendo una latenza estremamente bassa e rilasciando un codice completo e testato.

Jielin Qiu, Zixiang Chen, Liangwei Yang + 11 more2026-03-06💻 cs

Knowing When to Quit: Probabilistic Early Exits for Speech Separation

Il paper propone un'architettura neurale per la separazione e il potenziamento della voce che integra un meccanismo di uscita anticipata probabilistico e basato sull'incertezza, permettendo di risparmiare risorse computazionali su dispositivi eterogenei senza compromettere la qualità del segnale ricostruito.

Kenny Falkær Olsen, Mads Østergaard, Karl Ulbæk + 4 more2026-03-05🤖 cs.LG

MeanFlowSE: one-step generative speech enhancement via conditional mean flow

Il paper introduce MeanFlowSE, un modello generativo condizionale che supera il collo di bottiglia dell'inferenza multistep nell'enhancement vocale in tempo reale apprendendo la velocità media su intervalli finiti per ottenere una generazione in un singolo passaggio ad alta fedeltà senza necessità di distillazione della conoscenza.

Duojia Li, Shenghui Lu, Hongchen Pan + 3 more2026-03-05🤖 cs.AI

LadderSym: A Multimodal Interleaved Transformer for Music Practice Error Detection

Questo articolo presenta LadderSym, un nuovo trasformatore multimodale che supera i metodi esistenti per il rilevamento degli errori nella pratica musicale, ottenendo significativi miglioramenti nell'accuratezza grazie a un'architettura a due stream con allineamento inter-flusso e all'uso di prompt simbolici per ridurre le ambiguità spettrali.

Benjamin Shiue-Hal Chou, Purvish Jajal, Nick John Eliopoulos + 4 more2026-03-05🤖 cs.AI

Better audio representations are more brain-like: linking model-brain alignment with performance in downstream auditory tasks

Lo studio dimostra che i modelli audio auto-supervisionati ad alte prestazioni sviluppano rappresentazioni interne più simili all'attività cerebrale, rivelando una forte correlazione positiva tra l'accuratezza nei compiti uditivi e l'allineamento con la corteccia uditiva, suggerendo che tale somiglianza biologica emerga come sottoprodotto dell'apprendimento non supervisionato.

Leonardo Pepino, Pablo Riera, Juan Kamienkowski + 1 more2026-03-05🤖 cs.LG

OASI: Objective-Aware Surrogate Initialization for Multi-Objective Bayesian Optimization in TinyML Keyword Spotting

Il paper propone OASI, un metodo di inizializzazione per l'ottimizzazione bayesiana multi-obiettivo che utilizza soluzioni generate tramite ricottura simulata per migliorare l'efficienza e la robustezza nella progettazione di modelli di keyword spotting per TinyML, garantendo il rispetto dei vincoli di memoria su microcontrollori.

Soumen Garai, Danilo Pau, Suman Samui2026-03-05🤖 cs.LG

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

Questo paper introduce CMI-RewardBench, un ecosistema completo per la valutazione dei modelli di ricompensa musicale basato su istruzioni multimodali compositive, che include dataset su larga scala, un benchmark unificato e modelli di ricompensa efficienti che dimostrano una forte correlazione con i giudizi umani e abilitano un efficace scaling al momento dell'inferenza.

Yinghao Ma, Haiwen Xia, Hewei Gao + 9 more2026-03-05🤖 cs.AI

Automated Measurement of Geniohyoid Muscle Thickness During Speech Using Deep Learning and Ultrasound

Il framework automatizzato SMMA, basato sull'intelligenza artificiale, misura con precisione lo spessore del muscolo genioioideo durante la fonazione, consentendo studi su larga scala dei meccanismi del controllo motorio del parlato e delle patologie di deglutizione.

Alisher Myrgyyassov, Bruce Xiao Wang, Yu Sun + 4 more2026-03-05🤖 cs.LG

ACES: Accent Subspaces for Coupling, Explanations, and Stress-Testing in Automatic Speech Recognition

Il paper introduce ACES, un metodo di audit basato su sottospazi rappresentativi che rivela come le informazioni relative agli accenti nei sistemi ASR siano concentrate in sottospazi a bassa dimensionalità e profondamente intrecciate con le caratteristiche critiche per il riconoscimento, rendendo questi sottospazi strumenti diagnostici essenziali piuttosto che semplici leve per l'eliminazione delle disparità.

Swapnil Parekh2026-03-05🤖 cs.AI

Multi-Stage Music Source Restoration with BandSplit-RoFormer Separation and HiFi++ GAN

Il rapporto tecnico presenta il sistema del team CP-JKU per la sfida MSR ICASSP 2025, che combina un separatore BandSplit-RoFormer addestrato con un curriculum a tre stadi e un restorer HiFi++ GAN specializzato per il recupero di stem strumentali originali da audio mixati e masterizzati.

Tobias Morocutti, Emmanouil Karystinaios, Jonathan Greif + 1 more2026-03-05🤖 cs.LG

FastWave: Optimized Diffusion Model for Audio Super-Resolution

Il paper presenta FastWave, un modello di diffusione ottimizzato per la super-risoluzione audio che, con soli 1,3 milioni di parametri e una complessità computazionale ridotta, supera le prestazioni di NU-Wave 2 offrendo un addestramento e un'inferenza significativamente più veloci rispetto alle soluzioni state-of-the-art.

Nikita Kuznetsov, Maksim Kaledin2026-03-05🤖 cs.LG

← Precedente Successivo →