cs.SD articoli | Gist.Science

[b]=[d]-[t]+[p]: Self-supervised Speech Models Discover Phonological Vector Arithmetic

Questo studio dimostra che i modelli di linguaggio auto-supervisionati per l'elaborazione del parlato codificano le informazioni fonologiche attraverso vettori composizionali e interpretabili, permettendo operazioni aritmetiche vettoriali che riflettono le caratteristiche fonetiche e la loro realizzazione acustica in modo continuo.

Kwanghee Choi, Eunjung Yeo, Cheol Jun Cho, David Harwath, David R. MortensenFri, 13 Ma⚡ eess

V2A-DPO: Omni-Preference Optimization for Video-to-Audio Generation

Il paper presenta V2A-DPO, un innovativo framework di ottimizzazione diretta delle preferenze progettato per allineare i modelli di generazione audio da video basati su flussi alle preferenze umane attraverso un sistema di valutazione AudioScore, una pipeline automatizzata per la creazione di dati e una strategia di apprendimento curricolare, ottenendo prestazioni superiori rispetto agli approcci esistenti.

Nolan Chan, Timmy Gang, Yongqian Wang, Yuzhe Liang, Dingdong WangFri, 13 Ma⚡ eess

Multimodal Self-Attention Network with Temporal Alignment for Audio-Visual Emotion Recognition

Questo articolo propone un framework basato su Transformer per il riconoscimento delle emozioni audio-visive che risolve il problema del disallineamento temporale tra le modalità utilizzando un encoder di auto-attenzione multimodale, incorporando Posizioni Rotatorie Temporali Allineate (TaRoPE) e una funzione di perdita di Corrispondenza Temporale Incrociata (CTM) per migliorare la fusione delle caratteristiche.

Inyong Koo, yeeun Seong, Minseok Son, Jaehyuk Jang, Changick KimFri, 13 Ma⚡ eess

Uni-ASR: Unified LLM-Based Architecture for Non-Streaming and Streaming Automatic Speech Recognition

Il paper presenta Uni-ASR, un framework unificato basato su LLM che integra capacità di riconoscimento vocale sia non in streaming che in streaming attraverso un paradigma di addestramento congiunto e strategie di decodifica avanzate, permettendo transizioni fluide tra le due modalità senza modifiche architetturali e mantenendo bassa latenza.

Yinfeng Xia, Jian Tang, Junfeng Hou, Gaopeng Xu, Haitao YaoFri, 13 Ma💬 cs.CL

Huntington Disease Automatic Speech Recognition with Biomarker Supervision

Questo studio presenta un sistema di riconoscimento automatico del parlato (ASR) ottimizzato per il morbo di Huntington, che utilizza un corpus clinico ad alta fedeltà e supervisione basata su biomarcatori per ridurre l'errore di trascrizione e analizzare modelli di errore specifici legati alla gravità della patologia.

Charles L. Wang, Cady Chen, Ziwei Gong, Julia HirschbergFri, 13 Ma🤖 cs.LG

Can LLMs Help Localize Fake Words in Partially Fake Speech?

Questo studio indaga se un modello linguistico addestrato su testo possa localizzare parole contraffatte in discorsi parzialmente manipolati, rivelando che, sebbene efficace nel riconoscere specifici stili di editing nei dati di addestramento, il modello fatica a generalizzare verso stili di modifica non visti in precedenza.

Lin Zhang, Thomas Thebaud, Zexin Cai, Sanjeev Khudanpur, Daniel Povey, Leibny Paola García-Perera, Matthew Wiesner, Nicholas AndrewsFri, 13 Ma⚡ eess

Cough activity detection for automatic tuberculosis screening

Lo studio dimostra che l'utilizzo di un modello pre-addestrato XLS-R, ottimizzato con solo i primi tre livelli per ridurre i requisiti computazionali, permette di rilevare con alta precisione le attività di tosse in registrazioni audio per lo screening automatico della tubercolosi, superando le prestazioni di modelli alternativi e rendendo fattibile l'integrazione in applicazioni per smartphone.

Joshua Jansen van Vüren, Devendra Singh Parihar, Daphne Naidoo, Kimsey Zajac, Willy Ssengooba, Grant Theron, Thomas NieslerFri, 13 Ma⚡ eess

Fair-Gate: Fairness-Aware Interpretable Risk Gating for Sex-Fair Voice Biometrics

Il paper propone Fair-Gate, un framework interpretabile di gestione del rischio che affronta le disparità di genere nei sistemi biometrici vocali mitigando l'apprendimento di scorciatoie demografiche e l'entanglement delle caratteristiche, migliorando così l'equità senza compromettere le prestazioni di verifica.

Yangyang Qu, Todisco Massimiliano, Galdi Chiara, Evans NicholasFri, 13 Ma⚡ eess

Continued Pretraining for Low-Resource Swahili ASR: Achieving State-of-the-Art Performance with Minimal Labeled Data

Questo studio dimostra che l'adattamento tramite pre-addestramento continuo di wav2vec2-bert-2.0 su dati non etichettati e un limitato set di 20.000 campioni etichettati consente di raggiungere prestazioni all'avanguardia nel riconoscimento automatico del parlato in swahili, riducendo l'errore di 3,24% e superando di gran lunga i sistemi precedenti.

Hillary Mutisya, John MuganeFri, 13 Ma⚡ eess

Stage-Adaptive Reliability Modeling for Continuous Valence-Arousal Estimation

Il paper propone SAGE, un framework di modellazione adattiva alle fasi che stima e calibra dinamicamente la fiducia delle modalità audio e visive per migliorare la robustezza e l'accuratezza della stima continua di valenza e arousal in ambienti reali.

Yubeen Lee, Sangeun Lee, Junyeop Cha, Eunil ParkFri, 13 Ma🤖 cs.AI

AnimeScore: A Preference-Based Dataset and Framework for Evaluating Anime-Like Speech Style

Il paper presenta AnimeScore, un framework basato su preferenze e un dataset di 15.000 giudizi a coppie che superano i limiti delle valutazioni soggettive tradizionali per fornire una metrica oggettiva e automatizzata dell'animosità vocale, rivelando che tale caratteristica è guidata da fattori acustici complessi come la modellazione della risonanza e la continuità prosodica piuttosto che dal semplice tono alto.

Joonyong Park, Jerry LiFri, 13 Ma⚡ eess

Toward Complex-Valued Neural Networks for Waveform Generation

Il paper presenta ComVo, un vocodere neurale complesso che utilizza operazioni native a valori complessi, quantizzazione di fase e uno schema di calcolo a matrice a blocchi per generare forme d'onda audio di qualità superiore rispetto ai metodi reali, riducendo al contempo i tempi di addestramento.

Hyung-Seok Oh, Deok-Hyeon Cho, Seung-Bin Kim, Seong-Whan LeeFri, 13 Ma🤖 cs.AI

SEMamba++: A General Speech Restoration Framework Leveraging Global, Local, and Periodic Spectral Patterns

Il paper presenta SEMamba++, un nuovo framework generale per il ripristino del parlato che integra bias induttivi specifici per il linguaggio, tra cui un blocco di estrazione delle frequenze (Frequency GLP) e un blocco di elaborazione duale tempo-frequenza multi-risoluzione, ottenendo prestazioni superiori rispetto ai modelli esistenti mantenendo un'efficienza computazionale.

Yongjoon Lee, Jung-Woo ChoiFri, 13 Ma⚡ eess

RAF: Relativistic Adversarial Feedback For Universal Speech Synthesis

Il paper propone RAF (Relativistic Adversarial Feedback), un nuovo obiettivo di addestramento per vocoder GAN che sfrutta modelli di apprendimento auto-supervisionato e l'accoppiamento relativistico per migliorare la fedeltà e la generalizzazione, permettendo a un modello BigVGAN-base addestrato con RAF di superare le prestazioni di un modello LSGAN con solo il 12% dei parametri.

Yongjoon Lee, Jung-Woo ChoiFri, 13 Ma⚡ eess

Causal Prosody Mediation for Text-to-Speech:Counterfactual Training of Duration, Pitch, and Energy in FastSpeech2

Il paper propone un nuovo framework di mediazione causale per la sintesi vocale che, integrando un modello strutturale causale e obiettivi di addestramento controfattuale nell'architettura FastSpeech2, disaccoppia efficacemente l'espressività emotiva dal contenuto linguistico per ottenere una manipolazione del prosodia più controllabile e naturale.

Suvendu Sekhar MohantyFri, 13 Ma🤖 cs.AI

Affect Decoding in Phonated and Silent Speech Production from Surface EMG

Questo studio introduce un nuovo dataset e dimostra che l'analisi dell'attività muscolare facciale tramite elettromiografia di superficie (sEMG) permette di decodificare con affidabilità stati emotivi come la frustrazione, generalizzando efficacemente sia nel parlato fonato che in quello silenzioso.

Simon Pistrosch, Kleanthis Avramidis, Tiantian Feng, Jihwan Lee, Monica Gonzalez-Machorro, Shrikanth Narayanan, Björn W. SchullerFri, 13 Ma⚡ eess

Resurfacing Paralinguistic Awareness in Large Audio Language Models

Questo lavoro introduce un protocollo di fine-tuning potenziato (PE-FT) che, attraverso analisi strato per strato e tecniche mirate, risveglia la consapevolezza paralinguistica nei Modelli Linguistici Audio di grandi dimensioni, permettendo loro di cogliere e rispondere efficacemente ai segnali contestuali impliciti oltre al semplice contenuto testuale.

Hao Yang, Minghan Wang, Tongtong Wu, Lizhen Qu, Ehsan Shareghi, Gholamreza HaffariFri, 13 Ma⚡ eess

Dr. SHAP-AV: Decoding Relative Modality Contributions via Shapley Attribution in Audio-Visual Speech Recognition

Il paper presenta Dr. SHAP-AV, un framework che utilizza i valori di Shapley per analizzare il contributo delle modalità audio e visivo nella riconoscimento della parola audio-visivo, rivelando come i modelli mantengano un pregiudizio verso l'audio anche in condizioni di rumore e come l'equilibrio modale sia influenzato principalmente dal rapporto segnale-rumore.

Umberto Cappellazzo, Stavros Petridis, Maja PanticFri, 13 Ma⚡ eess

Controllable Dance Generation with Style-Guided Motion Diffusion

Il paper propone SGMD, un modello di diffusione guidato dallo stile che integra prompt stilistici e un meccanismo di mascheramento spaziotemporale per generare sequenze di danza realistiche, stilisticamente coerenti e controllabili in base alla musica e alle preferenze dell'utente.

Hongsong Wang, Ying Zhu, Xin Geng + 1 more2026-03-11⚡ eess

ExSampling: a system for the real-time ensemble performance of field-recorded environmental sounds

Il paper propone ExSampling, un sistema integrato che combina un'applicazione di registrazione e un ambiente di Deep Learning per abilitare l'esecuzione musicale in tempo reale di suoni ambientali, automatizzandone il mapping su Ableton Live e facilitando l'interazione tra registri, compositori e performer.

Atsuya Kobayashi, Reo Anzai, Nao Tokui2026-03-10⚡ eess

← Precedente Successivo →