eess.AS articoli | Gist.Science

Textless and Non-Parallel Speech-to-Speech Emotion Style Transfer

Il paper propone S2S-ZEST, un framework zero-shot per il trasferimento dello stile emotivo da voce a voce in contesti privi di testo e non paralleli, che preserva contenuto e identità del parlante mentre imita l'emozione di riferimento, dimostrando prestazioni superiori rispetto ai metodi precedenti e un'utilità per l'aumento dei dati nei compiti di riconoscimento emotivo.

Soumya Dutta, Avni Jain, Sriram GanapathyWed, 11 Ma⚡ eess

Fast-Converging Distributed Signal Estimation in Topology-Unconstrained Wireless Acoustic Sensor Networks

Questo articolo propone l'algoritmo TI-DANSE+, un metodo migliorato per la stima distribuita dei segnali nelle reti di sensori acustici wireless che supera i limiti di convergenza lenta del TI-DANSE originale sfruttando somme parziali e strategie di potatura degli alberi, garantendo al contempo una velocità di convergenza paragonabile all'algoritmo DANSE classico e un risparmio di larghezza di banda.

Paul Didier, Toon van Waterschoot, Simon Doclo, Jörg Bitzer, Marc MoonenWed, 11 Ma⚡ eess

Human-CLAP: Human-perception-based contrastive language-audio pretraining

Il paper introduce Human-CLAP, un modello di pre-addestramento contrasto linguaggio-audio basato sulla percezione umana che, addestrato su valutazioni soggettive, supera significativamente il CLAP tradizionale migliorando la correlazione tra i punteggi di similarità e le valutazioni umane.

Taisei Takano, Yuki Okamoto, Yusuke Kanamori, Yuki Saito, Ryotaro Nagase, Hiroshi SaruwatariWed, 11 Ma⚡ eess

Benchmarking Humans and Machines on Complex Multilingual Speech Understanding Tasks

Questo studio propone un paradigma sistematico per confrontare umani e macchine nella comprensione del parlato multilingue, rivelando che mentre gli esseri umani mostrano un'attenzione selettiva superiore nella loro lingua madre, i modelli linguistici basati sull'audio superano le prestazioni umane in condizioni di parlato pulito ma faticano a gestire scenari con voci sovrapposte.

Sai Samrat Kankanala, Ram Chandra, Sriram GanapathyWed, 11 Ma⚡ eess

Evaluating pretrained speech embedding systems for dysarthria detection across heterogenous datasets

Questo studio valuta 17 sistemi di embedding vocale preaddestrati su sei dataset eterogenei per la rilevazione della disartria, rivelando significative variazioni nelle prestazioni intra-dataset e una ridotta generalizzazione cross-dataset che solleva dubbi sulla validità clinica dei modelli addestrati e testati sugli stessi dati.

Lovisa Wihlborg, Jemima Goodall, David Wheatley, Jacob J. Webber, Johnny Tam, Christine Weaver, Suvankar Pal, Siddharthan Chandran, Sohan Seth, Oliver Watts, Cassia Valentini-BotinhaoWed, 11 Ma⚡ eess

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

Il paper presenta VSSFlow, un framework unificato basato sul flusso di matching che risolve congiuntamente la generazione di suoni e parlato condizionata dal video, superando le prestazioni dei modelli specifici per dominio grazie a un meccanismo di aggregazione delle condizioni disaccoppiato e all'apprendimento congiunto.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua SongWed, 11 Ma🤖 cs.AI

VoiceBridge: General Speech Restoration with One-step Latent Bridge Models

Il paper presenta VoiceBridge, un modello ponte latente in un singolo passo basato su un autoencoder variazionale a conservazione energetica e un prior neurale congiunto, che permette la generazione efficiente e ad alta fedeltà di parlato a 48 kHz da diverse distorsioni senza necessità di distillazione.

Chi Zhang, Kaiwen Zheng, Zehua Chen, Jun ZhuWed, 11 Ma🤖 cs.AI

Latent Speech-Text Transformer

Il paper introduce il Latent Speech-Text Transformer (LST), un modello che migliora l'efficienza computazionale e le prestazioni di comprensione e generazione sia vocale che testuale aggregando i token vocali in patch latenti, riducendo così la lunghezza delle sequenze e bilanciando l'elaborazione tra le due modalità.

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc LeWed, 11 Ma🤖 cs.AI

Noise-Conditioned Mixture-of-Experts Framework for Robust Speaker Verification

Questo articolo presenta un framework di esperti misti condizionati dal rumore che migliora la verifica robusta del parlante suddividendo lo spazio delle caratteristiche in sottospazi specializzati per diverse condizioni di rumore, utilizzando un meccanismo di instradamento, una strategia di specializzazione e un protocollo di apprendimento curriculare.

Bin Gu, Haitao Zhao, Jibo WeiWed, 11 Ma⚡ eess

Modeling strategies for speech enhancement in the latent space of a neural audio codec

Questo studio dimostra che, per il potenziamento del parlato nello spazio latente dei codec neurali audio, la previsione di rappresentazioni continue supera quella dei token discreti, i modelli non autoregressivi offrono il miglior compromesso tra qualità ed efficienza, e il fine-tuning dell'encoder garantisce le metriche di miglioramento più elevate, sebbene a scapito della ricostruzione del codec.

Sofiene Kammoun, Xavier Alameda-Pineda, Simon LeglaiveWed, 11 Ma⚡ eess

WhisperVC: Decoupled Cross-Domain Alignment and Speech Generation for Low-Resource Whisper-to-Normal Conversion

Il paper presenta WhisperVC, un framework a tre stadi che risolve la sfida della conversione da voce sussurrata a normale in contesti a risorse limitate, disaccoppiando l'allineamento cross-dominio dalla generazione vocale per ottenere risultati di alta qualità e applicazioni in ambito sanitario e di comunicazione privata.

Dong Liu, Juan Liu, Wei Ju, Yao Tian, Ming LiWed, 11 Ma⚡ eess

Multiplexing Neural Audio Watermarks

Questo articolo introduce un paradigma di multiplexing per filigrane audio neurali, che combina tecniche parallele e sequenziali (inclusi PA-TFM e MaskNet) per superare i limiti dei metodi singoli e garantire una protezione robusta contro distorsioni sofisticate e attacchi di ricostruzione neurale.

Zheqi Yuan, Yucheng Huang, Guangzhi Sun, Zengrui Jin, Chao ZhangWed, 11 Ma⚡ eess

Head, posture, and full-body gestures in unscripted dyadic conversations in noise

Lo studio dimostra che in conversazioni diadiche rumorose, i parlanti adattano il loro comportamento comunicativo aumentando la complessità dei gesti manuali e modulando i movimenti della testa e del tronco, mentre gli ascoltatori intensificano i segnali di retroazione per migliorare il rapporto segnale-rumore, sebbene la sincronia tra mano e voce subisca una lieve diminuzione.

Luboš Hládek, Bernhard U. SeeberWed, 11 Ma⚡ eess

Rethinking Discrete Speech Representation Tokens for Accent Generation

Questo studio presenta la prima indagine sistematica su come le informazioni relative all'accento siano codificate nei token di rappresentazione del parlato discreto (DSRT), proponendo un nuovo framework di valutazione che rivela come la scelta dei livelli e la supervisione ASR influenzino significativamente la preservazione e il recupero di tali informazioni.

Jinzuomu Zhong, Yi Wang, Korin Richmond, Peter BellWed, 11 Ma⚡ eess

Bottleneck Transformer-Based Approach for Improved Automatic STOI Score Prediction

Questo studio presenta un approccio innovativo basato su un'architettura Transformer con collo di bottiglia che, integrando blocchi convoluzionali e un meccanismo di attenzione multi-testa, supera i metodi esistenti nella previsione non intrusiva del punteggio STOI, ottenendo una maggiore correlazione e un errore quadratico medio inferiore sia in scenari noti che inediti.

Amartyaveer, Murali Kadambi, Chandra Mohan Sharma, Anupam Mondal, Prasanta Kumar GhoshWed, 11 Ma🤖 cs.LG

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

Il paper presenta VoxEmo, un benchmark completo per la valutazione dei modelli linguistici vocali nell'ambito del riconoscimento delle emozioni, che affronta le sfide della generazione testuale aperta e dell'ambiguità emotiva attraverso un kit di strumenti standardizzato e protocolli di valutazione adattati alla percezione umana.

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

Can You Hear, Localize, and Segment Continually? An Exemplar-Free Continual Learning Benchmark for Audio-Visual Segmentation

Questo lavoro introduce il primo benchmark di apprendimento continuo senza esempi per la segmentazione audio-visiva e propone il modello ATLAS, che combina condizionamento pre-fusione guidato dall'audio e ancoraggio a basso rango per mitigare l'oblio catastrofico in ambienti dinamici.

Siddeshwar Raghavan, Gautham Vinod, Bruce Coburn, Fengqing ZhuWed, 11 Ma⚡ eess

Universal Speech Content Factorization

Il paper propone la Fattorizzazione Universale del Contenuto del Discorso (USCF), un metodo lineare semplice e invertibile che estrae una rappresentazione del parlato a basso rango preservando il contenuto fonetico e rimuovendo l'identità del parlante, permettendo così una conversione vocale zero-shot competitiva e un addestramento efficiente di modelli di sintesi vocale.

Henry Li Xinyuan, Zexin Cai, Lin Zhang, Leibny Paola García-Perera, Berrak Sisman, Sanjeev Khudanpur, Nicholas Andrews, Matthew WiesnerWed, 11 Ma⚡ eess

Trade-offs Between Capacity and Robustness in Neural Audio Codecs for Adversarially Robust Speech Recognition

Lo studio dimostra che nei codec audio neurali esiste un compromesso non monotono tra capacità e robustezza, dove configurazioni di quantizzazione intermedia ottimizzano la resistenza agli attacchi avversari mantenendo l'integrità del contenuto linguistico.

Jordan Prescott, Thanathai Lertpetchpun, Shrikanth NarayananWed, 11 Ma⚡ eess

Emotion-Aware Prefix: Towards Explicit Emotion Control in Voice Conversion Models

Il paper propone un "Emotion-Aware Prefix" per un controllo esplicito delle emozioni nella conversione vocale, raddoppiando l'accuratezza della conversione emotiva fino all'85,50% mantenendo al contempo l'integrità linguistica, la qualità della voce e l'identità del parlante.

Haoyuan Yang, Mu Yang, Jiamin Xie, Szu-Jui Chen, John H. L. HansenWed, 11 Ma⚡ eess