Textless and Non-Parallel Speech-to-Speech Emotion Style Transfer

Il paper propone S2S-ZEST, un framework zero-shot per il trasferimento dello stile emotivo da voce a voce in contesti privi di testo e non paralleli, che preserva contenuto e identità del parlante mentre imita l'emozione di riferimento, dimostrando prestazioni superiori rispetto ai metodi precedenti e un'utilità per l'aumento dei dati nei compiti di riconoscimento emotivo.

Soumya Dutta, Avni Jain, Sriram GanapathyWed, 11 Ma⚡ eess

Fast-Converging Distributed Signal Estimation in Topology-Unconstrained Wireless Acoustic Sensor Networks

Questo articolo propone l'algoritmo TI-DANSE+, un metodo migliorato per la stima distribuita dei segnali nelle reti di sensori acustici wireless che supera i limiti di convergenza lenta del TI-DANSE originale sfruttando somme parziali e strategie di potatura degli alberi, garantendo al contempo una velocità di convergenza paragonabile all'algoritmo DANSE classico e un risparmio di larghezza di banda.

Paul Didier, Toon van Waterschoot, Simon Doclo, Jörg Bitzer, Marc MoonenWed, 11 Ma⚡ eess

Benchmarking Humans and Machines on Complex Multilingual Speech Understanding Tasks

Questo studio propone un paradigma sistematico per confrontare umani e macchine nella comprensione del parlato multilingue, rivelando che mentre gli esseri umani mostrano un'attenzione selettiva superiore nella loro lingua madre, i modelli linguistici basati sull'audio superano le prestazioni umane in condizioni di parlato pulito ma faticano a gestire scenari con voci sovrapposte.

Sai Samrat Kankanala, Ram Chandra, Sriram GanapathyWed, 11 Ma⚡ eess

Evaluating pretrained speech embedding systems for dysarthria detection across heterogenous datasets

Questo studio valuta 17 sistemi di embedding vocale preaddestrati su sei dataset eterogenei per la rilevazione della disartria, rivelando significative variazioni nelle prestazioni intra-dataset e una ridotta generalizzazione cross-dataset che solleva dubbi sulla validità clinica dei modelli addestrati e testati sugli stessi dati.

Lovisa Wihlborg, Jemima Goodall, David Wheatley, Jacob J. Webber, Johnny Tam, Christine Weaver, Suvankar Pal, Siddharthan Chandran, Sohan Seth, Oliver Watts, Cassia Valentini-BotinhaoWed, 11 Ma⚡ eess

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

Il paper presenta VSSFlow, un framework unificato basato sul flusso di matching che risolve congiuntamente la generazione di suoni e parlato condizionata dal video, superando le prestazioni dei modelli specifici per dominio grazie a un meccanismo di aggregazione delle condizioni disaccoppiato e all'apprendimento congiunto.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua SongWed, 11 Ma🤖 cs.AI

Latent Speech-Text Transformer

Il paper introduce il Latent Speech-Text Transformer (LST), un modello che migliora l'efficienza computazionale e le prestazioni di comprensione e generazione sia vocale che testuale aggregando i token vocali in patch latenti, riducendo così la lunghezza delle sequenze e bilanciando l'elaborazione tra le due modalità.

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc LeWed, 11 Ma🤖 cs.AI

Modeling strategies for speech enhancement in the latent space of a neural audio codec

Questo studio dimostra che, per il potenziamento del parlato nello spazio latente dei codec neurali audio, la previsione di rappresentazioni continue supera quella dei token discreti, i modelli non autoregressivi offrono il miglior compromesso tra qualità ed efficienza, e il fine-tuning dell'encoder garantisce le metriche di miglioramento più elevate, sebbene a scapito della ricostruzione del codec.

Sofiene Kammoun, Xavier Alameda-Pineda, Simon LeglaiveWed, 11 Ma⚡ eess

Head, posture, and full-body gestures in unscripted dyadic conversations in noise

Lo studio dimostra che in conversazioni diadiche rumorose, i parlanti adattano il loro comportamento comunicativo aumentando la complessità dei gesti manuali e modulando i movimenti della testa e del tronco, mentre gli ascoltatori intensificano i segnali di retroazione per migliorare il rapporto segnale-rumore, sebbene la sincronia tra mano e voce subisca una lieve diminuzione.

Luboš Hládek, Bernhard U. SeeberWed, 11 Ma⚡ eess

Rethinking Discrete Speech Representation Tokens for Accent Generation

Questo studio presenta la prima indagine sistematica su come le informazioni relative all'accento siano codificate nei token di rappresentazione del parlato discreto (DSRT), proponendo un nuovo framework di valutazione che rivela come la scelta dei livelli e la supervisione ASR influenzino significativamente la preservazione e il recupero di tali informazioni.

Jinzuomu Zhong, Yi Wang, Korin Richmond, Peter BellWed, 11 Ma⚡ eess

Bottleneck Transformer-Based Approach for Improved Automatic STOI Score Prediction

Questo studio presenta un approccio innovativo basato su un'architettura Transformer con collo di bottiglia che, integrando blocchi convoluzionali e un meccanismo di attenzione multi-testa, supera i metodi esistenti nella previsione non intrusiva del punteggio STOI, ottenendo una maggiore correlazione e un errore quadratico medio inferiore sia in scenari noti che inediti.

Amartyaveer, Murali Kadambi, Chandra Mohan Sharma, Anupam Mondal, Prasanta Kumar GhoshWed, 11 Ma🤖 cs.LG

Universal Speech Content Factorization

Il paper propone la Fattorizzazione Universale del Contenuto del Discorso (USCF), un metodo lineare semplice e invertibile che estrae una rappresentazione del parlato a basso rango preservando il contenuto fonetico e rimuovendo l'identità del parlante, permettendo così una conversione vocale zero-shot competitiva e un addestramento efficiente di modelli di sintesi vocale.

Henry Li Xinyuan, Zexin Cai, Lin Zhang, Leibny Paola García-Perera, Berrak Sisman, Sanjeev Khudanpur, Nicholas Andrews, Matthew WiesnerWed, 11 Ma⚡ eess