cs.SD articoli | Gist.Science

Textless and Non-Parallel Speech-to-Speech Emotion Style Transfer

Il paper propone S2S-ZEST, un framework zero-shot per il trasferimento dello stile emotivo da voce a voce in contesti privi di testo e non paralleli, che preserva contenuto e identità del parlante mentre imita l'emozione di riferimento, dimostrando prestazioni superiori rispetto ai metodi precedenti e un'utilità per l'aumento dei dati nei compiti di riconoscimento emotivo.

Soumya Dutta, Avni Jain, Sriram GanapathyWed, 11 Ma⚡ eess

Fast-Converging Distributed Signal Estimation in Topology-Unconstrained Wireless Acoustic Sensor Networks

Questo articolo propone l'algoritmo TI-DANSE+, un metodo migliorato per la stima distribuita dei segnali nelle reti di sensori acustici wireless che supera i limiti di convergenza lenta del TI-DANSE originale sfruttando somme parziali e strategie di potatura degli alberi, garantendo al contempo una velocità di convergenza paragonabile all'algoritmo DANSE classico e un risparmio di larghezza di banda.

Paul Didier, Toon van Waterschoot, Simon Doclo, Jörg Bitzer, Marc MoonenWed, 11 Ma⚡ eess

Human-CLAP: Human-perception-based contrastive language-audio pretraining

Il paper introduce Human-CLAP, un modello di pre-addestramento contrasto linguaggio-audio basato sulla percezione umana che, addestrato su valutazioni soggettive, supera significativamente il CLAP tradizionale migliorando la correlazione tra i punteggi di similarità e le valutazioni umane.

Taisei Takano, Yuki Okamoto, Yusuke Kanamori, Yuki Saito, Ryotaro Nagase, Hiroshi SaruwatariWed, 11 Ma⚡ eess

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

Il paper presenta VSSFlow, un framework unificato basato sul flusso di matching che risolve congiuntamente la generazione di suoni e parlato condizionata dal video, superando le prestazioni dei modelli specifici per dominio grazie a un meccanismo di aggregazione delle condizioni disaccoppiato e all'apprendimento congiunto.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua SongWed, 11 Ma🤖 cs.AI

VoiceBridge: General Speech Restoration with One-step Latent Bridge Models

Il paper presenta VoiceBridge, un modello ponte latente in un singolo passo basato su un autoencoder variazionale a conservazione energetica e un prior neurale congiunto, che permette la generazione efficiente e ad alta fedeltà di parlato a 48 kHz da diverse distorsioni senza necessità di distillazione.

Chi Zhang, Kaiwen Zheng, Zehua Chen, Jun ZhuWed, 11 Ma🤖 cs.AI

LARA-Gen: Enabling Continuous Emotion Control for Music Generation Models via Latent Affective Representation Alignment

Il paper presenta LARA-Gen, un framework che abilita un controllo continuo e fine-granulare delle emozioni nella generazione musicale allineando le rappresentazioni latenti a un modello di comprensione esterna e disaccoppiando gli attributi emotivi dal contenuto testuale, superando così i limiti dei prompt testuali e ottenendo risultati superiori rispetto alle basi di confronto.

Jiahao Mei, Xuenan Xu, Zeyu Xie, Zihao Zheng, Ye Tao, Yue Ding, Mengyue WuWed, 11 Ma💻 cs

Noise-Conditioned Mixture-of-Experts Framework for Robust Speaker Verification

Questo articolo presenta un framework di esperti misti condizionati dal rumore che migliora la verifica robusta del parlante suddividendo lo spazio delle caratteristiche in sottospazi specializzati per diverse condizioni di rumore, utilizzando un meccanismo di instradamento, una strategia di specializzazione e un protocollo di apprendimento curriculare.

Bin Gu, Haitao Zhao, Jibo WeiWed, 11 Ma⚡ eess

Modeling strategies for speech enhancement in the latent space of a neural audio codec

Questo studio dimostra che, per il potenziamento del parlato nello spazio latente dei codec neurali audio, la previsione di rappresentazioni continue supera quella dei token discreti, i modelli non autoregressivi offrono il miglior compromesso tra qualità ed efficienza, e il fine-tuning dell'encoder garantisce le metriche di miglioramento più elevate, sebbene a scapito della ricostruzione del codec.

Sofiene Kammoun, Xavier Alameda-Pineda, Simon LeglaiveWed, 11 Ma⚡ eess

Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound

Questo lavoro introduce il primo quadro formale per i modelli di mondo audiovisivi, presentando il dataset AVW-4k e il modello AV-CDiT per simulare dinamiche ambientali sincronizzate in audio e video, dimostrando miglioramenti significativi nelle prestazioni di navigazione continua.

Jiahua Wang, Leqi Zheng, Jialong Wu, Yaoxin MaoWed, 11 Ma💻 cs

Head, posture, and full-body gestures in unscripted dyadic conversations in noise

Lo studio dimostra che in conversazioni diadiche rumorose, i parlanti adattano il loro comportamento comunicativo aumentando la complessità dei gesti manuali e modulando i movimenti della testa e del tronco, mentre gli ascoltatori intensificano i segnali di retroazione per migliorare il rapporto segnale-rumore, sebbene la sincronia tra mano e voce subisca una lieve diminuzione.

Luboš Hládek, Bernhard U. SeeberWed, 11 Ma⚡ eess

Rethinking Discrete Speech Representation Tokens for Accent Generation

Questo studio presenta la prima indagine sistematica su come le informazioni relative all'accento siano codificate nei token di rappresentazione del parlato discreto (DSRT), proponendo un nuovo framework di valutazione che rivela come la scelta dei livelli e la supervisione ASR influenzino significativamente la preservazione e il recupero di tali informazioni.

Jinzuomu Zhong, Yi Wang, Korin Richmond, Peter BellWed, 11 Ma⚡ eess

EDMFormer: Genre-Specific Self-Supervised Learning for Music Structure Segmentation

Il paper introduce EDMFormer, un modello transformer basato su apprendimento auto-supervisionato e sul nuovo dataset EDM-98, che supera le limitazioni degli approcci esistenti nella segmentazione strutturale della musica EDM identificando con maggiore precisione sezioni come drop e buildup attraverso l'analisi di energia, ritmo e timbro.

Sahal Sajeer, Krish Patel, Oscar Chung, Joel Song BaeWed, 11 Ma🤖 cs.AI

Fish Audio S2 Technical Report

Il documento presenta Fish Audio S2, un sistema open-source di sintesi vocale che supporta la generazione multi-parlante e multi-turno con controllo tramite istruzioni in linguaggio naturale, accompagnato da un motore di inferenza ottimizzato per lo streaming e risorse rilasciate pubblicamente.

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei HanWed, 11 Ma🤖 cs.AI

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

Il paper presenta VoxEmo, un benchmark completo per la valutazione dei modelli linguistici vocali nell'ambito del riconoscimento delle emozioni, che affronta le sfide della generazione testuale aperta e dell'ambiguità emotiva attraverso un kit di strumenti standardizzato e protocolli di valutazione adattati alla percezione umana.

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

Universal Speech Content Factorization

Il paper propone la Fattorizzazione Universale del Contenuto del Discorso (USCF), un metodo lineare semplice e invertibile che estrae una rappresentazione del parlato a basso rango preservando il contenuto fonetico e rimuovendo l'identità del parlante, permettendo così una conversione vocale zero-shot competitiva e un addestramento efficiente di modelli di sintesi vocale.

Henry Li Xinyuan, Zexin Cai, Lin Zhang, Leibny Paola García-Perera, Berrak Sisman, Sanjeev Khudanpur, Nicholas Andrews, Matthew WiesnerWed, 11 Ma⚡ eess

Gender Fairness in Audio Deepfake Detection: Performance and Disparity Analysis

Questo studio analizza le disparità di genere nei modelli di rilevamento dei deepfake audio, dimostrando che l'uso esclusivo delle metriche tradizionali nasconde ingiustizie distributive che possono essere svelate solo attraverso una valutazione specifica dell'equità.

Aishwarya Fursule, Shruti Kshirsagar, Anderson R. AvilaWed, 11 Ma🤖 cs.AI

Trade-offs Between Capacity and Robustness in Neural Audio Codecs for Adversarially Robust Speech Recognition

Lo studio dimostra che nei codec audio neurali esiste un compromesso non monotono tra capacità e robustezza, dove configurazioni di quantizzazione intermedia ottimizzano la resistenza agli attacchi avversari mantenendo l'integrità del contenuto linguistico.

Jordan Prescott, Thanathai Lertpetchpun, Shrikanth NarayananWed, 11 Ma⚡ eess

The Costs of Reproducibility in Music Separation Research: a Replication of Band-Split RNN

Questo studio affronta le sfide di riproducibilità nel campo della separazione delle fonti musicali replicando il modello BSRNN, evidenziando i costi metodologici e pratici della mancanza di codice completo e proponendo un'architettura ottimizzata con prestazioni superiori.

Paul Magron, Romain Serizel, Constance DouwesWed, 11 Ma🤖 cs.LG

How Contrastive Decoding Enhances Large Audio Language Models?

Questo studio valuta sistematicamente diverse strategie di Decodifica Contrastiva per i Modelli Linguistici Audio di grandi dimensioni, identificando le più efficaci e introducendo una matrice di transizione per spiegare come tali metodi correggano specifici errori di inferenza, fornendo così linee guida per l'adattamento in base ai profili di errore dei modelli.

Tzu-Quan Lin, Wei-Ping Huang, Yi-Cheng Lin, Hung-yi LeeWed, 11 Ma💬 cs.CL

Paralinguistic Emotion-Aware Validation Timing Detection in Japanese Empathetic Spoken Dialogue

Questo studio propone un modello che rileva il momento ottimale per fornire validazione emotiva nel dialogo parlato giapponese analizzando esclusivamente segnali paralinguistici ed emozioni vocali, senza fare affidamento sul contesto testuale, al fine di migliorare l'interazione empatica tra uomo e robot.

Zi Haur Pang, Yahui Fu, Yuan Gao, Tatsuya KawaharaWed, 11 Ma💻 cs