Textless and Non-Parallel Speech-to-Speech Emotion Style Transfer

Il paper propone S2S-ZEST, un framework zero-shot per il trasferimento dello stile emotivo da voce a voce in contesti privi di testo e non paralleli, che preserva contenuto e identità del parlante mentre imita l'emozione di riferimento, dimostrando prestazioni superiori rispetto ai metodi precedenti e un'utilità per l'aumento dei dati nei compiti di riconoscimento emotivo.

Soumya Dutta, Avni Jain, Sriram GanapathyWed, 11 Ma⚡ eess

Fast-Converging Distributed Signal Estimation in Topology-Unconstrained Wireless Acoustic Sensor Networks

Questo articolo propone l'algoritmo TI-DANSE+, un metodo migliorato per la stima distribuita dei segnali nelle reti di sensori acustici wireless che supera i limiti di convergenza lenta del TI-DANSE originale sfruttando somme parziali e strategie di potatura degli alberi, garantendo al contempo una velocità di convergenza paragonabile all'algoritmo DANSE classico e un risparmio di larghezza di banda.

Paul Didier, Toon van Waterschoot, Simon Doclo, Jörg Bitzer, Marc MoonenWed, 11 Ma⚡ eess

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

Il paper presenta VSSFlow, un framework unificato basato sul flusso di matching che risolve congiuntamente la generazione di suoni e parlato condizionata dal video, superando le prestazioni dei modelli specifici per dominio grazie a un meccanismo di aggregazione delle condizioni disaccoppiato e all'apprendimento congiunto.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua SongWed, 11 Ma🤖 cs.AI

LARA-Gen: Enabling Continuous Emotion Control for Music Generation Models via Latent Affective Representation Alignment

Il paper presenta LARA-Gen, un framework che abilita un controllo continuo e fine-granulare delle emozioni nella generazione musicale allineando le rappresentazioni latenti a un modello di comprensione esterna e disaccoppiando gli attributi emotivi dal contenuto testuale, superando così i limiti dei prompt testuali e ottenendo risultati superiori rispetto alle basi di confronto.

Jiahao Mei, Xuenan Xu, Zeyu Xie, Zihao Zheng, Ye Tao, Yue Ding, Mengyue WuWed, 11 Ma💻 cs

Modeling strategies for speech enhancement in the latent space of a neural audio codec

Questo studio dimostra che, per il potenziamento del parlato nello spazio latente dei codec neurali audio, la previsione di rappresentazioni continue supera quella dei token discreti, i modelli non autoregressivi offrono il miglior compromesso tra qualità ed efficienza, e il fine-tuning dell'encoder garantisce le metriche di miglioramento più elevate, sebbene a scapito della ricostruzione del codec.

Sofiene Kammoun, Xavier Alameda-Pineda, Simon LeglaiveWed, 11 Ma⚡ eess

Head, posture, and full-body gestures in unscripted dyadic conversations in noise

Lo studio dimostra che in conversazioni diadiche rumorose, i parlanti adattano il loro comportamento comunicativo aumentando la complessità dei gesti manuali e modulando i movimenti della testa e del tronco, mentre gli ascoltatori intensificano i segnali di retroazione per migliorare il rapporto segnale-rumore, sebbene la sincronia tra mano e voce subisca una lieve diminuzione.

Luboš Hládek, Bernhard U. SeeberWed, 11 Ma⚡ eess

Rethinking Discrete Speech Representation Tokens for Accent Generation

Questo studio presenta la prima indagine sistematica su come le informazioni relative all'accento siano codificate nei token di rappresentazione del parlato discreto (DSRT), proponendo un nuovo framework di valutazione che rivela come la scelta dei livelli e la supervisione ASR influenzino significativamente la preservazione e il recupero di tali informazioni.

Jinzuomu Zhong, Yi Wang, Korin Richmond, Peter BellWed, 11 Ma⚡ eess

Fish Audio S2 Technical Report

Il documento presenta Fish Audio S2, un sistema open-source di sintesi vocale che supporta la generazione multi-parlante e multi-turno con controllo tramite istruzioni in linguaggio naturale, accompagnato da un motore di inferenza ottimizzato per lo streaming e risorse rilasciate pubblicamente.

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei HanWed, 11 Ma🤖 cs.AI

Universal Speech Content Factorization

Il paper propone la Fattorizzazione Universale del Contenuto del Discorso (USCF), un metodo lineare semplice e invertibile che estrae una rappresentazione del parlato a basso rango preservando il contenuto fonetico e rimuovendo l'identità del parlante, permettendo così una conversione vocale zero-shot competitiva e un addestramento efficiente di modelli di sintesi vocale.

Henry Li Xinyuan, Zexin Cai, Lin Zhang, Leibny Paola García-Perera, Berrak Sisman, Sanjeev Khudanpur, Nicholas Andrews, Matthew WiesnerWed, 11 Ma⚡ eess

How Contrastive Decoding Enhances Large Audio Language Models?

Questo studio valuta sistematicamente diverse strategie di Decodifica Contrastiva per i Modelli Linguistici Audio di grandi dimensioni, identificando le più efficaci e introducendo una matrice di transizione per spiegare come tali metodi correggano specifici errori di inferenza, fornendo così linee guida per l'adattamento in base ai profili di errore dei modelli.

Tzu-Quan Lin, Wei-Ping Huang, Yi-Cheng Lin, Hung-yi LeeWed, 11 Ma💬 cs.CL