Textless and Non-Parallel Speech-to-Speech Emotion Style Transfer

Este artigo apresenta o S2S-ZEST, um novo framework de transferência de estilo emocional fala-para-fala que, operando sem texto e sem dados paralelos, consegue transferir características emocionais de uma referência para uma fala fonte preservando a identidade do falante e o conteúdo semântico, demonstrando desempenho superior a métodos anteriores e aplicabilidade em tarefas de reconhecimento de emoções.

Soumya Dutta, Avni Jain, Sriram GanapathyWed, 11 Ma⚡ eess

Fast-Converging Distributed Signal Estimation in Topology-Unconstrained Wireless Acoustic Sensor Networks

Este artigo propõe o algoritmo TI-DANSE+, uma melhoria do método TI-DANSE para redes de sensores acústicos sem fio, que acelera a convergência para a solução de estimação centralizada ao utilizar somas parciais de sinais dos vizinhos e uma estratégia de poda de árvores, mantendo a eficiência em topologias dinâmicas e reduzindo o uso de largura de banda.

Paul Didier, Toon van Waterschoot, Simon Doclo, Jörg Bitzer, Marc MoonenWed, 11 Ma⚡ eess

LARA-Gen: Enabling Continuous Emotion Control for Music Generation Models via Latent Affective Representation Alignment

O artigo apresenta o LARA-Gen, um novo framework que permite o controle contínuo e de alta granularidade das emoções na geração de música, alinhando representações latentes afetivas e utilizando um espaço de valência-ativação para superar as limitações dos prompts baseados em texto, resultando em uma aderência emocional e qualidade musical superiores às abordagens existentes.

Jiahao Mei, Xuenan Xu, Zeyu Xie, Zihao Zheng, Ye Tao, Yue Ding, Mengyue WuWed, 11 Ma💻 cs

Noise-Conditioned Mixture-of-Experts Framework for Robust Speaker Verification

Este artigo apresenta um framework robusto de verificação de locutor baseado em uma mistura de especialistas condicionada ao ruído, que utiliza roteamento inteligente, especialização universal e aprendizado curricular para decompor o espaço de características em subespaços especializados, superando consistentemente os métodos convencionais em condições diversas de ruído.

Bin Gu, Haitao Zhao, Jibo WeiWed, 11 Ma⚡ eess

Rethinking Discrete Speech Representation Tokens for Accent Generation

Este artigo apresenta a primeira investigação sistemática sobre como as informações de sotaque são codificadas em Tokens de Representação Discreta de Fala (DSRTs), propondo um novo quadro de avaliação que revela que a escolha das camadas é o fator mais crítico para reter essas informações, enquanto a supervisão de ASR as reduz significativamente e a redução ingênua do tamanho do código não consegue separá-las eficazmente de fonética e identidade do falante.

Jinzuomu Zhong, Yi Wang, Korin Richmond, Peter BellWed, 11 Ma⚡ eess

Fish Audio S2 Technical Report

O artigo apresenta o Fish Audio S2, um sistema de texto-para-fala de código aberto que oferece geração multi-falante e multi-turno com controle por instruções em linguagem natural, destacando-se por uma receita de treinamento escalável e um motor de inferência otimizado para streaming com baixa latência.

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei HanWed, 11 Ma🤖 cs.AI

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

O artigo apresenta o VoxEmo, um benchmark abrangente para avaliar Modelos de Linguagem de Áudio em Reconhecimento de Emoções, oferecendo um toolkit padronizado e protocolos de avaliação que capturam a ambiguidade inerente às emoções humanas e demonstram que, embora os modelos zero-shot tenham menor precisão em rótulos rígidos, eles se alinham melhor com as distribuições subjetivas humanas.

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

Universal Speech Content Factorization

O artigo propõe a Universal Speech Content Factorization (USCF), um método linear simples e invertível que extrai representações de fala de baixo posto preservando o conteúdo fonético enquanto suprime o timbre do locutor, permitindo conversão de voz zero-shot e treinamento eficiente de modelos de síntese de fala.

Henry Li Xinyuan, Zexin Cai, Lin Zhang, Leibny Paola García-Perera, Berrak Sisman, Sanjeev Khudanpur, Nicholas Andrews, Matthew WiesnerWed, 11 Ma⚡ eess

Trade-offs Between Capacity and Robustness in Neural Audio Codecs for Adversarially Robust Speech Recognition

O artigo demonstra que existe uma relação não monotônica entre a profundidade da quantização vetorial residual em codecs de áudio neural e a robustez adversarial, onde configurações intermediárias otimizam o equilíbrio entre preservar o conteúdo da fala e suprimir ruídos adversariais, superando assim as defesas de compressão tradicionais.

Jordan Prescott, Thanathai Lertpetchpun, Shrikanth NarayananWed, 11 Ma⚡ eess

How Contrastive Decoding Enhances Large Audio Language Models?

Este estudo avalia sistematicamente quatro estratégias de Decodificação Contrastiva em Modelos de Linguagem de Áudio de Grande Escala, identificando as mais eficazes e propondo uma estrutura de Matriz de Transição para explicar como essas técnicas corrigem erros específicos, como a negação falsa de áudio ou o palpite por incerteza, fornecendo diretrizes para selecionar a melhor estratégia com base no perfil de erros do modelo.

Tzu-Quan Lin, Wei-Ping Huang, Yi-Cheng Lin, Hung-yi LeeWed, 11 Ma💬 cs.CL

Paralinguistic Emotion-Aware Validation Timing Detection in Japanese Empathetic Spoken Dialogue

Este estudo propõe um modelo que detecta o momento adequado para validação emocional em diálogos falados em japonês utilizando apenas pistas paralinguísticas e emocionais, sem depender do contexto textual, demonstrando melhorias significativas em relação a métodos convencionais e abrindo caminho para interações humano-robô mais empáticas.

Zi Haur Pang, Yahui Fu, Yuan Gao, Tatsuya KawaharaWed, 11 Ma💻 cs