cs.SD artigos | Gist.Science

Textless and Non-Parallel Speech-to-Speech Emotion Style Transfer

Este artigo apresenta o S2S-ZEST, um novo framework de transferência de estilo emocional fala-para-fala que, operando sem texto e sem dados paralelos, consegue transferir características emocionais de uma referência para uma fala fonte preservando a identidade do falante e o conteúdo semântico, demonstrando desempenho superior a métodos anteriores e aplicabilidade em tarefas de reconhecimento de emoções.

Soumya Dutta, Avni Jain, Sriram GanapathyWed, 11 Ma⚡ eess

Fast-Converging Distributed Signal Estimation in Topology-Unconstrained Wireless Acoustic Sensor Networks

Este artigo propõe o algoritmo TI-DANSE+, uma melhoria do método TI-DANSE para redes de sensores acústicos sem fio, que acelera a convergência para a solução de estimação centralizada ao utilizar somas parciais de sinais dos vizinhos e uma estratégia de poda de árvores, mantendo a eficiência em topologias dinâmicas e reduzindo o uso de largura de banda.

Paul Didier, Toon van Waterschoot, Simon Doclo, Jörg Bitzer, Marc MoonenWed, 11 Ma⚡ eess

Human-CLAP: Human-perception-based contrastive language-audio pretraining

O artigo apresenta o Human-CLAP, um modelo de pré-treinamento contrastivo áudio-texto treinado com base em avaliações subjetivas humanas que supera o CLAP tradicional ao aumentar significativamente a correlação entre as pontuações automáticas e a percepção humana.

Taisei Takano, Yuki Okamoto, Yusuke Kanamori, Yuki Saito, Ryotaro Nagase, Hiroshi SaruwatariWed, 11 Ma⚡ eess

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

O artigo apresenta o VSSFlow, um framework unificado baseado em fluxo que, através de um mecanismo de agregação de condições disjuntas e aprendizado conjunto, supera os métodos específicos de domínio ao gerar simultaneamente som e fala a partir de vídeos.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua SongWed, 11 Ma🤖 cs.AI

VoiceBridge: General Speech Restoration with One-step Latent Bridge Models

O artigo apresenta o VoiceBridge, um modelo de ponte latente de um único passo que utiliza um autoencoder variacional preservador de energia e um prior neural conjunto para realizar a restauração geral de fala de alta qualidade (48 kHz) a partir de diversas distorções em uma única etapa, sem necessidade de destilação.

Chi Zhang, Kaiwen Zheng, Zehua Chen, Jun ZhuWed, 11 Ma🤖 cs.AI

LARA-Gen: Enabling Continuous Emotion Control for Music Generation Models via Latent Affective Representation Alignment

O artigo apresenta o LARA-Gen, um novo framework que permite o controle contínuo e de alta granularidade das emoções na geração de música, alinhando representações latentes afetivas e utilizando um espaço de valência-ativação para superar as limitações dos prompts baseados em texto, resultando em uma aderência emocional e qualidade musical superiores às abordagens existentes.

Jiahao Mei, Xuenan Xu, Zeyu Xie, Zihao Zheng, Ye Tao, Yue Ding, Mengyue WuWed, 11 Ma💻 cs

Noise-Conditioned Mixture-of-Experts Framework for Robust Speaker Verification

Este artigo apresenta um framework robusto de verificação de locutor baseado em uma mistura de especialistas condicionada ao ruído, que utiliza roteamento inteligente, especialização universal e aprendizado curricular para decompor o espaço de características em subespaços especializados, superando consistentemente os métodos convencionais em condições diversas de ruído.

Bin Gu, Haitao Zhao, Jibo WeiWed, 11 Ma⚡ eess

Modeling strategies for speech enhancement in the latent space of a neural audio codec

Este artigo investiga estratégias de aprimoramento de fala no espaço latente de codecs de áudio neural, demonstrando que a previsão de representações contínuas com modelos não autoregressivos e o ajuste fino do codificador oferecem o melhor desempenho, embora com compensações entre qualidade, inteligibilidade e eficiência.

Sofiene Kammoun, Xavier Alameda-Pineda, Simon LeglaiveWed, 11 Ma⚡ eess

Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound

Este trabalho apresenta o primeiro framework formal para Modelos de Mundo Audiovisuais (AVWM), introduzindo o conjunto de dados AVW-4k e o modelo AV-CDiT para simular dinâmicas ambientais sincronizadas de áudio e vídeo, demonstrando melhorias significativas em tarefas de navegação contínua.

Jiahua Wang, Leqi Zheng, Jialong Wu, Yaoxin MaoWed, 11 Ma💻 cs

Head, posture, and full-body gestures in unscripted dyadic conversations in noise

Este estudo demonstra que, em conversas diádicas em ambientes ruidosos, os falantes aumentam a complexidade dos gestos e o volume da fala, enquanto os ouvintes intensificam seus sinais de feedback, indicando uma adaptação comportamental coordenada para manter a eficácia comunicativa.

Luboš Hládek, Bernhard U. SeeberWed, 11 Ma⚡ eess

Rethinking Discrete Speech Representation Tokens for Accent Generation

Este artigo apresenta a primeira investigação sistemática sobre como as informações de sotaque são codificadas em Tokens de Representação Discreta de Fala (DSRTs), propondo um novo quadro de avaliação que revela que a escolha das camadas é o fator mais crítico para reter essas informações, enquanto a supervisão de ASR as reduz significativamente e a redução ingênua do tamanho do código não consegue separá-las eficazmente de fonética e identidade do falante.

Jinzuomu Zhong, Yi Wang, Korin Richmond, Peter BellWed, 11 Ma⚡ eess

EDMFormer: Genre-Specific Self-Supervised Learning for Music Structure Segmentation

O artigo apresenta o EDMFormer, um modelo transformer que utiliza aprendizado auto-supervisionado e o novo conjunto de dados EDM-98 para superar as limitações dos métodos atuais na segmentação estrutural da música eletrônica, focando especificamente em características como energia, ritmo e timbre.

Sahal Sajeer, Krish Patel, Oscar Chung, Joel Song BaeWed, 11 Ma🤖 cs.AI

Fish Audio S2 Technical Report

O artigo apresenta o Fish Audio S2, um sistema de texto-para-fala de código aberto que oferece geração multi-falante e multi-turno com controle por instruções em linguagem natural, destacando-se por uma receita de treinamento escalável e um motor de inferência otimizado para streaming com baixa latência.

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei HanWed, 11 Ma🤖 cs.AI

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

O artigo apresenta o VoxEmo, um benchmark abrangente para avaliar Modelos de Linguagem de Áudio em Reconhecimento de Emoções, oferecendo um toolkit padronizado e protocolos de avaliação que capturam a ambiguidade inerente às emoções humanas e demonstram que, embora os modelos zero-shot tenham menor precisão em rótulos rígidos, eles se alinham melhor com as distribuições subjetivas humanas.

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

Universal Speech Content Factorization

O artigo propõe a Universal Speech Content Factorization (USCF), um método linear simples e invertível que extrai representações de fala de baixo posto preservando o conteúdo fonético enquanto suprime o timbre do locutor, permitindo conversão de voz zero-shot e treinamento eficiente de modelos de síntese de fala.

Henry Li Xinyuan, Zexin Cai, Lin Zhang, Leibny Paola García-Perera, Berrak Sisman, Sanjeev Khudanpur, Nicholas Andrews, Matthew WiesnerWed, 11 Ma⚡ eess

Gender Fairness in Audio Deepfake Detection: Performance and Disparity Analysis

Este artigo analisa a disparidade de gênero em modelos de detecção de deepfakes de áudio, demonstrando que métricas de justiça revelam desigualdades ocultas nas taxas de erro que as métricas tradicionais agregadas não capturam, destacando a necessidade de avaliações equitativas para sistemas mais robustos.

Aishwarya Fursule, Shruti Kshirsagar, Anderson R. AvilaWed, 11 Ma🤖 cs.AI

Trade-offs Between Capacity and Robustness in Neural Audio Codecs for Adversarially Robust Speech Recognition

O artigo demonstra que existe uma relação não monotônica entre a profundidade da quantização vetorial residual em codecs de áudio neural e a robustez adversarial, onde configurações intermediárias otimizam o equilíbrio entre preservar o conteúdo da fala e suprimir ruídos adversariais, superando assim as defesas de compressão tradicionais.

Jordan Prescott, Thanathai Lertpetchpun, Shrikanth NarayananWed, 11 Ma⚡ eess

The Costs of Reproducibility in Music Separation Research: a Replication of Band-Split RNN

Este artigo relata uma tentativa de replicação do modelo BSRNN para separação de fontes musicais, destacando os custos de tempo e energia decorrentes da falta de código completo, propondo uma versão otimizada com desempenho superior e liberando seus recursos para promover a reprodutibilidade e práticas mais transparentes na comunidade.

Paul Magron, Romain Serizel, Constance DouwesWed, 11 Ma🤖 cs.LG

How Contrastive Decoding Enhances Large Audio Language Models?

Este estudo avalia sistematicamente quatro estratégias de Decodificação Contrastiva em Modelos de Linguagem de Áudio de Grande Escala, identificando as mais eficazes e propondo uma estrutura de Matriz de Transição para explicar como essas técnicas corrigem erros específicos, como a negação falsa de áudio ou o palpite por incerteza, fornecendo diretrizes para selecionar a melhor estratégia com base no perfil de erros do modelo.

Tzu-Quan Lin, Wei-Ping Huang, Yi-Cheng Lin, Hung-yi LeeWed, 11 Ma💬 cs.CL

Paralinguistic Emotion-Aware Validation Timing Detection in Japanese Empathetic Spoken Dialogue

Este estudo propõe um modelo que detecta o momento adequado para validação emocional em diálogos falados em japonês utilizando apenas pistas paralinguísticas e emocionais, sem depender do contexto textual, demonstrando melhorias significativas em relação a métodos convencionais e abrindo caminho para interações humano-robô mais empáticas.

Zi Haur Pang, Yahui Fu, Yuan Gao, Tatsuya KawaharaWed, 11 Ma💻 cs