eess.AS artigos | Gist.Science

Textless and Non-Parallel Speech-to-Speech Emotion Style Transfer

Este artigo apresenta o S2S-ZEST, um novo framework de transferência de estilo emocional fala-para-fala que, operando sem texto e sem dados paralelos, consegue transferir características emocionais de uma referência para uma fala fonte preservando a identidade do falante e o conteúdo semântico, demonstrando desempenho superior a métodos anteriores e aplicabilidade em tarefas de reconhecimento de emoções.

Soumya Dutta, Avni Jain, Sriram GanapathyWed, 11 Ma⚡ eess

Fast-Converging Distributed Signal Estimation in Topology-Unconstrained Wireless Acoustic Sensor Networks

Este artigo propõe o algoritmo TI-DANSE+, uma melhoria do método TI-DANSE para redes de sensores acústicos sem fio, que acelera a convergência para a solução de estimação centralizada ao utilizar somas parciais de sinais dos vizinhos e uma estratégia de poda de árvores, mantendo a eficiência em topologias dinâmicas e reduzindo o uso de largura de banda.

Paul Didier, Toon van Waterschoot, Simon Doclo, Jörg Bitzer, Marc MoonenWed, 11 Ma⚡ eess

Human-CLAP: Human-perception-based contrastive language-audio pretraining

O artigo apresenta o Human-CLAP, um modelo de pré-treinamento contrastivo áudio-texto treinado com base em avaliações subjetivas humanas que supera o CLAP tradicional ao aumentar significativamente a correlação entre as pontuações automáticas e a percepção humana.

Taisei Takano, Yuki Okamoto, Yusuke Kanamori, Yuki Saito, Ryotaro Nagase, Hiroshi SaruwatariWed, 11 Ma⚡ eess

Benchmarking Humans and Machines on Complex Multilingual Speech Understanding Tasks

Este estudo propõe um paradigma sistemático para comparar humanos e máquinas em tarefas de compreensão de fala multilíngue, revelando que, embora os modelos de linguagem baseados em fala superem os humanos em condições limpas, eles ainda lutam para atender seletivamente em cenários com múltiplos falantes, ao passo que os humanos demonstram uma atenção significativamente superior em sua língua materna.

Sai Samrat Kankanala, Ram Chandra, Sriram GanapathyWed, 11 Ma⚡ eess

Evaluating pretrained speech embedding systems for dysarthria detection across heterogenous datasets

Este artigo apresenta uma avaliação abrangente de 17 sistemas de incorporação de fala pré-treinados para a detecção de disartria em seis conjuntos de dados heterogêneos, revelando que os resultados variam significativamente dependendo do conjunto utilizado e que a generalização entre diferentes bases de dados é limitada, o que levanta questões sobre a validade clínica de modelos treinados e testados no mesmo conjunto de dados.

Lovisa Wihlborg, Jemima Goodall, David Wheatley, Jacob J. Webber, Johnny Tam, Christine Weaver, Suvankar Pal, Siddharthan Chandran, Sohan Seth, Oliver Watts, Cassia Valentini-BotinhaoWed, 11 Ma⚡ eess

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

O artigo apresenta o VSSFlow, um framework unificado baseado em fluxo que, através de um mecanismo de agregação de condições disjuntas e aprendizado conjunto, supera os métodos específicos de domínio ao gerar simultaneamente som e fala a partir de vídeos.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua SongWed, 11 Ma🤖 cs.AI

VoiceBridge: General Speech Restoration with One-step Latent Bridge Models

O artigo apresenta o VoiceBridge, um modelo de ponte latente de um único passo que utiliza um autoencoder variacional preservador de energia e um prior neural conjunto para realizar a restauração geral de fala de alta qualidade (48 kHz) a partir de diversas distorções em uma única etapa, sem necessidade de destilação.

Chi Zhang, Kaiwen Zheng, Zehua Chen, Jun ZhuWed, 11 Ma🤖 cs.AI

Latent Speech-Text Transformer

O artigo apresenta o Latent Speech-Text Transformer (LST), um modelo que agrupa tokens de fala em patches latentes para alinhar a granularidade com o texto, resultando em maior eficiência computacional e melhor desempenho tanto na fala quanto no texto em diversas tarefas e escalas.

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc LeWed, 11 Ma🤖 cs.AI

Noise-Conditioned Mixture-of-Experts Framework for Robust Speaker Verification

Este artigo apresenta um framework robusto de verificação de locutor baseado em uma mistura de especialistas condicionada ao ruído, que utiliza roteamento inteligente, especialização universal e aprendizado curricular para decompor o espaço de características em subespaços especializados, superando consistentemente os métodos convencionais em condições diversas de ruído.

Bin Gu, Haitao Zhao, Jibo WeiWed, 11 Ma⚡ eess

Modeling strategies for speech enhancement in the latent space of a neural audio codec

Este artigo investiga estratégias de aprimoramento de fala no espaço latente de codecs de áudio neural, demonstrando que a previsão de representações contínuas com modelos não autoregressivos e o ajuste fino do codificador oferecem o melhor desempenho, embora com compensações entre qualidade, inteligibilidade e eficiência.

Sofiene Kammoun, Xavier Alameda-Pineda, Simon LeglaiveWed, 11 Ma⚡ eess

WhisperVC: Decoupled Cross-Domain Alignment and Speech Generation for Low-Resource Whisper-to-Normal Conversion

O artigo apresenta o WhisperVC, um framework de três estágios que decopla o alinhamento entre domínios da geração de fala para converter eficientemente sussurros em voz normal com poucos dados, alcançando alta qualidade e similaridade de voz enquanto oferece aplicações em privacidade e reabilitação.

Dong Liu, Juan Liu, Wei Ju, Yao Tian, Ming LiWed, 11 Ma⚡ eess

Multiplexing Neural Audio Watermarks

Este artigo apresenta um paradigma de multiplexação de marcas d'água em áudio, que combina técnicas paralelas e sequenciais (incluindo a abordagem PA-TFM e o modelo MaskNet) para superar as limitações de esquemas únicos e oferecer proteção robusta contra distorções sofisticadas e ataques de reconstrução neural.

Zheqi Yuan, Yucheng Huang, Guangzhi Sun, Zengrui Jin, Chao ZhangWed, 11 Ma⚡ eess

Head, posture, and full-body gestures in unscripted dyadic conversations in noise

Este estudo demonstra que, em conversas diádicas em ambientes ruidosos, os falantes aumentam a complexidade dos gestos e o volume da fala, enquanto os ouvintes intensificam seus sinais de feedback, indicando uma adaptação comportamental coordenada para manter a eficácia comunicativa.

Luboš Hládek, Bernhard U. SeeberWed, 11 Ma⚡ eess

Rethinking Discrete Speech Representation Tokens for Accent Generation

Este artigo apresenta a primeira investigação sistemática sobre como as informações de sotaque são codificadas em Tokens de Representação Discreta de Fala (DSRTs), propondo um novo quadro de avaliação que revela que a escolha das camadas é o fator mais crítico para reter essas informações, enquanto a supervisão de ASR as reduz significativamente e a redução ingênua do tamanho do código não consegue separá-las eficazmente de fonética e identidade do falante.

Jinzuomu Zhong, Yi Wang, Korin Richmond, Peter BellWed, 11 Ma⚡ eess

Bottleneck Transformer-Based Approach for Improved Automatic STOI Score Prediction

Este estudo apresenta uma abordagem inovadora baseada em Transformers com gargalo para prever a métrica STOI de forma não intrusiva, superando os métodos atuais ao combinar blocos convolucionais e atenção auto-referencial para alcançar maior correlação e menor erro quadrático médio em cenários conhecidos e desconhecidos.

Amartyaveer, Murali Kadambi, Chandra Mohan Sharma, Anupam Mondal, Prasanta Kumar GhoshWed, 11 Ma🤖 cs.LG

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

O artigo apresenta o VoxEmo, um benchmark abrangente para avaliar Modelos de Linguagem de Áudio em Reconhecimento de Emoções, oferecendo um toolkit padronizado e protocolos de avaliação que capturam a ambiguidade inerente às emoções humanas e demonstram que, embora os modelos zero-shot tenham menor precisão em rótulos rígidos, eles se alinham melhor com as distribuições subjetivas humanas.

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

Can You Hear, Localize, and Segment Continually? An Exemplar-Free Continual Learning Benchmark for Audio-Visual Segmentation

Este artigo apresenta o primeiro benchmark de aprendizado contínuo sem exemplares para Segmentação Áudio-Visual, introduzindo o modelo ATLAS com ancoragem de baixo rank para mitigar o esquecimento catastrófico e permitir que sistemas aprendam continuamente a localizar e segmentar objetos sonoros em ambientes dinâmicos.

Siddeshwar Raghavan, Gautham Vinod, Bruce Coburn, Fengqing ZhuWed, 11 Ma⚡ eess

Universal Speech Content Factorization

O artigo propõe a Universal Speech Content Factorization (USCF), um método linear simples e invertível que extrai representações de fala de baixo posto preservando o conteúdo fonético enquanto suprime o timbre do locutor, permitindo conversão de voz zero-shot e treinamento eficiente de modelos de síntese de fala.

Henry Li Xinyuan, Zexin Cai, Lin Zhang, Leibny Paola García-Perera, Berrak Sisman, Sanjeev Khudanpur, Nicholas Andrews, Matthew WiesnerWed, 11 Ma⚡ eess

Trade-offs Between Capacity and Robustness in Neural Audio Codecs for Adversarially Robust Speech Recognition

O artigo demonstra que existe uma relação não monotônica entre a profundidade da quantização vetorial residual em codecs de áudio neural e a robustez adversarial, onde configurações intermediárias otimizam o equilíbrio entre preservar o conteúdo da fala e suprimir ruídos adversariais, superando assim as defesas de compressão tradicionais.

Jordan Prescott, Thanathai Lertpetchpun, Shrikanth NarayananWed, 11 Ma⚡ eess

Emotion-Aware Prefix: Towards Explicit Emotion Control in Voice Conversion Models

O artigo propõe o "Emotion-Aware Prefix", um método que utiliza um controle explícito de emoção em uma arquitetura de conversão de voz em dois estágios, dobrando a precisão de conversão emocional de 42,40% para 85,50% enquanto preserva a identidade do falante, a qualidade da fala e a integridade linguística.

Haoyuan Yang, Mu Yang, Jiamin Xie, Szu-Jui Chen, John H. L. HansenWed, 11 Ma⚡ eess