eess.AS artigos | Gist.Science

Robust Audio-Visual Target Speaker Extraction with Emotion-Aware Multiple Enrollment Fusion

Este artigo investiga a robustez da fusão de múltiplas inscrições na Extração de Falante Alvo Audiovisual (AVTSE), demonstrando que treinar com altas taxas de ausência de modalidades e combinar uma imagem facial única com características labiais permite manter um desempenho estável mesmo diante de falhas intermitentes de sinais em cenários do mundo real.

Zhan Jin, Bang Zeng, Peijun Yang, Jiarong Du, Wei Ju, Yao Tian, Juan Liu, Ming LiThu, 12 Ma⚡ eess

Trade-offs between structural richness and communication efficiency in music network representations

Este estudo demonstra que a escolha da codificação de características em representações de redes musicais cria um compromisso fundamental entre a riqueza estrutural e a eficiência comunicativa, onde representações simples geram maior incerteza descritiva mas menor erro de modelo, enquanto representações ricas preservam distinções finas mas aumentam o erro ao expandir o espaço de estados.

Lluc Bono Rosselló, Robert Jankowski, Hugues Bersini, Marián Boguñá, M. Ángeles SerranoThu, 12 Ma🧬 q-bio

HyWA: Hypernetwork Weight Adapting Personalized Voice Activity Detection

O artigo propõe o HyWA, um método que utiliza uma hiper-rede para gerar pesos personalizados em camadas específicas de um modelo de detecção de atividade vocal, superando as técnicas existentes ao melhorar a precisão média e facilitar a implantação através do reuso da mesma arquitetura.

Mahsa Ghazvini Nejad, Hamed Jafarzadeh Asl, Amin Edraki, Mohammadreza Sadeghi, Masoud Asgharian, Yuanhao Yu, Vahid Partovi NiaThu, 12 Ma⚡ eess

Multi-View Based Audio Visual Target Speaker Extraction

Este artigo propõe o framework Multi-View Tensor Fusion (MVTF), que utiliza correlações entre múltiplas perspectivas visuais durante o treinamento para melhorar significativamente a extração de fala de um orador-alvo, oferecendo tanto ganhos de desempenho em cenários de visão única quanto maior robustez em cenários de múltiplas visões.

Peijun Yang, Zhan Jin, Juan Liu, Ming LiThu, 12 Ma⚡ eess

Calibration-Reasoning Framework for Descriptive Speech Quality Assessment

Este artigo apresenta um novo framework de pós-treinamento que combina calibração e aprendizado por reforço (GRPO) para adaptar modelos de linguagem de áudio grandes, permitindo a avaliação explicativa da qualidade de fala através da análise multidimensional de dimensões perceptivas, localização temporal de artefatos e previsão aprimorada de MOS.

Elizaveta Kostenok, Mathieu Salzmann, Milos CernakThu, 12 Ma⚡ eess

nlm: Real-Time Non-linear Modal Synthesis in Max

O artigo apresenta o \texttt{nlm}, um conjunto de externals em C++ para o ambiente Max que viabiliza a síntese modal não linear em tempo real para cordas, membranas e placas, oferecendo controle interativo de parâmetros físicos e saída multicanal para facilitar a exploração criativa por compositores e designers sonoros.

Rodrigo Diaz, Rodrigo Constanzo, Mark SandlerThu, 12 Ma⚡ eess

Speech Codec Probing from Semantic and Phonetic Perspectives

Este artigo analisa sistematicamente tokenizadores de fala, revelando que eles capturam predominantemente informações fonéticas em vez de semânticas lexicais, o que destaca a necessidade de novos métodos de tokenização para melhorar o desempenho dos modelos de linguagem multimodal.

Xuan Shi, Chang Zeng, Tiantian Feng, Shih-Heng Wang, Jianbo Ma, Shrikanth NarayananThu, 12 Ma⚡ eess

FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System

O artigo apresenta o FireRedASR2S, um sistema de reconhecimento automático de fala (ASR) industrial de ponta e tudo-em-um que integra módulos de detecção de atividade vocal, identificação de língua falada e previsão de pontuação, alcançando desempenho superior ao estado da arte em diversos benchmarks para mandarim, dialetos chineses, inglês e código misto.

Kaituo Xu, Yan Jia, Kai Huang, Junjie Chen, Wenpeng Li, Kun Liu, Feng-Long Xie, Xu Tang, Yao HuThu, 12 Ma⚡ eess

G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition

O artigo apresenta o G-STAR, um sistema de ponta a ponta que integra um módulo de rastreamento de falantes temporalmente consciente com um modelo de linguagem de fala (Speech-LLM) para realizar reconhecimento de fala atribuído a falantes com carimbo de tempo em conversas longas e sobrepostas, garantindo consistência de identidade em nível de reunião.

Jing Peng, Ziyi Chen, Haoyu Li, Yucheng Wang, Duo Ma, Mengtian Li, Yunfan Du, Dezhu Xu, Kai Yu, Shuai WangThu, 12 Ma⚡ eess

Geo-ATBench: A Benchmark for Geospatial Audio Tagging with Geospatial Semantic Context

Este artigo apresenta o Geo-ATBench, um novo benchmark e tarefa de rotulagem de áudio geoespacial que integra contexto semântico geográfico para melhorar a identificação de eventos sonoros, juntamente com o framework GeoFusion-AT que demonstra que a fusão desses dados com áudio supera abordagens baseadas apenas no som.

Yuanbo Hou, Yanru Wu, Qiaoqiao Ren, Shengchen Li, Stephen Roberts, Dick BotteldoorenThu, 12 Ma⚡ eess

MOS-Bias: From Hidden Gender Bias to Gender-Aware Speech Quality Assessment

Este estudo revela um viés de gênero sistemático nas avaliações de qualidade de fala (MOS), onde ouvintes masculinos atribuem notas consistentemente mais altas que as femininas, e propõe um modelo consciente de gênero que aprende padrões de pontuação específicos para cada grupo, superando as limitações dos modelos tradicionais e promovendo uma avaliação mais equitativa.

Wenze Ren, Yi-Cheng Lin, Wen-Chin Huang, Erica Cooper, Ryandhimas E. Zezario, Hsin-Min Wang, Hung-yi Lee, Yu TsaoThu, 12 Ma⚡ eess

Efficient Emotion and Speaker Adaptation in LLM-Based TTS via Characteristic-Specific Partial Fine-Tuning

O artigo propõe a estratégia CSP-FT, um método de ajuste fino parcial específico para características que, ao selecionar dinamicamente apenas duas camadas críticas de um modelo TTS baseado em LLM, alcança fidelidade e inteligibilidade comparáveis ao ajuste completo com apenas 8% dos parâmetros atualizados, acelerando o treinamento em duas vezes e mitigando o esquecimento catastrófico.

Tianrui Wang, Meng Ge, Cheng Gong, Chunyu Qiang, Haoyu Wang, Zikang Huang, Yu Jiang, Ye Ni, Yuheng Lu, Xiaobao Wang, Engsiong Chng, Xie Chen, Longbiao Wang, Jianwu DangMon, 09 Ma💻 cs

The trajectoRIR Database: Room Acoustic Recordings Along a Trajectory of Moving Microphones

Este artigo apresenta o banco de dados trajectoRIR, uma coleção abrangente de gravações acústicas estáticas e em movimento ao longo de uma trajetória controlada em sala, capturada por múltiplas configurações de microfones robóticos para apoiar tarefas como localização de fontes sonoras, reconstrução de campo sonoro e auralização.

Stefano Damiano, Kathleen MacWilliam, Valerio Lorenzoni, Thomas Dietzen, Toon van WaterschootMon, 09 Ma⚡ eess

ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-aware Speech-to-Speech Interaction

O artigo apresenta o ParaS2S, um novo framework de aprendizado por reforço que otimiza modelos de fala-para-fala para responder adequadamente a pistas paralinguísticas, apoiado pelo benchmark ParaS2SBench e por um avaliador automático escalável que supera os métodos tradicionais de ajuste fino supervisionado.

Shu-wen Yang, Ming Tu, Andy T. Liu, Xinghua Qu, Hung-yi Lee, Lu Lu, Yuxuan Wang, Yonghui WuMon, 09 Ma⚡ eess

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

Este trabalho propõe um framework end-to-end para reconhecimento de fala audiovisual robusto que elimina a necessidade de máscaras de ruído explícitas, utilizando um módulo de fusão baseado em Conformer para refinar implicitamente as características de áudio com auxílio visual, preservando assim a integridade semântica da fala e superando métodos baseados em máscaras em condições ruidosas.

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei YinMon, 09 Ma🤖 cs.AI

The Cascade Equivalence Hypothesis: When Do Speech LLMs Behave Like ASR $\rightarrow$ LLM Pipelines?

Este artigo demonstra que os Modelos de Linguagem de Fala (Speech LLMs) atuais comportam-se essencialmente como cascatas dispendiosas de ASR seguidas por LLMs, onde as representações textuais são causalmente necessárias e os benefícios em condições limpas podem inverter-se em cenários ruidosos.

Jayadev BillaMon, 09 Ma🤖 cs.AI

LMU-Based Sequential Learning and Posterior Ensemble Fusion for Cross-Domain Infant Cry Classification

Este artigo propõe um framework acústico compacto que combina um codificador CNN multirramo com uma Unidade de Memória Legendre (LMU) aprimorada e uma fusão de ensemble de posterior calibrada para melhorar a generalização entre domínios na classificação de choro de bebês, superando desafios como sinais não estacionários, anotações limitadas e deslocamentos de domínio.

Niloofar Jazaeri, Hilmi R. Dajani, Marco Janeczek, Martin BouchardMon, 09 Ma🤖 cs.LG

Whisper-RIR-Mega: A Paired Clean-Reverberant Speech Benchmark for ASR Robustness to Room Acoustics

O artigo apresenta o Whisper-RIR-Mega, um novo conjunto de dados de benchmark que emparelha falas limpas do LibriSpeech com suas versões reverberadas usando respostas ao impulso reais, visando avaliar e melhorar a robustez de modelos de reconhecimento automático de fala (ASR) às variações acústicas de ambientes.

Mandip GoswamiMon, 09 Ma🤖 cs.AI

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

O artigo apresenta o Omni-C, um único codificador denso baseado em Transformer que comprime modalidades heterogêneas (imagem, áudio e texto) em representações compartilhadas competitivas através de pré-treinamento contrastivo, eliminando a necessidade de arquiteturas complexas de Mixture-of-Experts e reduzindo significativamente o uso de memória para inferência eficiente.

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de GusmãoMon, 09 Ma🤖 cs.AI

Activation Steering for Accent Adaptation in Speech Foundation Models

Este artigo propõe um método de adaptação de sotaque para modelos fundamentais de fala que identifica e controla diretamente a variabilidade de sotaque no espaço de ativações, demonstrando que as informações de sotaque se concentram em uma faixa estreita das camadas intermediárias e permitindo a redução do erro de reconhecimento sem necessidade de ajuste de parâmetros.

Jinuo Sun, Yang Xiao, Sung Kyun Chung, Qiuchi Hu, Gongping Huang, Eun-Jung Holden, Ting DangMon, 09 Ma⚡ eess

← Anterior Próximo →

eess.AS