cs.SD artigos | Gist.Science

[b]=[d]-[t]+[p]: Self-supervised Speech Models Discover Phonological Vector Arithmetic

Este artigo demonstra que modelos de fala auto-supervisionados codificam informações fonéticas através de vetores composicionais e interpretáveis que permitem realizar aritmética vetorial fonológica, onde operações lineares como adição e escalonamento capturam com precisão a realização acústica contínua de características como a sonoridade.

Kwanghee Choi, Eunjung Yeo, Cheol Jun Cho, David Harwath, David R. MortensenFri, 13 Ma⚡ eess

V2A-DPO: Omni-Preference Optimization for Video-to-Audio Generation

O artigo apresenta o V2A-DPO, um novo framework de Otimização Direta de Preferências (DPO) adaptado para modelos de geração de áudio a partir de vídeo baseados em fluxo, que integra um sistema de pontuação de preferência humana (AudioScore), um pipeline automatizado para geração de dados de preferência e uma estratégia de aprendizado de currículo, resultando em desempenho superior e estado da arte em benchmarks como o VGGSound.

Nolan Chan, Timmy Gang, Yongqian Wang, Yuzhe Liang, Dingdong WangFri, 13 Ma⚡ eess

Multimodal Self-Attention Network with Temporal Alignment for Audio-Visual Emotion Recognition

Este artigo propõe um framework baseado em Transformer para reconhecimento de emoções áudio-visuais que utiliza atenção multimodal, incorporando Embeddings de Posição Rotativa Alinhados Temporalmente (TaRoPE) e uma função de perda de Correspondência Cross-Temporal (CTM) para resolver desalinhamentos de taxa de quadros e melhorar a fusão de características entre modalidades.

Inyong Koo, yeeun Seong, Minseok Son, Jaehyuk Jang, Changick KimFri, 13 Ma⚡ eess

Uni-ASR: Unified LLM-Based Architecture for Non-Streaming and Streaming Automatic Speech Recognition

O artigo apresenta o Uni-ASR, uma arquitetura unificada baseada em Grandes Modelos de Linguagem (LLMs) que integra reconhecimento de fala em modo não streaming e streaming através de um paradigma de treinamento conjunto e estratégias de decodificação, permitindo transições suaves entre os modos e alta precisão com baixa latência.

Yinfeng Xia, Jian Tang, Junfeng Hou, Gaopeng Xu, Haitao YaoFri, 13 Ma💬 cs.CL

Huntington Disease Automatic Speech Recognition with Biomarker Supervision

Este artigo apresenta um estudo sistemático de reconhecimento automático de fala para a doença de Huntington, demonstrando que a adaptação específica da doença e o uso de supervisão auxiliar baseada em biomarcadores reduzem significativamente a taxa de erro, ao mesmo tempo em que revela padrões de erro distintos dependentes da gravidade da condição.

Charles L. Wang, Cady Chen, Ziwei Gong, Julia HirschbergFri, 13 Ma🤖 cs.LG

Can LLMs Help Localize Fake Words in Partially Fake Speech?

Este artigo investiga o uso de um modelo de linguagem treinado em fala para localizar palavras falsas em discursos parcialmente editados, descobrindo que o modelo depende excessivamente de padrões de edição específicos do conjunto de dados, o que levanta desafios para a generalização em cenários não vistos.

Lin Zhang, Thomas Thebaud, Zexin Cai, Sanjeev Khudanpur, Daniel Povey, Leibny Paola García-Perera, Matthew Wiesner, Nicholas AndrewsFri, 13 Ma⚡ eess

Cough activity detection for automatic tuberculosis screening

O artigo propõe o uso de um modelo pré-treinado XLS-R, otimizado com apenas suas três primeiras camadas para eficiência computacional, que supera outras arquiteturas na detecção automática de segmentos de tosse em gravações de pacientes com suspeita de tuberculose, viabilizando assim ferramentas de triagem escaláveis para dispositivos móveis.

Joshua Jansen van Vüren, Devendra Singh Parihar, Daphne Naidoo, Kimsey Zajac, Willy Ssengooba, Grant Theron, Thomas NieslerFri, 13 Ma⚡ eess

Fair-Gate: Fairness-Aware Interpretable Risk Gating for Sex-Fair Voice Biometrics

O artigo apresenta o Fair-Gate, um framework interpretável de controle de risco que aborda o aprendizado de atalhos demográficos e o emaranhamento de características para reduzir as disparidades de desempenho relacionadas ao sexo em sistemas de biometria vocal, melhorando o equilíbrio entre utilidade e justiça.

Yangyang Qu, Todisco Massimiliano, Galdi Chiara, Evans NicholasFri, 13 Ma⚡ eess

Continued Pretraining for Low-Resource Swahili ASR: Achieving State-of-the-Art Performance with Minimal Labeled Data

Este artigo demonstra que o uso de pré-treinamento contínuo com dados não rotulados e pseudo-rótulos para adaptar o modelo wav2vec2-bert-2.0 permite alcançar um desempenho state-of-the-art em reconhecimento de fala em swahili, reduzindo a taxa de erro de palavras em 82% com apenas 20.000 amostras rotuladas.

Hillary Mutisya, John MuganeFri, 13 Ma⚡ eess

Stage-Adaptive Reliability Modeling for Continuous Valence-Arousal Estimation

O artigo apresenta o SAGE, um framework de modelagem de confiabilidade adaptativa a estágios que melhora a estimativa contínua de valência e excitação ao calibrar dinamicamente a confiança dos sinais de áudio e vídeo conforme a fase da interação, superando assim as limitações de abordagens existentes em ambientes do mundo real.

Yubeen Lee, Sangeun Lee, Junyeop Cha, Eunil ParkFri, 13 Ma🤖 cs.AI

AnimeScore: A Preference-Based Dataset and Framework for Evaluating Anime-Like Speech Style

O artigo apresenta o AnimeScore, um framework baseado em preferências que utiliza classificações em pares e modelos de aprendizado auto-supervisionado para avaliar objetivamente o estilo de voz "anime", superando as limitações das métricas tradicionais e fornecendo um sinal de recompensa para a otimização de modelos de fala generativa.

Joonyong Park, Jerry LiFri, 13 Ma⚡ eess

Toward Complex-Valued Neural Networks for Waveform Generation

O artigo apresenta o ComVo, um vocoder neural complexo que utiliza aritmética nativa de números complexos, quantização de fase e um esquema de computação por matrizes para gerar áudio de alta qualidade com maior eficiência de treinamento em comparação aos métodos reais existentes.

Hyung-Seok Oh, Deok-Hyeon Cho, Seung-Bin Kim, Seong-Whan LeeFri, 13 Ma🤖 cs.AI

SEMamba++: A General Speech Restoration Framework Leveraging Global, Local, and Periodic Spectral Patterns

O artigo apresenta o SEMamba++, uma nova arquitetura de restauração de fala que supera os modelos existentes ao incorporar vieses indutivos específicos da fala, como o bloco de extração de características em frequência (Frequency GLP) e um processamento dual tempo-frequência multi-resolução, alcançando desempenho superior com eficiência computacional.

Yongjoon Lee, Jung-Woo ChoiFri, 13 Ma⚡ eess

RAF: Relativistic Adversarial Feedback For Universal Speech Synthesis

O artigo propõe o RAF (Feedback Adversarial Relativístico), um novo objetivo de treinamento para vocoders GAN que utiliza modelos de aprendizado auto-supervisionado de fala e emparelhamento relativístico para melhorar a fidelidade e a generalização, permitindo que o BigVGAN-base alcançe qualidade perceptual superior com apenas 12% dos parâmetros do modelo LSGAN.

Yongjoon Lee, Jung-Woo ChoiFri, 13 Ma⚡ eess

Causal Prosody Mediation for Text-to-Speech:Counterfactual Training of Duration, Pitch, and Energy in FastSpeech2

Este artigo propõe um novo framework de mediação causal para síntese de fala (TTS) que, ao integrar condicionamento de emoção e objetivos de treinamento contrafactual na arquitetura FastSpeech2, consegue desentrelaçar o prosódia emocional do conteúdo linguístico, resultando em uma síntese de fala mais expressiva, controlável e com maior precisão na transferência de emoções entre falantes.

Suvendu Sekhar MohantyFri, 13 Ma🤖 cs.AI

Affect Decoding in Phonated and Silent Speech Production from Surface EMG

Este artigo apresenta um novo conjunto de dados e demonstra que a atividade muscular facial e cervical, captada por eletromiografia de superfície (sEMG), permite decodificar com precisão estados afetivos como a frustração tanto na fala vocalizada quanto na silenciosa, validando o potencial dessa tecnologia para interfaces de fala silenciosa conscientes das emoções.

Simon Pistrosch, Kleanthis Avramidis, Tiantian Feng, Jihwan Lee, Monica Gonzalez-Machorro, Shrikanth Narayanan, Björn W. SchullerFri, 13 Ma⚡ eess

Resurfacing Paralinguistic Awareness in Large Audio Language Models

Este artigo propõe o protocolo de ajuste fino aprimorado por paralinguagem (PE-FT), que utiliza análises de camadas e cabeças de classificação auxiliares para equipar Modelos de Linguagem de Áudio com a capacidade de perceber e responder a pistas paralinguísticas, superando estratégias tradicionais de ajuste em todas as camadas.

Hao Yang, Minghan Wang, Tongtong Wu, Lizhen Qu, Ehsan Shareghi, Gholamreza HaffariFri, 13 Ma⚡ eess

Dr. SHAP-AV: Decoding Relative Modality Contributions via Shapley Attribution in Audio-Visual Speech Recognition

O artigo apresenta o Dr. SHAP-AV, um framework baseado em valores de Shapley que revela como os modelos de Reconhecimento de Fala Audiovisual (AVSR) mantêm um viés persistente para o áudio mesmo sob ruído, enquanto a relação SNR é o fator dominante que dita o equilíbrio e a dinâmica das contribuições das modalidades durante a geração.

Umberto Cappellazzo, Stavros Petridis, Maja PanticFri, 13 Ma⚡ eess

Controllable Dance Generation with Style-Guided Motion Diffusion

O artigo apresenta o SGMD, um modelo de difusão de movimento guiado por estilo que integra características musicais e prompts de estilo para gerar sequências de dança realistas e controláveis, superando as limitações de alinhamento estilístico e flexibilidade existentes em abordagens anteriores.

Hongsong Wang, Ying Zhu, Xin Geng + 1 more2026-03-11⚡ eess

ExSampling: a system for the real-time ensemble performance of field-recorded environmental sounds

O artigo apresenta o ExSampling, um sistema integrado que utiliza aprendizado profundo para mapear automaticamente gravações de campo em faixas do Ableton Live, permitindo a performance musical em tempo real e a interação entre gravadores, compositores e performers.

Atsuya Kobayashi, Reo Anzai, Nao Tokui2026-03-10⚡ eess

← Anterior Próximo →