[b]=[d]-[t]+[p]: Self-supervised Speech Models Discover Phonological Vector Arithmetic

Este artigo demonstra que modelos de fala auto-supervisionados codificam informações fonéticas através de vetores composicionais e interpretáveis que permitem realizar aritmética vetorial fonológica, onde operações lineares como adição e escalonamento capturam com precisão a realização acústica contínua de características como a sonoridade.

Kwanghee Choi, Eunjung Yeo, Cheol Jun Cho, David Harwath, David R. MortensenFri, 13 Ma⚡ eess

V2A-DPO: Omni-Preference Optimization for Video-to-Audio Generation

O artigo apresenta o V2A-DPO, um novo framework de Otimização Direta de Preferências (DPO) adaptado para modelos de geração de áudio a partir de vídeo baseados em fluxo, que integra um sistema de pontuação de preferência humana (AudioScore), um pipeline automatizado para geração de dados de preferência e uma estratégia de aprendizado de currículo, resultando em desempenho superior e estado da arte em benchmarks como o VGGSound.

Nolan Chan, Timmy Gang, Yongqian Wang, Yuzhe Liang, Dingdong WangFri, 13 Ma⚡ eess

Multimodal Self-Attention Network with Temporal Alignment for Audio-Visual Emotion Recognition

Este artigo propõe um framework baseado em Transformer para reconhecimento de emoções áudio-visuais que utiliza atenção multimodal, incorporando Embeddings de Posição Rotativa Alinhados Temporalmente (TaRoPE) e uma função de perda de Correspondência Cross-Temporal (CTM) para resolver desalinhamentos de taxa de quadros e melhorar a fusão de características entre modalidades.

Inyong Koo, yeeun Seong, Minseok Son, Jaehyuk Jang, Changick KimFri, 13 Ma⚡ eess

Uni-ASR: Unified LLM-Based Architecture for Non-Streaming and Streaming Automatic Speech Recognition

O artigo apresenta o Uni-ASR, uma arquitetura unificada baseada em Grandes Modelos de Linguagem (LLMs) que integra reconhecimento de fala em modo não streaming e streaming através de um paradigma de treinamento conjunto e estratégias de decodificação, permitindo transições suaves entre os modos e alta precisão com baixa latência.

Yinfeng Xia, Jian Tang, Junfeng Hou, Gaopeng Xu, Haitao YaoFri, 13 Ma💬 cs.CL

Huntington Disease Automatic Speech Recognition with Biomarker Supervision

Este artigo apresenta um estudo sistemático de reconhecimento automático de fala para a doença de Huntington, demonstrando que a adaptação específica da doença e o uso de supervisão auxiliar baseada em biomarcadores reduzem significativamente a taxa de erro, ao mesmo tempo em que revela padrões de erro distintos dependentes da gravidade da condição.

Charles L. Wang, Cady Chen, Ziwei Gong, Julia HirschbergFri, 13 Ma🤖 cs.LG

Can LLMs Help Localize Fake Words in Partially Fake Speech?

Este artigo investiga o uso de um modelo de linguagem treinado em fala para localizar palavras falsas em discursos parcialmente editados, descobrindo que o modelo depende excessivamente de padrões de edição específicos do conjunto de dados, o que levanta desafios para a generalização em cenários não vistos.

Lin Zhang, Thomas Thebaud, Zexin Cai, Sanjeev Khudanpur, Daniel Povey, Leibny Paola García-Perera, Matthew Wiesner, Nicholas AndrewsFri, 13 Ma⚡ eess

Cough activity detection for automatic tuberculosis screening

O artigo propõe o uso de um modelo pré-treinado XLS-R, otimizado com apenas suas três primeiras camadas para eficiência computacional, que supera outras arquiteturas na detecção automática de segmentos de tosse em gravações de pacientes com suspeita de tuberculose, viabilizando assim ferramentas de triagem escaláveis para dispositivos móveis.

Joshua Jansen van Vüren, Devendra Singh Parihar, Daphne Naidoo, Kimsey Zajac, Willy Ssengooba, Grant Theron, Thomas NieslerFri, 13 Ma⚡ eess

SEMamba++: A General Speech Restoration Framework Leveraging Global, Local, and Periodic Spectral Patterns

O artigo apresenta o SEMamba++, uma nova arquitetura de restauração de fala que supera os modelos existentes ao incorporar vieses indutivos específicos da fala, como o bloco de extração de características em frequência (Frequency GLP) e um processamento dual tempo-frequência multi-resolução, alcançando desempenho superior com eficiência computacional.

Yongjoon Lee, Jung-Woo ChoiFri, 13 Ma⚡ eess

Causal Prosody Mediation for Text-to-Speech:Counterfactual Training of Duration, Pitch, and Energy in FastSpeech2

Este artigo propõe um novo framework de mediação causal para síntese de fala (TTS) que, ao integrar condicionamento de emoção e objetivos de treinamento contrafactual na arquitetura FastSpeech2, consegue desentrelaçar o prosódia emocional do conteúdo linguístico, resultando em uma síntese de fala mais expressiva, controlável e com maior precisão na transferência de emoções entre falantes.

Suvendu Sekhar MohantyFri, 13 Ma🤖 cs.AI

Affect Decoding in Phonated and Silent Speech Production from Surface EMG

Este artigo apresenta um novo conjunto de dados e demonstra que a atividade muscular facial e cervical, captada por eletromiografia de superfície (sEMG), permite decodificar com precisão estados afetivos como a frustração tanto na fala vocalizada quanto na silenciosa, validando o potencial dessa tecnologia para interfaces de fala silenciosa conscientes das emoções.

Simon Pistrosch, Kleanthis Avramidis, Tiantian Feng, Jihwan Lee, Monica Gonzalez-Machorro, Shrikanth Narayanan, Björn W. SchullerFri, 13 Ma⚡ eess

Resurfacing Paralinguistic Awareness in Large Audio Language Models

Este artigo propõe o protocolo de ajuste fino aprimorado por paralinguagem (PE-FT), que utiliza análises de camadas e cabeças de classificação auxiliares para equipar Modelos de Linguagem de Áudio com a capacidade de perceber e responder a pistas paralinguísticas, superando estratégias tradicionais de ajuste em todas as camadas.

Hao Yang, Minghan Wang, Tongtong Wu, Lizhen Qu, Ehsan Shareghi, Gholamreza HaffariFri, 13 Ma⚡ eess

Dr. SHAP-AV: Decoding Relative Modality Contributions via Shapley Attribution in Audio-Visual Speech Recognition

O artigo apresenta o Dr. SHAP-AV, um framework baseado em valores de Shapley que revela como os modelos de Reconhecimento de Fala Audiovisual (AVSR) mantêm um viés persistente para o áudio mesmo sob ruído, enquanto a relação SNR é o fator dominante que dita o equilíbrio e a dinâmica das contribuições das modalidades durante a geração.

Umberto Cappellazzo, Stavros Petridis, Maja PanticFri, 13 Ma⚡ eess