SEMamba++: A General Speech Restoration Framework Leveraging Global, Local, and Periodic Spectral Patterns

O artigo apresenta o SEMamba++, uma nova arquitetura de restauração de fala que supera os modelos existentes ao incorporar vieses indutivos específicos da fala, como o bloco de extração de características em frequência (Frequency GLP) e um processamento dual tempo-frequência multi-resolução, alcançando desempenho superior com eficiência computacional.

Yongjoon Lee, Jung-Woo ChoiFri, 13 Ma⚡ eess

Affect Decoding in Phonated and Silent Speech Production from Surface EMG

Este artigo apresenta um novo conjunto de dados e demonstra que a atividade muscular facial e cervical, captada por eletromiografia de superfície (sEMG), permite decodificar com precisão estados afetivos como a frustração tanto na fala vocalizada quanto na silenciosa, validando o potencial dessa tecnologia para interfaces de fala silenciosa conscientes das emoções.

Simon Pistrosch, Kleanthis Avramidis, Tiantian Feng, Jihwan Lee, Monica Gonzalez-Machorro, Shrikanth Narayanan, Björn W. SchullerFri, 13 Ma⚡ eess

Reconstruction of the Vocal Tract from Speech via Phonetic Representations Using MRI Data

Este estudo compara diferentes níveis de precisão na segmentação fonética para a reconstrução da geometria do trato vocal a partir do sinal de fala, demonstrando que a correção manual após o alinhamento temporal oferece o melhor desempenho entre as abordagens fonéticas, aproximando-se dos resultados da linha de base baseada em MFCCs.

Sofiane Azzouz, Pierre-André Vuissoz, Yves LaprieFri, 13 Ma⚡ eess

Silent Speech Interfaces in the Era of Large Language Models: A Comprehensive Taxonomy and Systematic Review

Esta revisão sistemática mapeia o cenário das Interfaces de Fala Silenciosa (SSI) na era dos Grandes Modelos de Linguagem, propondo uma taxonomia holística que integra modalidades de sensoriamento fisiológico com modelos generativos para superar limitações de ruído e privacidade, viabilizando interfaces "invisíveis" em wearables comerciais e estabelecendo diretrizes éticas para a segurança neural.

Kele Xu, Yifan Wang, Ming Feng, Qisheng Xu, Wuyang Chen, Yutao Dou, Cheng Yang, Huaimin WangFri, 13 Ma⚡ eess

Resurfacing Paralinguistic Awareness in Large Audio Language Models

Este artigo propõe o protocolo de ajuste fino aprimorado por paralinguagem (PE-FT), que utiliza análises de camadas e cabeças de classificação auxiliares para equipar Modelos de Linguagem de Áudio com a capacidade de perceber e responder a pistas paralinguísticas, superando estratégias tradicionais de ajuste em todas as camadas.

Hao Yang, Minghan Wang, Tongtong Wu, Lizhen Qu, Ehsan Shareghi, Gholamreza HaffariFri, 13 Ma⚡ eess

Dr. SHAP-AV: Decoding Relative Modality Contributions via Shapley Attribution in Audio-Visual Speech Recognition

O artigo apresenta o Dr. SHAP-AV, um framework baseado em valores de Shapley que revela como os modelos de Reconhecimento de Fala Audiovisual (AVSR) mantêm um viés persistente para o áudio mesmo sob ruído, enquanto a relação SNR é o fator dominante que dita o equilíbrio e a dinâmica das contribuições das modalidades durante a geração.

Umberto Cappellazzo, Stavros Petridis, Maja PanticFri, 13 Ma⚡ eess

A Large-Scale Probing Analysis of Speaker-Specific Attributes in Self-Supervised Speech Representations

Este estudo realiza uma análise de sondagem em larga escala de 11 modelos de aprendizado auto-supervisionado de fala, revelando que as camadas finais de modelos maiores recuperam inesperadamente a identidade do falante e que as representações intermediárias capturam a prosódia dinâmica melhor do que embeddings especializados, desafiando a visão de que as camadas finais contêm apenas conteúdo linguístico abstrato.

Aemon Yat Fei Chiu, Kei Ching Fung, Roger Tsz Yeung Li + 2 more2026-03-06💻 cs

SAM: A Mamba-2 State-Space Audio-Language Model

O artigo apresenta o SAM, um modelo de linguagem de áudio baseado em Mamba-2 que, ao integrar um codificador de áudio com um backbone SSM, alcança desempenho superior ou equivalente a modelos transformadores maiores com menos parâmetros, estabelecendo princípios práticos de design que destacam a importância do ajuste fino conjunto, de representações de tokens compactas e da supervisão para seguir instruções.

Taehan Lee, Jaehan Jung, Hyukjun Lee2026-03-06💻 cs

Conversational Speech Reveals Structural Robustness Failures in SpeechLLM Backbones

Este estudo revela que os modelos de linguagem fundamentais em sistemas de fala (SpeechLLMs) apresentam falhas de robustez estrutural ao processar conversas espontâneas, demonstrando que modelos de raciocínio tendem a suprimir indevidamente conteúdo fluente em favor da abstração semântica e que o ajuste fino, embora melhore resultados imediatos, prejudica a generalização.

Maria Teleki, Sai Janjur, Haoran Liu + 11 more2026-03-06💻 cs

Noise-to-Notes: Diffusion-based Generation and Refinement for Automatic Drum Transcription

Este trabalho apresenta o Noise-to-Notes (N2N), um novo quadro de trabalho baseado em modelos de difusão que redefine a transcrição automática de bateria como uma tarefa generativa condicional, utilizando uma perda Pseudo-Huber anelada e recursos de modelos fundamentais de música para alcançar desempenho superior e maior robustez em benchmarks existentes.

Michael Yeung, Keisuke Toyama, Toya Teramoto + 2 more2026-03-06💻 cs