eess.AS artigos | Gist.Science

SEMamba++: A General Speech Restoration Framework Leveraging Global, Local, and Periodic Spectral Patterns

O artigo apresenta o SEMamba++, uma nova arquitetura de restauração de fala que supera os modelos existentes ao incorporar vieses indutivos específicos da fala, como o bloco de extração de características em frequência (Frequency GLP) e um processamento dual tempo-frequência multi-resolução, alcançando desempenho superior com eficiência computacional.

Yongjoon Lee, Jung-Woo ChoiFri, 13 Ma⚡ eess

RAF: Relativistic Adversarial Feedback For Universal Speech Synthesis

O artigo propõe o RAF (Feedback Adversarial Relativístico), um novo objetivo de treinamento para vocoders GAN que utiliza modelos de aprendizado auto-supervisionado de fala e emparelhamento relativístico para melhorar a fidelidade e a generalização, permitindo que o BigVGAN-base alcançe qualidade perceptual superior com apenas 12% dos parâmetros do modelo LSGAN.

Yongjoon Lee, Jung-Woo ChoiFri, 13 Ma⚡ eess

Affect Decoding in Phonated and Silent Speech Production from Surface EMG

Este artigo apresenta um novo conjunto de dados e demonstra que a atividade muscular facial e cervical, captada por eletromiografia de superfície (sEMG), permite decodificar com precisão estados afetivos como a frustração tanto na fala vocalizada quanto na silenciosa, validando o potencial dessa tecnologia para interfaces de fala silenciosa conscientes das emoções.

Simon Pistrosch, Kleanthis Avramidis, Tiantian Feng, Jihwan Lee, Monica Gonzalez-Machorro, Shrikanth Narayanan, Björn W. SchullerFri, 13 Ma⚡ eess

ReDimNet2: Scaling Speaker Verification via Time-Pooled Dimension Reshaping

O artigo apresenta o ReDimNet2, uma arquitetura aprimorada para verificação de locutor que introduz um mecanismo de agrupamento temporal no caminho de processamento 1D, permitindo uma escala mais agressiva da dimensão de canais com menor custo computacional e estabelecendo um novo estado da arte em relação ao custo versus precisão nos benchmarks VoxCeleb1.

Ivan Yakovlev, Anton OkhotnikovFri, 13 Ma⚡ eess

Acoustic-to-Articulatory Inversion of Clean Speech Using an MRI-Trained Model

Este estudo demonstra que a inversão acústico-articulatoria de fala limpa, utilizando um modelo treinado com dados de ressonância magnética, alcança desempenho comparável ao obtido com dados de MRI, validando a viabilidade de reconstruir formas do trato vocal sem a necessidade de aquisição de imagem ou remoção de ruído.

Sofiane Azzouz, Pierre-André Vuissoz, Yves LaprieFri, 13 Ma⚡ eess

Reconstruction of the Vocal Tract from Speech via Phonetic Representations Using MRI Data

Este estudo compara diferentes níveis de precisão na segmentação fonética para a reconstrução da geometria do trato vocal a partir do sinal de fala, demonstrando que a correção manual após o alinhamento temporal oferece o melhor desempenho entre as abordagens fonéticas, aproximando-se dos resultados da linha de base baseada em MFCCs.

Sofiane Azzouz, Pierre-André Vuissoz, Yves LaprieFri, 13 Ma⚡ eess

Silent Speech Interfaces in the Era of Large Language Models: A Comprehensive Taxonomy and Systematic Review

Esta revisão sistemática mapeia o cenário das Interfaces de Fala Silenciosa (SSI) na era dos Grandes Modelos de Linguagem, propondo uma taxonomia holística que integra modalidades de sensoriamento fisiológico com modelos generativos para superar limitações de ruído e privacidade, viabilizando interfaces "invisíveis" em wearables comerciais e estabelecendo diretrizes éticas para a segurança neural.

Kele Xu, Yifan Wang, Ming Feng, Qisheng Xu, Wuyang Chen, Yutao Dou, Cheng Yang, Huaimin WangFri, 13 Ma⚡ eess

Resurfacing Paralinguistic Awareness in Large Audio Language Models

Este artigo propõe o protocolo de ajuste fino aprimorado por paralinguagem (PE-FT), que utiliza análises de camadas e cabeças de classificação auxiliares para equipar Modelos de Linguagem de Áudio com a capacidade de perceber e responder a pistas paralinguísticas, superando estratégias tradicionais de ajuste em todas as camadas.

Hao Yang, Minghan Wang, Tongtong Wu, Lizhen Qu, Ehsan Shareghi, Gholamreza HaffariFri, 13 Ma⚡ eess

Dr. SHAP-AV: Decoding Relative Modality Contributions via Shapley Attribution in Audio-Visual Speech Recognition

O artigo apresenta o Dr. SHAP-AV, um framework baseado em valores de Shapley que revela como os modelos de Reconhecimento de Fala Audiovisual (AVSR) mantêm um viés persistente para o áudio mesmo sob ruído, enquanto a relação SNR é o fator dominante que dita o equilíbrio e a dinâmica das contribuições das modalidades durante a geração.

Umberto Cappellazzo, Stavros Petridis, Maja PanticFri, 13 Ma⚡ eess

Controllable Dance Generation with Style-Guided Motion Diffusion

O artigo apresenta o SGMD, um modelo de difusão de movimento guiado por estilo que integra características musicais e prompts de estilo para gerar sequências de dança realistas e controláveis, superando as limitações de alinhamento estilístico e flexibilidade existentes em abordagens anteriores.

Hongsong Wang, Ying Zhu, Xin Geng + 1 more2026-03-11⚡ eess

ExSampling: a system for the real-time ensemble performance of field-recorded environmental sounds

O artigo apresenta o ExSampling, um sistema integrado que utiliza aprendizado profundo para mapear automaticamente gravações de campo em faixas do Ableton Live, permitindo a performance musical em tempo real e a interação entre gravadores, compositores e performers.

Atsuya Kobayashi, Reo Anzai, Nao Tokui2026-03-10⚡ eess

Relationship between objective and subjective perceptual measures of speech in individuals with head and neck cancer

Este estudo demonstra que, em pacientes com câncer de cabeça e pescoço, medidas objetivas de inteligibilidade e velocidade da fala correspondem às avaliações subjetivas, sugerindo que uma única medida de inteligibilidade pode ser suficiente para o monitoramento clínico desses pacientes.

Bence Mark Halpern, Thomas Tienkamp, Teja Rebernik + 4 more2026-03-10⚡ eess

A Large-Scale Probing Analysis of Speaker-Specific Attributes in Self-Supervised Speech Representations

Este estudo realiza uma análise de sondagem em larga escala de 11 modelos de aprendizado auto-supervisionado de fala, revelando que as camadas finais de modelos maiores recuperam inesperadamente a identidade do falante e que as representações intermediárias capturam a prosódia dinâmica melhor do que embeddings especializados, desafiando a visão de que as camadas finais contêm apenas conteúdo linguístico abstrato.

Aemon Yat Fei Chiu, Kei Ching Fung, Roger Tsz Yeung Li + 2 more2026-03-06💻 cs

TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition

Este artigo propõe a arquitetura TSPC, um modelo de reconhecimento de fala de código alternado vietnamita-inglês baseado em fonemas que, através de uma abordagem de duas etapas, supera os métodos existentes com menor taxa de erro de palavras e menor consumo de recursos computacionais.

Tran Nguyen Anh, Truong Dinh Dung, Vo Van Nam + 1 more2026-03-06💻 cs

BabyHuBERT: Multilingual Self-Supervised Learning for Segmenting Speakers in Child-Centered Long-Form Recordings

O artigo apresenta o BabyHuBERT, um modelo de aprendizado auto-supervisionado multilíngue treinado em 13.000 horas de gravações infantis que supera os modelos existentes na segmentação de falantes em gravações longas e naturais de crianças, demonstrando eficácia particular em línguas sub-representadas.

Théo Charlot, Tarek Kunze, Maxime Poli + 3 more2026-03-06💻 cs

SAM: A Mamba-2 State-Space Audio-Language Model

O artigo apresenta o SAM, um modelo de linguagem de áudio baseado em Mamba-2 que, ao integrar um codificador de áudio com um backbone SSM, alcança desempenho superior ou equivalente a modelos transformadores maiores com menos parâmetros, estabelecendo princípios práticos de design que destacam a importância do ajuste fino conjunto, de representações de tokens compactas e da supervisão para seguir instruções.

Taehan Lee, Jaehan Jung, Hyukjun Lee2026-03-06💻 cs

Conversational Speech Reveals Structural Robustness Failures in SpeechLLM Backbones

Este estudo revela que os modelos de linguagem fundamentais em sistemas de fala (SpeechLLMs) apresentam falhas de robustez estrutural ao processar conversas espontâneas, demonstrando que modelos de raciocínio tendem a suprimir indevidamente conteúdo fluente em favor da abstração semântica e que o ajuste fino, embora melhore resultados imediatos, prejudica a generalização.

Maria Teleki, Sai Janjur, Haoran Liu + 11 more2026-03-06💻 cs

Noise-to-Notes: Diffusion-based Generation and Refinement for Automatic Drum Transcription

Este trabalho apresenta o Noise-to-Notes (N2N), um novo quadro de trabalho baseado em modelos de difusão que redefine a transcrição automática de bateria como uma tarefa generativa condicional, utilizando uma perda Pseudo-Huber anelada e recursos de modelos fundamentais de música para alcançar desempenho superior e maior robustez em benchmarks existentes.

Michael Yeung, Keisuke Toyama, Toya Teramoto + 2 more2026-03-06💻 cs

Schrödinger Bridge Mamba for One-Step Speech Enhancement

O artigo apresenta o Schrödinger Bridge Mamba (SBM), um modelo inovador que combina o paradigma de Ponte de Schrödinger com a arquitetura Mamba para realizar aprimoramento de fala de alta qualidade em uma única etapa de inferência, superando métodos existentes em tarefas de remoção de ruído e reverberação com eficiência em tempo real.

Jing Yang, Sirui Wang, Chao Wu + 2 more2026-03-06💻 cs

Multi-Loss Learning for Speech Emotion Recognition with Energy-Adaptive Mixup and Frame-Level Attention

Este artigo propõe um framework de aprendizado multi-perda que integra mixup adaptativo à energia e atenção em nível de quadro para superar desafios como complexidade emocional e dados escassos, alcançando desempenho de ponta em quatro conjuntos de dados de reconhecimento de emoções na fala.

Cong Wang, Yizhong Geng, Yuhua Wen + 7 more2026-03-06💻 cs

← Anterior Próximo →