A Large-Scale Probing Analysis of Speaker-Specific Attributes in Self-Supervised Speech Representations

Este estudo realiza uma análise de sondagem em larga escala de 11 modelos de aprendizado auto-supervisionado de fala, revelando que as camadas finais de modelos maiores recuperam inesperadamente a identidade do falante e que as representações intermediárias capturam a prosódia dinâmica melhor do que embeddings especializados, desafiando a visão de que as camadas finais contêm apenas conteúdo linguístico abstrato.

Aemon Yat Fei Chiu, Kei Ching Fung, Roger Tsz Yeung Li + 2 more2026-03-06💻 cs

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

O InterActHuman é um novo framework que supera as limitações dos métodos existentes ao permitir a animação de vídeo de alta qualidade com múltiplos conceitos e interações humanas, garantindo o controle preciso de cada identidade através do alinhamento espacial e temporal de condições multimodais, como áudio e imagens de referência, a regiões específicas do vídeo.

Zhenzhi Wang, Jiaqi Yang, Jianwen Jiang + 7 more2026-03-06💻 cs

SAM: A Mamba-2 State-Space Audio-Language Model

O artigo apresenta o SAM, um modelo de linguagem de áudio baseado em Mamba-2 que, ao integrar um codificador de áudio com um backbone SSM, alcança desempenho superior ou equivalente a modelos transformadores maiores com menos parâmetros, estabelecendo princípios práticos de design que destacam a importância do ajuste fino conjunto, de representações de tokens compactas e da supervisão para seguir instruções.

Taehan Lee, Jaehan Jung, Hyukjun Lee2026-03-06💻 cs

Noise-to-Notes: Diffusion-based Generation and Refinement for Automatic Drum Transcription

Este trabalho apresenta o Noise-to-Notes (N2N), um novo quadro de trabalho baseado em modelos de difusão que redefine a transcrição automática de bateria como uma tarefa generativa condicional, utilizando uma perda Pseudo-Huber anelada e recursos de modelos fundamentais de música para alcançar desempenho superior e maior robustez em benchmarks existentes.

Michael Yeung, Keisuke Toyama, Toya Teramoto + 2 more2026-03-06💻 cs

MultiAPI Spoof: A Multi-API Dataset and Local-Attention Network for Speech Anti-spoofing Detection

Este artigo apresenta o conjunto de dados MultiAPI Spoof, que inclui 230 horas de fala sintética gerada por 30 APIs distintas para preencher a lacuna entre benchmarks existentes e cenários reais, juntamente com a rede Nes2Net-LA, que alcança desempenho superior na detecção de falsificação e na atribuição da fonte de áudio sintético.

Xueping Zhang, Zhenshan Zhang, Yechen Wang + 3 more2026-03-06💻 cs

Temporal Pooling Strategies for Training-Free Anomalous Sound Detection with Self-Supervised Audio Embeddings

Este artigo apresenta uma avaliação sistemática de estratégias de agrupamento temporal para detecção de sons anômalos sem treinamento, propondo o agrupamento por desvio relativo (RDP) e uma estratégia híbrida que superam consistentemente o agrupamento por média e alcançam o estado da arte em cinco conjuntos de dados de referência.

Kevin Wilkinghoff, Sarthak Yadav, Zheng-Hua Tan2026-03-06💻 cs

WhisperAlign: Word-Boundary-Aware ASR and WhisperX-Anchored Pyannote Diarization for Long-Form Bengali Speech

Este artigo apresenta a solução "WhisperAlign" para o DL Sprint 4.0, que combina uma estratégia de fragmentação de áudio baseada em WhisperX para reconhecimento de fala e um modelo de diarização de fala ajustado especificamente para o dataset da competição, resultando em reduções significativas nas taxas de erro para transcrição e identificação de falantes em longas gravações de áudio em bengali.

Aurchi Chowdhury, Rubaiyat -E-Zaman, Sk. Ashrafuzzaman Nafees2026-03-06💻 cs