Benchmarking Speech Systems for Frontline Health Conversations: The DISPLACE-M Challenge

O artigo descreve o desafio DISPLACE-M, um benchmark para sistemas de conversação em saúde que apresenta um conjunto de dados médico com diálogos reais entre trabalhadores de saúde e pacientes, além de estabelecer linhas de base e métricas de avaliação para tarefas como diarização de falantes, reconhecimento de fala, identificação de tópicos e sumarização de diálogos.

Dhanya E, Ankita Meena, Manas Nanivadekar + 11 more2026-03-06⚡ eess

The PARLO Dementia Corpus: A German Multi-Center Resource for Alzheimer's Disease

Este artigo apresenta o Corpus PARLO de Demência, o primeiro recurso público e validado clinicamente em alemão, composto por gravações de fala e metadados detalhados de pacientes com doença de Alzheimer e controles saudáveis, visando facilitar a detecção não invasiva e escalável de comprometimento cognitivo por meio de análise de fala.

Franziska Braun, Christopher Witzl, Florian Hönig + 3 more2026-03-06⚡ eess

Temporal Pooling Strategies for Training-Free Anomalous Sound Detection with Self-Supervised Audio Embeddings

Este artigo apresenta uma avaliação sistemática de estratégias de agrupamento temporal para detecção de sons anômalos sem treinamento, propondo o agrupamento por desvio relativo (RDP) e uma estratégia híbrida que superam consistentemente o agrupamento por média e alcançam o estado da arte em cinco conjuntos de dados de referência.

Kevin Wilkinghoff, Sarthak Yadav, Zheng-Hua Tan2026-03-06💻 cs

An Approach to Simultaneous Acquisition of Real-Time MRI Video, EEG, and Surface EMG for Articulatory, Brain, and Muscle Activity During Speech Production

Este artigo apresenta a primeira aquisição simultânea de vídeo de ressonância magnética em tempo real, EEG e EMG de superfície para capturar movimentos articulares, atividade muscular e sinais cerebrais durante a produção da fala, introduzindo um pipeline de supressão de artefatos para superar os desafios técnicos dessa abordagem multimodal.

Jihwan Lee, Parsa Razmara, Kevin Huang + 16 more2026-03-06🤖 cs.AI

Voice Timbre Attribute Detection with Compact and Interpretable Training-Free Acoustic Parameters

Este trabalho propõe um conjunto compacto de parâmetros acústicos interpretáveis e livres de treinamento para a detecção de atributos de timbre vocal, demonstrando desempenho competitivo em relação a modelos supervisionados e auto-supervisionados complexos, ao mesmo tempo que oferece eficiência computacional e clareza sobre as características físicas da percepção humana.

Aemon Yat Fei Chiu, Yujia Xiao, Qiuqiang Kong + 1 more2026-03-06⚡ eess

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

Este artigo apresenta o CMI-RewardBench, um ecossistema abrangente que inclui um novo benchmark, conjuntos de dados de preferência e modelos de recompensa eficientes para avaliar e alinhar modelos de geração musical com instruções multimodais compostas, demonstrando forte correlação com julgamentos humanos e capacidade de escalabilidade durante a inferência.

Yinghao Ma, Haiwen Xia, Hewei Gao + 9 more2026-03-05🤖 cs.AI

ACES: Accent Subspaces for Coupling, Explanations, and Stress-Testing in Automatic Speech Recognition

O artigo apresenta o ACES, uma auditoria centrada em representações que identifica subespaços de baixo dimensão onde as informações de sotaque se concentram e se entrelaçam com características críticas para o reconhecimento, demonstrando que a simples eliminação desses subespaços não reduz disparidades e que eles são mais eficazes como ferramentas de diagnóstico do que como alavancas diretas para equidade.

Swapnil Parekh2026-03-05🤖 cs.AI

Multi-Stage Music Source Restoration with BandSplit-RoFormer Separation and HiFi++ GAN

Este relatório técnico apresenta o sistema da equipe CP-JKU para o Desafio ICASSP 2025 de Restauração de Fontes Musicais, que combina um separador BandSplit-RoFormer treinado com currículo de três estágios para isolar oito stems e um restaurador HiFi++ GAN especializado por instrumento para recuperar a qualidade do áudio original.

Tobias Morocutti, Emmanouil Karystinaios, Jonathan Greif + 1 more2026-03-05🤖 cs.LG