TW-Sound580K: A Regional Audio-Text Dataset with Verification-Guided Curation for Localized Audio-Language Modeling

O artigo apresenta o TW-Sound580K, um conjunto de dados de áudio e texto em taiwanês curado por meio de um protocolo de verificação e geração, que, ao ser utilizado para treinar o modelo Tai-LALM com uma estratégia de arbitragem dinâmica, resulta em uma melhoria significativa de desempenho na compreensão de fala regional.

Hao-Hui Xie, Ho-Lam Chung, Yi-Cheng Lin + 4 more2026-03-06💻 cs

WavSLM: Single-Stream Speech Language Modeling via WavLM Distillation

O artigo apresenta o WavSLM, um modelo de linguagem de fala de fluxo único que, ao quantizar e destilar representações do WavLM em um único código e otimizar a previsão autoregressiva de próximos blocos, consegue modelar conjuntamente informações semânticas e acústicas sem supervisão textual, alcançando desempenho competitivo com menos parâmetros e dados.

Luca Della Libera, Cem Subakan, Mirco Ravanelli2026-03-06🤖 cs.AI

Building Enterprise Realtime Voice Agents from Scratch: A Technical Tutorial

Este artigo apresenta um tutorial técnico que demonstra como construir agentes de voz em tempo real para empresas, provando que a chave para a baixa latência não reside em modelos nativos de fala-para-fala, mas sim na implementação de um pipeline em cascata com streaming (STT \rightarrow LLM \rightarrow TTS), alcançando tempos de resposta de áudio inferiores a um segundo.

Jielin Qiu, Zixiang Chen, Liangwei Yang + 11 more2026-03-06💻 cs

Better audio representations are more brain-like: linking model-brain alignment with performance in downstream auditory tasks

Este estudo demonstra que modelos de áudio auto-supervisionados com alto desempenho em tarefas downstream apresentam representações internas mais alinhadas à atividade cerebral auditiva, sugerindo que a similaridade com o cérebro é um subproduto emergente da aprendizagem para reconstruir dados de áudio naturais.

Leonardo Pepino, Pablo Riera, Juan Kamienkowski + 1 more2026-03-05🤖 cs.LG

OASI: Objective-Aware Surrogate Initialization for Multi-Objective Bayesian Optimization in TinyML Keyword Spotting

O artigo propõe o OASI, um método de inicialização de surrogate para otimização bayesiana multiobjetivo que utiliza soluções geradas por simulated annealing para identificar rapidamente modelos de reconhecimento de voz viáveis em microcontroladores, superando métodos tradicionais em eficiência e robustez sob restrições rigorosas de memória.

Soumen Garai, Danilo Pau, Suman Samui2026-03-05🤖 cs.LG

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

Este artigo apresenta o CMI-RewardBench, um ecossistema abrangente que inclui um novo benchmark, conjuntos de dados de preferência e modelos de recompensa eficientes para avaliar e alinhar modelos de geração musical com instruções multimodais compostas, demonstrando forte correlação com julgamentos humanos e capacidade de escalabilidade durante a inferência.

Yinghao Ma, Haiwen Xia, Hewei Gao + 9 more2026-03-05🤖 cs.AI

ACES: Accent Subspaces for Coupling, Explanations, and Stress-Testing in Automatic Speech Recognition

O artigo apresenta o ACES, uma auditoria centrada em representações que identifica subespaços de baixo dimensão onde as informações de sotaque se concentram e se entrelaçam com características críticas para o reconhecimento, demonstrando que a simples eliminação desses subespaços não reduz disparidades e que eles são mais eficazes como ferramentas de diagnóstico do que como alavancas diretas para equidade.

Swapnil Parekh2026-03-05🤖 cs.AI

Multi-Stage Music Source Restoration with BandSplit-RoFormer Separation and HiFi++ GAN

Este relatório técnico apresenta o sistema da equipe CP-JKU para o Desafio ICASSP 2025 de Restauração de Fontes Musicais, que combina um separador BandSplit-RoFormer treinado com currículo de três estágios para isolar oito stems e um restaurador HiFi++ GAN especializado por instrumento para recuperar a qualidade do áudio original.

Tobias Morocutti, Emmanouil Karystinaios, Jonathan Greif + 1 more2026-03-05🤖 cs.LG