cs.SD artigos | Gist.Science

Training Dynamics-Aware Multi-Factor Curriculum Learning for Target Speaker Extraction

Este trabalho propõe uma estratégia de aprendizado curricular multi-fator para extração de falante-alvo, combinando o agendamento conjunto de múltiplos fatores de dificuldade com o framework TSE-Datamap, que utiliza a dinâmica de treinamento observada para guiar a seleção de dados e melhorar o desempenho em cenários complexos.

Yun Liu, Xuechen Liu, Xiaoxiao Miao + 1 more2026-03-06💻 cs

TW-Sound580K: A Regional Audio-Text Dataset with Verification-Guided Curation for Localized Audio-Language Modeling

O artigo apresenta o TW-Sound580K, um conjunto de dados de áudio e texto em taiwanês curado por meio de um protocolo de verificação e geração, que, ao ser utilizado para treinar o modelo Tai-LALM com uma estratégia de arbitragem dinâmica, resulta em uma melhoria significativa de desempenho na compreensão de fala regional.

Hao-Hui Xie, Ho-Lam Chung, Yi-Cheng Lin + 4 more2026-03-06💻 cs

PolyBench: A Benchmark for Compositional Reasoning in Polyphonic Audio

Este trabalho apresenta o PolyBench, um novo benchmark projetado para avaliar o raciocínio composicional em áudio polifônico, revelando que os atuais Modelos de Linguagem de Áudio (LALMs) sofrem degradação consistente de desempenho ao lidar com múltiplos eventos sonoros simultâneos.

Yuanjian Chen, Yang Xiao, Han Yin + 3 more2026-03-06💻 cs

Boosting ASR Robustness via Test-Time Reinforcement Learning with Audio-Text Semantic Rewards

O artigo apresenta o ASR-TRA, um novo framework de adaptação em tempo de teste baseado em aprendizado por reforço e intervenção causal que utiliza recompensas de alinhamento semântico entre áudio e texto para superar o viés de confirmação e melhorar a robustez de sistemas de reconhecimento de fala em condições desafiadoras.

Linghan Fang, Tianxin Xie, Li Liu2026-03-06🤖 cs.AI

SarcasmMiner: A Dual-Track Post-Training Framework for Robust Audio-Visual Sarcasm Reasoning

O artigo apresenta o SarcasmMiner, um framework de pós-treinamento baseado em aprendizado por reforço que utiliza uma estratégia de destilação dual e otimização GRPO para melhorar o raciocínio sobre sarcasmo multimodal, alcançando um F1 de 70,22% no conjunto de dados MUStARD++.

Zhu Li, Yongjian Chen, Huiyuan Lai + 3 more2026-03-06💬 cs.CL

WavSLM: Single-Stream Speech Language Modeling via WavLM Distillation

O artigo apresenta o WavSLM, um modelo de linguagem de fala de fluxo único que, ao quantizar e destilar representações do WavLM em um único código e otimizar a previsão autoregressiva de próximos blocos, consegue modelar conjuntamente informações semânticas e acústicas sem supervisão textual, alcançando desempenho competitivo com menos parâmetros e dados.

Luca Della Libera, Cem Subakan, Mirco Ravanelli2026-03-06🤖 cs.AI

SLICE: Speech Enhancement via Layer-wise Injection of Conditioning Embeddings

O artigo propõe o SLICE, um método de aprimoramento de fala que supera as limitações das abordagens anteriores ao injetar condicionamento de degradação em todas as camadas da rede difusora, em vez de apenas na entrada, resultando em melhor desempenho para corrupções compostas e generalização em cenários reais.

Seokhoon Moon, Kyudan Jung, Jaegul Choo2026-03-06💻 cs

Latent-Mark: An Audio Watermark Robust to Neural Resynthesis

O artigo apresenta o Latent-Mark, um novo framework de marcação d'água em áudio que supera a vulnerabilidade das técnicas existentes à ressíntese neural ao embutir a marca no espaço latente invariante dos codecs, garantindo robustez, imperceptibilidade e transferência zero-shot para codecs não vistos.

Yen-Shan Chen, Shih-Yu Lai, Ying-Jung Tsou + 5 more2026-03-06🤖 cs.AI

Hierarchical Decoding for Discrete Speech Synthesis with Multi-Resolution Spoof Detection

O artigo apresenta o MSpoof-TTS, um framework de inferência sem treinamento que aprimora a síntese de fala baseada em codecs discretos através de uma estratégia de decodificação hierárquica guiada por detecção de falsificação em múltiplas resoluções, eliminando a necessidade de reotimização ou ajuste de parâmetros do modelo.

Junchuan Zhao, Minh Duc Vu, Ye Wang2026-03-06💻 cs

Building Enterprise Realtime Voice Agents from Scratch: A Technical Tutorial

Este artigo apresenta um tutorial técnico que demonstra como construir agentes de voz em tempo real para empresas, provando que a chave para a baixa latência não reside em modelos nativos de fala-para-fala, mas sim na implementação de um pipeline em cascata com streaming (STT $\rightarrow$ LLM $\rightarrow$ TTS), alcançando tempos de resposta de áudio inferiores a um segundo.

Jielin Qiu, Zixiang Chen, Liangwei Yang + 11 more2026-03-06💻 cs

Knowing When to Quit: Probabilistic Early Exits for Speech Separation

Este artigo propõe uma arquitetura de rede neural com saída antecipada e um framework probabilístico de incerteza para separação e aprimoramento de fala, permitindo a economia dinâmica de recursos computacionais em dispositivos heterogêneos sem comprometer a qualidade da reconstrução do sinal.

Kenny Falkær Olsen, Mads Østergaard, Karl Ulbæk + 4 more2026-03-05🤖 cs.LG

MeanFlowSE: one-step generative speech enhancement via conditional mean flow

O artigo apresenta o MeanFlowSE, um modelo generativo condicional de aprimoramento de fala que utiliza um fluxo de média para permitir a geração em um único passo, eliminando a necessidade de solucionadores iterativos e reduzindo significativamente o custo computacional sem perda de qualidade.

Duojia Li, Shenghui Lu, Hongchen Pan + 3 more2026-03-05🤖 cs.AI

LadderSym: A Multimodal Interleaved Transformer for Music Practice Error Detection

Este artigo apresenta o LadderSym, um novo método baseado em Transformer que utiliza um codificador de dois fluxos com alinhamento interfluxo e uma estratégia multimodal com prompts simbólicos para detectar erros na prática musical com desempenho superior ao estado da arte.

Benjamin Shiue-Hal Chou, Purvish Jajal, Nick John Eliopoulos + 4 more2026-03-05🤖 cs.AI

Better audio representations are more brain-like: linking model-brain alignment with performance in downstream auditory tasks

Este estudo demonstra que modelos de áudio auto-supervisionados com alto desempenho em tarefas downstream apresentam representações internas mais alinhadas à atividade cerebral auditiva, sugerindo que a similaridade com o cérebro é um subproduto emergente da aprendizagem para reconstruir dados de áudio naturais.

Leonardo Pepino, Pablo Riera, Juan Kamienkowski + 1 more2026-03-05🤖 cs.LG

OASI: Objective-Aware Surrogate Initialization for Multi-Objective Bayesian Optimization in TinyML Keyword Spotting

O artigo propõe o OASI, um método de inicialização de surrogate para otimização bayesiana multiobjetivo que utiliza soluções geradas por simulated annealing para identificar rapidamente modelos de reconhecimento de voz viáveis em microcontroladores, superando métodos tradicionais em eficiência e robustez sob restrições rigorosas de memória.

Soumen Garai, Danilo Pau, Suman Samui2026-03-05🤖 cs.LG

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

Este artigo apresenta o CMI-RewardBench, um ecossistema abrangente que inclui um novo benchmark, conjuntos de dados de preferência e modelos de recompensa eficientes para avaliar e alinhar modelos de geração musical com instruções multimodais compostas, demonstrando forte correlação com julgamentos humanos e capacidade de escalabilidade durante a inferência.

Yinghao Ma, Haiwen Xia, Hewei Gao + 9 more2026-03-05🤖 cs.AI

Automated Measurement of Geniohyoid Muscle Thickness During Speech Using Deep Learning and Ultrasound

O estudo apresenta o SMMA, um quadro automatizado baseado em deep learning que mede com precisão a espessura do músculo geniohioide durante a fala, permitindo a análise em larga escala da dinâmica muscular e a distinção de padrões de ativação entre vogais e diferenças sexuais.

Alisher Myrgyyassov, Bruce Xiao Wang, Yu Sun + 4 more2026-03-05🤖 cs.LG

ACES: Accent Subspaces for Coupling, Explanations, and Stress-Testing in Automatic Speech Recognition

O artigo apresenta o ACES, uma auditoria centrada em representações que identifica subespaços de baixo dimensão onde as informações de sotaque se concentram e se entrelaçam com características críticas para o reconhecimento, demonstrando que a simples eliminação desses subespaços não reduz disparidades e que eles são mais eficazes como ferramentas de diagnóstico do que como alavancas diretas para equidade.

Swapnil Parekh2026-03-05🤖 cs.AI

Multi-Stage Music Source Restoration with BandSplit-RoFormer Separation and HiFi++ GAN

Este relatório técnico apresenta o sistema da equipe CP-JKU para o Desafio ICASSP 2025 de Restauração de Fontes Musicais, que combina um separador BandSplit-RoFormer treinado com currículo de três estágios para isolar oito stems e um restaurador HiFi++ GAN especializado por instrumento para recuperar a qualidade do áudio original.

Tobias Morocutti, Emmanouil Karystinaios, Jonathan Greif + 1 more2026-03-05🤖 cs.LG

FastWave: Optimized Diffusion Model for Audio Super-Resolution

O artigo apresenta o FastWave, um modelo de difusão otimizado para super-resolução de áudio que, com apenas 1,3 milhão de parâmetros e 50 GFLOPs, supera o NU-Wave 2 e oferece resultados comparáveis aos modelos mais avançados, ao mesmo tempo que reduz significativamente os custos computacionais de treinamento e inferência.

Nikita Kuznetsov, Maksim Kaledin2026-03-05🤖 cs.LG

← Anterior Próximo →