Efficient Emotion and Speaker Adaptation in LLM-Based TTS via Characteristic-Specific Partial Fine-Tuning

O artigo propõe a estratégia CSP-FT, um método de ajuste fino parcial específico para características que, ao selecionar dinamicamente apenas duas camadas críticas de um modelo TTS baseado em LLM, alcança fidelidade e inteligibilidade comparáveis ao ajuste completo com apenas 8% dos parâmetros atualizados, acelerando o treinamento em duas vezes e mitigando o esquecimento catastrófico.

Tianrui Wang, Meng Ge, Cheng Gong, Chunyu Qiang, Haoyu Wang, Zikang Huang, Yu Jiang, Ye Ni, Yuheng Lu, Xiaobao Wang, Engsiong Chng, Xie Chen, Longbiao Wang, Jianwu DangMon, 09 Ma💻 cs

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

Este trabalho propõe um framework end-to-end para reconhecimento de fala audiovisual robusto que elimina a necessidade de máscaras de ruído explícitas, utilizando um módulo de fusão baseado em Conformer para refinar implicitamente as características de áudio com auxílio visual, preservando assim a integridade semântica da fala e superando métodos baseados em máscaras em condições ruidosas.

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei YinMon, 09 Ma🤖 cs.AI

LMU-Based Sequential Learning and Posterior Ensemble Fusion for Cross-Domain Infant Cry Classification

Este artigo propõe um framework acústico compacto que combina um codificador CNN multirramo com uma Unidade de Memória Legendre (LMU) aprimorada e uma fusão de ensemble de posterior calibrada para melhorar a generalização entre domínios na classificação de choro de bebês, superando desafios como sinais não estacionários, anotações limitadas e deslocamentos de domínio.

Niloofar Jazaeri, Hilmi R. Dajani, Marco Janeczek, Martin BouchardMon, 09 Ma🤖 cs.LG

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

O artigo apresenta o Omni-C, um único codificador denso baseado em Transformer que comprime modalidades heterogêneas (imagem, áudio e texto) em representações compartilhadas competitivas através de pré-treinamento contrastivo, eliminando a necessidade de arquiteturas complexas de Mixture-of-Experts e reduzindo significativamente o uso de memória para inferência eficiente.

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de GusmãoMon, 09 Ma🤖 cs.AI

Which Data Matter? Embedding-Based Data Selection for Speech Recognition

Este artigo demonstra que a seleção estratégica de dados baseada em embeddings (que capturam atributos do falante, conteúdo fonético e significado semântico) permite treinar modelos de reconhecimento de fala especializados com apenas 5% dos dados, alcançando reduções relativas de até 36,8% na taxa de erro de palavras em domínios-alvo em comparação com o treinamento no conjunto completo.

Zakaria Aldeneh, Skyler Seto, Maureen de Seyssel, Jie Chi, Zijin Gu, Takuya Higuchi, Jee-weon Jung, Shinji Watanabe, David Grangier, Barry-John Theobald, Tatiana LikhomanenkoMon, 09 Ma💻 cs

Do Compact SSL Backbones Matter for Audio Deepfake Detection? A Controlled Study with RAPTOR

Este estudo apresenta o RAPTOR, uma análise controlada que demonstra que o pré-treinamento multilíngue do HuBERT, e não a escala do modelo, é o principal fator para a robustez e calibração confiável na detecção de deepfakes de áudio, permitindo que modelos compactos de 100M superem sistemas comerciais maiores.

Ajinkya Kulkarni, Sandipana Dowerah, Atharva Kulkarni, Tanel Alumäe, Mathew Magimai DossMon, 09 Ma🤖 cs.AI

Continual Adaptation for Pacific Indigenous Speech Recognition

Este estudo empírico investiga estratégias de adaptação de modelos de fala para línguas indígenas do Pacífico, demonstrando que, embora a adaptação de baixo rank (LoRA) funcione inicialmente, ela sofre de esquecimento catastrófico durante a aprendizagem sequencial devido à escassez de dados e ao desvio representacional, destacando a necessidade urgente de métodos robustos para essas línguas sub-representadas.

Yang Xiao, Aso Mahmudi, Nick Thieberger, Eliathamby Ambikairajah, Eun-Jung Holden, Ting DangMon, 09 Ma💬 cs.CL

Prosodic Boundary-Aware Streaming Generation for LLM-Based TTS with Streaming Text Input

Este artigo propõe uma estratégia de pós-treinamento que torna modelos de TTS baseados em LLMs conscientes de fronteiras prosódicas, permitindo a geração de áudio em streaming com texto incremental e resolvendo problemas de prosódia não natural e colapso em textos longos através de um mecanismo de janela deslizante e parada antecipada.

Changsong Liu, Tianrui Wang, Ye Ni, Yizhou Peng, Eng Siong ChngMon, 09 Ma🤖 cs.AI

RAMoEA-QA: Hierarchical Specialization for Robust Respiratory Audio Question Answering

O artigo apresenta o RAMoEA-QA, um modelo generativo hierárquico que utiliza especialização condicional em duas etapas (combinando um Mixture-of-Experts para áudio e um Mixture-of-Adapters para linguagem) para superar as limitações de sistemas monolíticos existentes, oferecendo uma resposta robusta e generalizável a perguntas sobre áudio respiratório em diversos cenários clínicos.

Gaia A. Bertolino, Yuwei Zhang, Tong Xia, Domenico Talia, Cecilia MascoloMon, 09 Ma🤖 cs.AI

Text-only adaptation in LLM-based ASR through text denoising

Este artigo apresenta um método leve de adaptação apenas com texto para sistemas de reconhecimento automático de fala baseados em grandes modelos de linguagem, que formula o processo como uma tarefa de remoção de ruído de texto para adaptar o modelo a novos domínios sem quebrar o alinhamento entre as modalidades de fala e texto, alcançando melhorias significativas em relação aos métodos existentes.

Andrés Carofilis, Sergio Burdisso, Esaú Villatoro-Tello, Shashi Kumar, Kadri Hacioglu, Srikanth Madikeri, Pradeep Rangappa, Manjunath K E, Petr Motlicek, Shankar Venkatesan, Andreas StolckeFri, 13 Ma⚡ eess