Training-Free Multi-Step Inference for Target Speaker Extraction

이 논문은 사전 학습된 모델을 고정시킨 채 혼합 음성과 이전 추정치를 보간하여 생성된 후보들 중 최적의 것을 반복적으로 선택하는 훈련 없는 다단계 추론 방식을 제안하고, 침습적 및 비침습적 지표를 결합한 최적화를 통해 실제 배포에 적합한 목표 화자 추출 성능을 달성함을 보여줍니다.

Zhenghai You, Ying Shi, Lantian Li, Dong WangThu, 12 Ma💻 cs

Efficient Emotion and Speaker Adaptation in LLM-Based TTS via Characteristic-Specific Partial Fine-Tuning

이 논문은 LLM 기반 TTS 모델의 적응 과정에서 발생하는 과적합과 학습 속도 저하 문제를 해결하기 위해, 감정과 화자 정보의 기여도를 동적으로 분석하여 전체 파라미터의 약 8% 만을 선택적으로 미세 조정하는 'CSP-FT' 전략을 제안하며, 이를 통해 전 파라미터 미세 조정과同等한 성능을 유지하면서 학습 속도를 2 배 가속화하고 화자 및 발음 정확도를 향상시킨다고 설명합니다.

Tianrui Wang, Meng Ge, Cheng Gong, Chunyu Qiang, Haoyu Wang, Zikang Huang, Yu Jiang, Ye Ni, Yuheng Lu, Xiaobao Wang, Engsiong Chng, Xie Chen, Longbiao Wang, Jianwu DangMon, 09 Ma💻 cs

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

이 논문은 노이즈가 많은 오디오 신호에서 의미 있는 정보를 손실하지 않으면서도 비강화적 마스크 생성 없이 비디오 정보를 활용해 오디오 특징을 정제하는 Conformer 기반의 새로운 오디오 - 비주얼 음성 인식 (AVSR) 프레임워크를 제안하여, 기존 마스크 기반 방법보다 LRS3 벤치마크에서 더 우수한 성능을 입증했습니다.

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei YinMon, 09 Ma🤖 cs.AI

LMU-Based Sequential Learning and Posterior Ensemble Fusion for Cross-Domain Infant Cry Classification

이 논문은 제한된 주석과 강한 도메인 편차로 인한 어려움을 해결하기 위해 MFCC, STFT, 피치 특징을 융합한 다중 분기 CNN 과 효율적인 Legendre 메모리 단위 (LMU) 를 활용하고, 엔트로피 기반 가중치를 적용한 보정된 사후 확률 앙상블 융합 기법을 통해 도메인 간 일반화 성능을 향상시킨 영아 울음소리 분류 프레임워크를 제안합니다.

Niloofar Jazaeri, Hilmi R. Dajani, Marco Janeczek, Martin BouchardMon, 09 Ma🤖 cs.LG

Which Data Matter? Embedding-Based Data Selection for Speech Recognition

이 논문은 스피커 속성, 음성학적 내용, 의미적 의미 등을 포착하는 임베딩을 활용하여 10 만 시간 규모의 비정형 데이터에서 타겟 도메인에 최적화된 5% 의 데이터 하위 집합을 선별함으로써, 전체 데이터셋으로 학습한 모델보다 타겟 도메인에서 최대 36.8% 의 상대적 단어오류율 개선을 달성하는 데이터 선택 전략을 제안합니다.

Zakaria Aldeneh, Skyler Seto, Maureen de Seyssel, Jie Chi, Zijin Gu, Takuya Higuchi, Jee-weon Jung, Shinji Watanabe, David Grangier, Barry-John Theobald, Tatiana LikhomanenkoMon, 09 Ma💻 cs

How Well Do Current Speech Deepfake Detection Methods Generalize to the Real World?

이 논문은 다양한 언어와 실제 환경 조건에서 기존 음성 딥페이크 탐지 방법의 일반화 성능이 크게 저하됨을 보여주기 위해 14 개 언어와 7 개 플랫폼을 아우르는 대규모 다국어 실증 데이터셋인 ML-ITW 를 제안하고 이를 통해 기존 탐지 모델들의 한계를 규명합니다.

Daixian Li, Jun Xue, Yanzhen Ren, Zhuolin Yi, Yihuan Huang, Guanxiang Feng, Yi ChaiMon, 09 Ma💻 cs

Whisper-CD: Accurate Long-Form Speech Recognition using Multi-Negative Contrastive Decoding

Whisper-CD 는 학습 없이 추론 단계에서 가우시안 노이즈, 무음 신호, 시간 이동 등 세 가지 음향 기반 부정 샘플을 대비하여 생성하는 다중 부정 대비 디코딩 프레임워크를 제안함으로써, 장문 음성 인식의 환각 및 반복 오류를 줄이고 기존 Whisper 시스템에 바로 적용 가능한 효율적인 솔루션을 제공합니다.

Hoseong Ahn, Jeongyun Chae, Yoonji Park, Kyuhong ShimMon, 09 Ma🤖 cs.AI

Continual Adaptation for Pacific Indigenous Speech Recognition

이 논문은 데이터 부족과 파급적 망각 문제를 겪는 태평양 원주민 언어를 위한 음성 모델 적응 전략을 실증적으로 연구하여, 저랭크 적응 (LoRA) 이 초기에는 효과적이지만 연속 학습 시 파급적 망각을 초래하며, 이러한 언어에 적합한 강건한 적응 전략의 필요성을 강조합니다.

Yang Xiao, Aso Mahmudi, Nick Thieberger, Eliathamby Ambikairajah, Eun-Jung Holden, Ting DangMon, 09 Ma💬 cs.CL

Text-only adaptation in LLM-based ASR through text denoising

이 논문은 새로운 도메인의 텍스트 데이터만으로 LLM 기반 음성 인식 시스템을 적응시키는 과정에서 기존 정렬을 해치지 않도록 노이즈가 포함된 텍스트를 깨끗한 전사로 복원하는 텍스트 제거 (denoising) 과제를 새로운 적응 방법으로 제안하고, 이를 통해 기존 최첨단 방법보다 최대 22.1% 의 상대적 성능 개선을 달성했다고 요약할 수 있습니다.

Andrés Carofilis, Sergio Burdisso, Esaú Villatoro-Tello, Shashi Kumar, Kadri Hacioglu, Srikanth Madikeri, Pradeep Rangappa, Manjunath K E, Petr Motlicek, Shankar Venkatesan, Andreas StolckeFri, 13 Ma⚡ eess