cs.SD 편의 논문 | Gist.Science

When Fine-Tuning Fails and when it Generalises: Role of Data Diversity and Mixed Training in LLM-based TTS

이 논문은 다양한 데이터로 LoRA 파인튜닝을 수행할 경우, Qwen-0.5B 기반의 소형 LLM TTS 시스템이 음질, 화자 유사도, 신호 대 잡음비 측면에서 고정된 베이스 모델보다 우수한 성능을 발휘함을 입증합니다.

Anupam Purwar, Aditya ChoudharyThu, 12 Ma🤖 cs.AI

Training-Free Multi-Step Inference for Target Speaker Extraction

이 논문은 사전 학습된 모델을 고정시킨 채 혼합 음성과 이전 추정치를 보간하여 생성된 후보들 중 최적의 것을 반복적으로 선택하는 훈련 없는 다단계 추론 방식을 제안하고, 침습적 및 비침습적 지표를 결합한 최적화를 통해 실제 배포에 적합한 목표 화자 추출 성능을 달성함을 보여줍니다.

Zhenghai You, Ying Shi, Lantian Li, Dong WangThu, 12 Ma💻 cs

V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation

이 논문은 텍스트-음악 생성 모델을 비디오 이벤트 곡선으로만 미세 조정하고 추론 시 비디오 이벤트 곡선으로 대체하는 V2M-Zero 를 제안하여, 짝지어진 데이터 없이도 비디오와 음악 간의 시간적 정렬을 달성함을 보여줍니다.

Yan-Bo Lin, Jonah Casebeer, Long Mai, Aniruddha Mahapatra, Gedas Bertasius, Nicholas J. BryanThu, 12 Ma🤖 cs.AI

Efficient Emotion and Speaker Adaptation in LLM-Based TTS via Characteristic-Specific Partial Fine-Tuning

이 논문은 LLM 기반 TTS 모델의 적응 과정에서 발생하는 과적합과 학습 속도 저하 문제를 해결하기 위해, 감정과 화자 정보의 기여도를 동적으로 분석하여 전체 파라미터의 약 8% 만을 선택적으로 미세 조정하는 'CSP-FT' 전략을 제안하며, 이를 통해 전 파라미터 미세 조정과同等한 성능을 유지하면서 학습 속도를 2 배 가속화하고 화자 및 발음 정확도를 향상시킨다고 설명합니다.

Tianrui Wang, Meng Ge, Cheng Gong, Chunyu Qiang, Haoyu Wang, Zikang Huang, Yu Jiang, Ye Ni, Yuheng Lu, Xiaobao Wang, Engsiong Chng, Xie Chen, Longbiao Wang, Jianwu DangMon, 09 Ma💻 cs

HVAC-EAR: Eavesdropping Human Speech Using HVAC Systems

이 논문은 HVAC 시스템의 압력 센서 데이터를 활용하여 기존 연구의 한계를 넘어 1.2m 거리에서도 명료한 음성 도청이 가능함을 입증한 'HVAC-EAR' 시스템을 제안하고 새로운 사생활 보호 위험을 제기합니다.

Tarikul Islam Tamiti, Biraj Joshi, Rida Hasan, Anomadarshi BaruaMon, 09 Ma💻 cs

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

이 논문은 노이즈가 많은 오디오 신호에서 의미 있는 정보를 손실하지 않으면서도 비강화적 마스크 생성 없이 비디오 정보를 활용해 오디오 특징을 정제하는 Conformer 기반의 새로운 오디오 - 비주얼 음성 인식 (AVSR) 프레임워크를 제안하여, 기존 마스크 기반 방법보다 LRS3 벤치마크에서 더 우수한 성능을 입증했습니다.

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei YinMon, 09 Ma🤖 cs.AI

LMU-Based Sequential Learning and Posterior Ensemble Fusion for Cross-Domain Infant Cry Classification

이 논문은 제한된 주석과 강한 도메인 편차로 인한 어려움을 해결하기 위해 MFCC, STFT, 피치 특징을 융합한 다중 분기 CNN 과 효율적인 Legendre 메모리 단위 (LMU) 를 활용하고, 엔트로피 기반 가중치를 적용한 보정된 사후 확률 앙상블 융합 기법을 통해 도메인 간 일반화 성능을 향상시킨 영아 울음소리 분류 프레임워크를 제안합니다.

Niloofar Jazaeri, Hilmi R. Dajani, Marco Janeczek, Martin BouchardMon, 09 Ma🤖 cs.LG

Whisper-RIR-Mega: A Paired Clean-Reverberant Speech Benchmark for ASR Robustness to Room Acoustics

이 논문은 실제 방 임펄스 응답을 사용하여 청결한 음성과 반향 음성을 쌍으로 구성한 'Whisper-RIR-Mega' 벤치마크 데이터셋을 소개하고, 다양한 크기의 Whisper 모델이 반향 환경에서 성능이 저하됨을 실험적으로 입증하여 ASR의 방 음향 강건성 평가를 지원한다고 요약할 수 있습니다.

Mandip GoswamiMon, 09 Ma🤖 cs.AI

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

이 논문은 이미지, 오디오, 텍스트 등 이질적인 모달리티를 별도의 전문가 모델이나 MoE 구조 없이 단일 밀집 Transformer 인코더로 압축하여 메모리 효율성을 극대화하면서도 경쟁력 있는 성능을 달성하는 'Omni-C'를 제안합니다.

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de GusmãoMon, 09 Ma🤖 cs.AI

Koopman Regularized Deep Speech Disentanglement for Speaker Verification

이 논문은 텍스트 지도 없이 Koopman 연산자와 인스턴스 정규화를 결합한 구조화된 오토인코더 (DKSD-AE) 를 제안하여, 적은 파라미터로 화자 검증 성능을 유지하면서 언어 내용과 화자 특성을 효과적으로 분리하는 방법을 제시합니다.

Nikos Chazaridis, Mohammad Belal, Rafael Mestre, Timothy J. Norman, Christine EversMon, 09 Ma🤖 cs.LG

Which Data Matter? Embedding-Based Data Selection for Speech Recognition

이 논문은 스피커 속성, 음성학적 내용, 의미적 의미 등을 포착하는 임베딩을 활용하여 10 만 시간 규모의 비정형 데이터에서 타겟 도메인에 최적화된 5% 의 데이터 하위 집합을 선별함으로써, 전체 데이터셋으로 학습한 모델보다 타겟 도메인에서 최대 36.8% 의 상대적 단어오류율 개선을 달성하는 데이터 선택 전략을 제안합니다.

Zakaria Aldeneh, Skyler Seto, Maureen de Seyssel, Jie Chi, Zijin Gu, Takuya Higuchi, Jee-weon Jung, Shinji Watanabe, David Grangier, Barry-John Theobald, Tatiana LikhomanenkoMon, 09 Ma💻 cs

How Well Do Current Speech Deepfake Detection Methods Generalize to the Real World?

이 논문은 다양한 언어와 실제 환경 조건에서 기존 음성 딥페이크 탐지 방법의 일반화 성능이 크게 저하됨을 보여주기 위해 14 개 언어와 7 개 플랫폼을 아우르는 대규모 다국어 실증 데이터셋인 ML-ITW 를 제안하고 이를 통해 기존 탐지 모델들의 한계를 규명합니다.

Daixian Li, Jun Xue, Yanzhen Ren, Zhuolin Yi, Yihuan Huang, Guanxiang Feng, Yi ChaiMon, 09 Ma💻 cs

TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation

이 논문은 고도화된 교사-학생 증류 기법과 시간적 정규화를 통해 고해상도 얼굴 생성의 지연 시간과 불안정성을 해결하고 엣지 환경에서도 실시간으로 작동 가능한 효율적인 오디오 기반 대화형 얼굴 생성 프레임워크 'TempoSyncDiff'를 제안합니다.

Soumya Mazumdar, Vineet Kumar RakeshMon, 09 Ma🤖 cs.AI

Do Compact SSL Backbones Matter for Audio Deepfake Detection? A Controlled Study with RAPTOR

이 논문은 RAPTOR 를 통해 대규모 모델이 아닌 HuBERT 의 다국어 사전 학습 경로가 오디오 딥페이크 탐지의 교차 도메인 강건성과 보정 안정성을 결정하는 핵심 요소임을 규명했습니다.

Ajinkya Kulkarni, Sandipana Dowerah, Atharva Kulkarni, Tanel Alumäe, Mathew Magimai DossMon, 09 Ma🤖 cs.AI

Whisper-CD: Accurate Long-Form Speech Recognition using Multi-Negative Contrastive Decoding

Whisper-CD 는 학습 없이 추론 단계에서 가우시안 노이즈, 무음 신호, 시간 이동 등 세 가지 음향 기반 부정 샘플을 대비하여 생성하는 다중 부정 대비 디코딩 프레임워크를 제안함으로써, 장문 음성 인식의 환각 및 반복 오류를 줄이고 기존 Whisper 시스템에 바로 적용 가능한 효율적인 솔루션을 제공합니다.

Hoseong Ahn, Jeongyun Chae, Yoonji Park, Kyuhong ShimMon, 09 Ma🤖 cs.AI

Continual Adaptation for Pacific Indigenous Speech Recognition

이 논문은 데이터 부족과 파급적 망각 문제를 겪는 태평양 원주민 언어를 위한 음성 모델 적응 전략을 실증적으로 연구하여, 저랭크 적응 (LoRA) 이 초기에는 효과적이지만 연속 학습 시 파급적 망각을 초래하며, 이러한 언어에 적합한 강건한 적응 전략의 필요성을 강조합니다.

Yang Xiao, Aso Mahmudi, Nick Thieberger, Eliathamby Ambikairajah, Eun-Jung Holden, Ting DangMon, 09 Ma💬 cs.CL

Prosodic Boundary-Aware Streaming Generation for LLM-Based TTS with Streaming Text Input

이 논문은 제한된 미래 텍스트를 기반으로 콘텐츠 경계에서 조기 정지를 학습하고 슬라이딩 윈도우 프롬프트를 적용하여, 스트리밍 텍스트 입력 시 자연스러운 억양과 장문 생성 안정성을 동시에 확보하는 LLM 기반 TTS 모델을 제안합니다.

Changsong Liu, Tianrui Wang, Ye Ni, Yizhou Peng, Eng Siong ChngMon, 09 Ma🤖 cs.AI

RAMoEA-QA: Hierarchical Specialization for Robust Respiratory Audio Question Answering

본 논문은 다양한 녹음 환경과 질문 의도에 맞춰 오디오 인코더와 언어 생성 어댑터를 계층적으로 전문화하는 'RAMoEA-QA' 모델을 제안하여, 호흡기 음성 기반 질문 응답의 정확도와 일반화 성능을 크게 향상시켰음을 보여줍니다.

Gaia A. Bertolino, Yuwei Zhang, Tong Xia, Domenico Talia, Cecilia MascoloMon, 09 Ma🤖 cs.AI

Audio-Language Models for Audio-Centric Tasks: A Systematic Survey

이 논문은 음성, 음악, 사운드 등 다양한 오디오 영역을 포괄하는 오디오 - 언어 모델 (ALM) 에 대한 최초의 체계적인 조사를 통해 모델 아키텍처와 학습 목표에 대한 통합 분류를 제시하고, 연구 현황과 한계, 향후 방향성을 종합하여 실용적 응용을 위한 지침을 제공합니다.

Yi Su, Jisheng Bai, Qisheng Xu, Kele Xu, Yong DouFri, 13 Ma⚡ eess

Text-only adaptation in LLM-based ASR through text denoising

이 논문은 새로운 도메인의 텍스트 데이터만으로 LLM 기반 음성 인식 시스템을 적응시키는 과정에서 기존 정렬을 해치지 않도록 노이즈가 포함된 텍스트를 깨끗한 전사로 복원하는 텍스트 제거 (denoising) 과제를 새로운 적응 방법으로 제안하고, 이를 통해 기존 최첨단 방법보다 최대 22.1% 의 상대적 성능 개선을 달성했다고 요약할 수 있습니다.

Andrés Carofilis, Sergio Burdisso, Esaú Villatoro-Tello, Shashi Kumar, Kadri Hacioglu, Srikanth Madikeri, Pradeep Rangappa, Manjunath K E, Petr Motlicek, Shankar Venkatesan, Andreas StolckeFri, 13 Ma⚡ eess

← 이전 다음 →