When Fine-Tuning Fails and when it Generalises: Role of Data Diversity and Mixed Training in LLM-based TTS
이 논문은 다양한 데이터로 LoRA 파인튜닝을 수행할 경우, Qwen-0.5B 기반의 소형 LLM TTS 시스템이 음질, 화자 유사도, 신호 대 잡음비 측면에서 고정된 베이스 모델보다 우수한 성능을 발휘함을 입증합니다.
163 편의 논문
이 논문은 다양한 데이터로 LoRA 파인튜닝을 수행할 경우, Qwen-0.5B 기반의 소형 LLM TTS 시스템이 음질, 화자 유사도, 신호 대 잡음비 측면에서 고정된 베이스 모델보다 우수한 성능을 발휘함을 입증합니다.
이 논문은 사전 학습된 모델을 고정시킨 채 혼합 음성과 이전 추정치를 보간하여 생성된 후보들 중 최적의 것을 반복적으로 선택하는 훈련 없는 다단계 추론 방식을 제안하고, 침습적 및 비침습적 지표를 결합한 최적화를 통해 실제 배포에 적합한 목표 화자 추출 성능을 달성함을 보여줍니다.
이 논문은 텍스트-음악 생성 모델을 비디오 이벤트 곡선으로만 미세 조정하고 추론 시 비디오 이벤트 곡선으로 대체하는 V2M-Zero 를 제안하여, 짝지어진 데이터 없이도 비디오와 음악 간의 시간적 정렬을 달성함을 보여줍니다.
이 논문은 LLM 기반 TTS 모델의 적응 과정에서 발생하는 과적합과 학습 속도 저하 문제를 해결하기 위해, 감정과 화자 정보의 기여도를 동적으로 분석하여 전체 파라미터의 약 8% 만을 선택적으로 미세 조정하는 'CSP-FT' 전략을 제안하며, 이를 통해 전 파라미터 미세 조정과同等한 성능을 유지하면서 학습 속도를 2 배 가속화하고 화자 및 발음 정확도를 향상시킨다고 설명합니다.
이 논문은 HVAC 시스템의 압력 센서 데이터를 활용하여 기존 연구의 한계를 넘어 1.2m 거리에서도 명료한 음성 도청이 가능함을 입증한 'HVAC-EAR' 시스템을 제안하고 새로운 사생활 보호 위험을 제기합니다.
이 논문은 노이즈가 많은 오디오 신호에서 의미 있는 정보를 손실하지 않으면서도 비강화적 마스크 생성 없이 비디오 정보를 활용해 오디오 특징을 정제하는 Conformer 기반의 새로운 오디오 - 비주얼 음성 인식 (AVSR) 프레임워크를 제안하여, 기존 마스크 기반 방법보다 LRS3 벤치마크에서 더 우수한 성능을 입증했습니다.
이 논문은 제한된 주석과 강한 도메인 편차로 인한 어려움을 해결하기 위해 MFCC, STFT, 피치 특징을 융합한 다중 분기 CNN 과 효율적인 Legendre 메모리 단위 (LMU) 를 활용하고, 엔트로피 기반 가중치를 적용한 보정된 사후 확률 앙상블 융합 기법을 통해 도메인 간 일반화 성능을 향상시킨 영아 울음소리 분류 프레임워크를 제안합니다.
이 논문은 실제 방 임펄스 응답을 사용하여 청결한 음성과 반향 음성을 쌍으로 구성한 'Whisper-RIR-Mega' 벤치마크 데이터셋을 소개하고, 다양한 크기의 Whisper 모델이 반향 환경에서 성능이 저하됨을 실험적으로 입증하여 ASR의 방 음향 강건성 평가를 지원한다고 요약할 수 있습니다.
이 논문은 이미지, 오디오, 텍스트 등 이질적인 모달리티를 별도의 전문가 모델이나 MoE 구조 없이 단일 밀집 Transformer 인코더로 압축하여 메모리 효율성을 극대화하면서도 경쟁력 있는 성능을 달성하는 'Omni-C'를 제안합니다.
이 논문은 텍스트 지도 없이 Koopman 연산자와 인스턴스 정규화를 결합한 구조화된 오토인코더 (DKSD-AE) 를 제안하여, 적은 파라미터로 화자 검증 성능을 유지하면서 언어 내용과 화자 특성을 효과적으로 분리하는 방법을 제시합니다.
이 논문은 스피커 속성, 음성학적 내용, 의미적 의미 등을 포착하는 임베딩을 활용하여 10 만 시간 규모의 비정형 데이터에서 타겟 도메인에 최적화된 5% 의 데이터 하위 집합을 선별함으로써, 전체 데이터셋으로 학습한 모델보다 타겟 도메인에서 최대 36.8% 의 상대적 단어오류율 개선을 달성하는 데이터 선택 전략을 제안합니다.
이 논문은 다양한 언어와 실제 환경 조건에서 기존 음성 딥페이크 탐지 방법의 일반화 성능이 크게 저하됨을 보여주기 위해 14 개 언어와 7 개 플랫폼을 아우르는 대규모 다국어 실증 데이터셋인 ML-ITW 를 제안하고 이를 통해 기존 탐지 모델들의 한계를 규명합니다.
이 논문은 고도화된 교사-학생 증류 기법과 시간적 정규화를 통해 고해상도 얼굴 생성의 지연 시간과 불안정성을 해결하고 엣지 환경에서도 실시간으로 작동 가능한 효율적인 오디오 기반 대화형 얼굴 생성 프레임워크 'TempoSyncDiff'를 제안합니다.
이 논문은 RAPTOR 를 통해 대규모 모델이 아닌 HuBERT 의 다국어 사전 학습 경로가 오디오 딥페이크 탐지의 교차 도메인 강건성과 보정 안정성을 결정하는 핵심 요소임을 규명했습니다.
Whisper-CD 는 학습 없이 추론 단계에서 가우시안 노이즈, 무음 신호, 시간 이동 등 세 가지 음향 기반 부정 샘플을 대비하여 생성하는 다중 부정 대비 디코딩 프레임워크를 제안함으로써, 장문 음성 인식의 환각 및 반복 오류를 줄이고 기존 Whisper 시스템에 바로 적용 가능한 효율적인 솔루션을 제공합니다.
이 논문은 데이터 부족과 파급적 망각 문제를 겪는 태평양 원주민 언어를 위한 음성 모델 적응 전략을 실증적으로 연구하여, 저랭크 적응 (LoRA) 이 초기에는 효과적이지만 연속 학습 시 파급적 망각을 초래하며, 이러한 언어에 적합한 강건한 적응 전략의 필요성을 강조합니다.
이 논문은 제한된 미래 텍스트를 기반으로 콘텐츠 경계에서 조기 정지를 학습하고 슬라이딩 윈도우 프롬프트를 적용하여, 스트리밍 텍스트 입력 시 자연스러운 억양과 장문 생성 안정성을 동시에 확보하는 LLM 기반 TTS 모델을 제안합니다.
본 논문은 다양한 녹음 환경과 질문 의도에 맞춰 오디오 인코더와 언어 생성 어댑터를 계층적으로 전문화하는 'RAMoEA-QA' 모델을 제안하여, 호흡기 음성 기반 질문 응답의 정확도와 일반화 성능을 크게 향상시켰음을 보여줍니다.
이 논문은 음성, 음악, 사운드 등 다양한 오디오 영역을 포괄하는 오디오 - 언어 모델 (ALM) 에 대한 최초의 체계적인 조사를 통해 모델 아키텍처와 학습 목표에 대한 통합 분류를 제시하고, 연구 현황과 한계, 향후 방향성을 종합하여 실용적 응용을 위한 지침을 제공합니다.
이 논문은 새로운 도메인의 텍스트 데이터만으로 LLM 기반 음성 인식 시스템을 적응시키는 과정에서 기존 정렬을 해치지 않도록 노이즈가 포함된 텍스트를 깨끗한 전사로 복원하는 텍스트 제거 (denoising) 과제를 새로운 적응 방법으로 제안하고, 이를 통해 기존 최첨단 방법보다 최대 22.1% 의 상대적 성능 개선을 달성했다고 요약할 수 있습니다.