Textless and Non-Parallel Speech-to-Speech Emotion Style Transfer
이 논문은 텍스트와 병렬 데이터 없이 소스 음성의 내용과 화자 특성을 유지하면서 참조 음성의 감정 스타일을 전달하는 제로샷 음성-음성 감정 스타일 전이 프레임워크인 S2S-ZEST 를 제안하고, 기존 방법보다 향상된 성능과 감정 인식 데이터 증강 적용 가능성을 입증합니다.
131 편의 논문
이 논문은 텍스트와 병렬 데이터 없이 소스 음성의 내용과 화자 특성을 유지하면서 참조 음성의 감정 스타일을 전달하는 제로샷 음성-음성 감정 스타일 전이 프레임워크인 S2S-ZEST 를 제안하고, 기존 방법보다 향상된 성능과 감정 인식 데이터 증강 적용 가능성을 입증합니다.
이 논문은 기존 TI-DANSE 알고리즘의 느린 수렴 속도를 해결하고, 토폴로지 제약 없이 중앙 집중식 솔루션으로 빠르게 수렴하며 대역폭을 절약하는 새로운 'TI-DANSE+' 알고리즘을 제안합니다.
이 논문은 기존 CLAP 점수와 인간 주관 평가 간의 상관관계가 낮다는 점을 지적하고, 인간 주관 평가를 기반으로 학습된 'Human-CLAP' 모델을 제안하여 두 점수 간의 상관관계를 기존 대비 0.25 이상 크게 향상시켰음을 보여줍니다.
이 논문은 다국어 음향 환경에서 인간이 모국어에 기반한 선택적 주의 메커니즘을 통해 화자를 구분하는 반면, 음성 기반 대규모 언어 모델 (LLM) 은 깨끗한 단일 화자 조건에서는 인간을 능가하지만 중첩된 화자 환경에서는 선택적 주의에 어려움을 겪는다는 핵심 차이를 규명했습니다.
이 논문은 17 개의 사전 훈련된 음성 임베딩 시스템을 6 개의 이질적인 데이터셋으로 평가하여, 데이터셋 간 편차와 일반화 한계를 지적하고 동일한 데이터셋으로 학습 및 테스트한 임상 시스템의 타당성에 의문을 제기합니다.
이 논문은 비디오 기반 오디오 생성 (비디오 - 사운드 및 비주얼 TTS) 을 별도의 작업이 아닌 통합된 흐름 매칭 프레임워크인 VSSFlow 를 통해 단일 모델로 성공적으로 통합하고, 기존 통념과 달리 결합 학습이 성능 저하를 초래하지 않음을 입증하여 최첨단 전용 모델들을 능가하는 성능을 보여줍니다.
이 논문은 다양한 왜곡을 가진 48kHz 풀밴드 음성을 단일 단계 잠재 브리지 모델을 통해 효율적으로 복원하는 범용 음성 복원 시스템 'VoiceBridge'를 제안하며, 에너지 보존 변이 오토인코더와 결합 신경 사전, 그리고 생성자 전환을 위한 교차 훈련 기법을 통해 증류 없이 고품질 음성을 생성합니다.
이 논문은 음성 토큰을 잠재적 패치로 집계하여 텍스트와 음성의 시퀀스 모델링 세분성을 일치시키고 계산 효율성을 높임으로써, 음성 및 텍스트 성능을 동시에 향상시키는 '잠재 음성 - 텍스트 트랜스포머 (LST)'를 제안합니다.
이 논문은 다양한 배경 잡음 환경에서 화자 확인의 강건성을 향상시키기 위해, 잡음 정보를 기반으로 입력을 전문화된 서브공간으로 자동 라우팅하는 잡음 조건부 혼합 전문가 (Mixture-of-Experts) 프레임워크를 제안합니다.
이 논문은 신경 오디오 코덱의 잠재 공간에서 연속 벡터 예측이 이산 토큰 예측보다 우수하며, 비자율적 모델이 효율성과 명료성 측면에서 실용적이며, 인코더 미세 조정이 전체 성능을 극대화하지만 코덱 재구성은 저하시킨다는 세 가지 주요 발견을 통해 음성 향상 전략을 비교 분석합니다.
이 논문은 제한된 데이터로도 whisper-to-normal 변환을 가능하게 하는 3 단계 프레임워크 'WhisperVC'를 제안하여, 교차 도메인 정렬과 음성 생성을 분리함으로써 음질과 화자 유사성을 크게 향상시켰음을 보여줍니다.
이 논문은 단일 워터마킹 기법의 한계를 극복하기 위해 병렬 및 직렬 다중화 전략과 훈련 불필요한 PA-TFM, 그리고 모델 기반의 MaskNet 을 제안하여, 다양한 공격 환경에서 기존 방법보다 훨씬 강력한 오디오 워터마킹 성능을 입증합니다.
이 연구는 시끄러운 환경에서 대화하는 사람들이 말소리를 높이고 손동작의 복잡성을 증가시키며 머리와 몸통 움직임을 조절하는 등 청각적 소음에 적응하기 위해 비언어적 제스처와 신체 움직임을 어떻게 변화시키는지 분석했습니다.
이 논문은 화음 정보와 화자 정보를 넘어 디스크리트 음성 표현 토큰 (DSRTs) 에 내재된 억양 정보를 체계적으로 분석하기 위한 새로운 평가 프레임워크를 제안하고, 계층 선택의 중요성, ASR 감독에 의한 억양 정보 감소, 그리고 코드북 크기 축소의 비효율성 등 주요 발견 사항을 제시합니다.
이 논문은 청각적 참조 신호 없이도 기존 최첨단 모델보다 높은 상관관계와 낮은 평균 제곱 오차를 보이는 새로운 병목 트랜스포머 아키텍처를 통해 STOI 점수를 정확하게 예측하는 방법을 제안합니다.
이 논문은 언어별 다양성과 인간 감정의 모호성을 반영하기 위해 35 개 감정 말뭉치와 표준화된 툴킷을 포함한 음성 감정 인식 (SER) 벤치마크인 VoxEmo 를 제안하며, 이를 통해 생성형 음성 LLM 이 하드 라벨 정확도에서는 기존 모델을 따르지 못하지만 인간의 주관적 감정 분포에는 더 잘 부합함을 입증했습니다.
이 논문은 오디오-비주얼 분할 (AVS) 을 위한 최초의 표본 없는 지속적 학습 벤치마크를 제시하고, 저랭크 앵커링 (LRA) 과 오디오 유도 사전 융합 조정을 활용한 ATLAS 라는 강력한 베이스라인을 제안하여 역동적인 환경에서의 지속적 학습과 catastrophic forgetting 문제를 해결합니다.
이 논문은 최소한의 타겟 음성 데이터로 화자 특성을 제거하고 음소 내용을 보존하는 역변환 가능한 선형 방법인 범용 음성 내용 분해 (USCF) 를 제안하여, 제로샷 음성 변환 및 화자 분리된 음성 합성 모델 학습에 효과적으로 활용될 수 있음을 보여줍니다.
이 논문은 신경 오디오 코덱의 잔류 벡터 양자화 (RVQ) 깊이를 조절하여 적대적 공격에 대한 강인성과 음성 내용 보존 사이의 최적 균형을 찾을 수 있음을 보여주며, 중간 깊이의 양자화가 전사 오류를 최소화하고 기존 압축 방어 기법보다 우수한 성능을 보인다고 주장합니다.
이 논문은 이 단계 음성 변환 아키텍처에 '감정 인식 접두사 (Emotion-Aware Prefix)'를 도입하여 화자 정체성과 언어적 무결성을 유지하면서 감정 변환 정확도를 42.40% 에서 85.50% 로 두 배 이상 획기적으로 향상시키는 방법을 제안합니다.