Textless and Non-Parallel Speech-to-Speech Emotion Style Transfer
이 논문은 텍스트와 병렬 데이터 없이 소스 음성의 내용과 화자 특성을 유지하면서 참조 음성의 감정 스타일을 전달하는 제로샷 음성-음성 감정 스타일 전이 프레임워크인 S2S-ZEST 를 제안하고, 기존 방법보다 향상된 성능과 감정 인식 데이터 증강 적용 가능성을 입증합니다.
149 편의 논문
이 논문은 텍스트와 병렬 데이터 없이 소스 음성의 내용과 화자 특성을 유지하면서 참조 음성의 감정 스타일을 전달하는 제로샷 음성-음성 감정 스타일 전이 프레임워크인 S2S-ZEST 를 제안하고, 기존 방법보다 향상된 성능과 감정 인식 데이터 증강 적용 가능성을 입증합니다.
이 논문은 기존 TI-DANSE 알고리즘의 느린 수렴 속도를 해결하고, 토폴로지 제약 없이 중앙 집중식 솔루션으로 빠르게 수렴하며 대역폭을 절약하는 새로운 'TI-DANSE+' 알고리즘을 제안합니다.
이 논문은 기존 CLAP 점수와 인간 주관 평가 간의 상관관계가 낮다는 점을 지적하고, 인간 주관 평가를 기반으로 학습된 'Human-CLAP' 모델을 제안하여 두 점수 간의 상관관계를 기존 대비 0.25 이상 크게 향상시켰음을 보여줍니다.
이 논문은 비디오 기반 오디오 생성 (비디오 - 사운드 및 비주얼 TTS) 을 별도의 작업이 아닌 통합된 흐름 매칭 프레임워크인 VSSFlow 를 통해 단일 모델로 성공적으로 통합하고, 기존 통념과 달리 결합 학습이 성능 저하를 초래하지 않음을 입증하여 최첨단 전용 모델들을 능가하는 성능을 보여줍니다.
이 논문은 다양한 왜곡을 가진 48kHz 풀밴드 음성을 단일 단계 잠재 브리지 모델을 통해 효율적으로 복원하는 범용 음성 복원 시스템 'VoiceBridge'를 제안하며, 에너지 보존 변이 오토인코더와 결합 신경 사전, 그리고 생성자 전환을 위한 교차 훈련 기법을 통해 증류 없이 고품질 음성을 생성합니다.
이 논문은 텍스트 프롬프트의 한계를 극복하고 외부 음악 이해 모델과의 잠재 정서 표현 정렬 (LARA) 을 통해 연속적이고 세밀한 감정 제어가 가능한 음악 생성 프레임워크 'LARA-Gen'을 제안하고, 이를 평가하기 위한 벤치마크와 예측 모델을 구축하여 기존 모델 대비 뛰어난 감정 준수도와 음악 품질을 입증합니다.
이 논문은 다양한 배경 잡음 환경에서 화자 확인의 강건성을 향상시키기 위해, 잡음 정보를 기반으로 입력을 전문화된 서브공간으로 자동 라우팅하는 잡음 조건부 혼합 전문가 (Mixture-of-Experts) 프레임워크를 제안합니다.
이 논문은 신경 오디오 코덱의 잠재 공간에서 연속 벡터 예측이 이산 토큰 예측보다 우수하며, 비자율적 모델이 효율성과 명료성 측면에서 실용적이며, 인코더 미세 조정이 전체 성능을 극대화하지만 코덱 재구성은 저하시킨다는 세 가지 주요 발견을 통해 음성 향상 전략을 비교 분석합니다.
이 논문은 시각과 청각 정보를 통합한 최초의 공식적인 오디오 - 비주얼 월드 모델 (AVWM) 프레임워크를 제안하고, 이를 위해 새로운 데이터셋 AVW-4k 와 3 단계 학습 전략을 갖춘 AV-CDiT 모델을 개발하여 멀티모달 미래 상태 예측 및 내비게이션 성능을 크게 향상시켰음을 보여줍니다.
이 연구는 시끄러운 환경에서 대화하는 사람들이 말소리를 높이고 손동작의 복잡성을 증가시키며 머리와 몸통 움직임을 조절하는 등 청각적 소음에 적응하기 위해 비언어적 제스처와 신체 움직임을 어떻게 변화시키는지 분석했습니다.
이 논문은 화음 정보와 화자 정보를 넘어 디스크리트 음성 표현 토큰 (DSRTs) 에 내재된 억양 정보를 체계적으로 분석하기 위한 새로운 평가 프레임워크를 제안하고, 계층 선택의 중요성, ASR 감독에 의한 억양 정보 감소, 그리고 코드북 크기 축소의 비효율성 등 주요 발견 사항을 제시합니다.
이 논문은 EDM 의 구조적 특성에 맞춰 전문적으로 주석된 EDM-98 데이터셋과 자기지도 학습을 결합한 'EDMFormer' 모델을 제안하여, 기존 모델들이 어려움을 겪던 EDM 곡의 구조 분할 및 레이블링 성능을 크게 향상시켰음을 보여줍니다.
이 논문은 자연어 지시를 통해 다화자 및 다턴 생성이 가능한 오픈소스 TTS 시스템 'Fish Audio S2'를 소개하고, 확장 가능한 훈련 레시피와 실시간 스트리밍이 가능한 고효율 추론 엔진을 공개합니다.
이 논문은 언어별 다양성과 인간 감정의 모호성을 반영하기 위해 35 개 감정 말뭉치와 표준화된 툴킷을 포함한 음성 감정 인식 (SER) 벤치마크인 VoxEmo 를 제안하며, 이를 통해 생성형 음성 LLM 이 하드 라벨 정확도에서는 기존 모델을 따르지 못하지만 인간의 주관적 감정 분포에는 더 잘 부합함을 입증했습니다.
이 논문은 최소한의 타겟 음성 데이터로 화자 특성을 제거하고 음소 내용을 보존하는 역변환 가능한 선형 방법인 범용 음성 내용 분해 (USCF) 를 제안하여, 제로샷 음성 변환 및 화자 분리된 음성 합성 모델 학습에 효과적으로 활용될 수 있음을 보여줍니다.
이 논문은 ASVspoof 5 데이터셋을 활용하여 오디오 딥페이크 탐지 모델의 전반적인 성능과 성별 간 편향을 분석한 결과, 기존 성능 지표만으로는 성별에 따른 오류 분포의 불균형을 파악하기 어렵지만 공정성 지표를 적용함으로써 이러한 편향을 발견하고 보다 공정하고 견고한 탐지 시스템 개발의 중요성을 강조합니다.
이 논문은 신경 오디오 코덱의 잔류 벡터 양자화 (RVQ) 깊이를 조절하여 적대적 공격에 대한 강인성과 음성 내용 보존 사이의 최적 균형을 찾을 수 있음을 보여주며, 중간 깊이의 양자화가 전사 오류를 최소화하고 기존 압축 방어 기법보다 우수한 성능을 보인다고 주장합니다.
이 논문은 공개된 코드가 없어 재현이 어려웠던 'Band-Split RNN' 모델을 재현 시도하는 과정에서 원본보다 성능이 향상된 최적화 모델을 개발하고, 연구 재현성 부족이 초래한 시간과 에너지 낭비 문제를 비판적으로 분석하며 재현 가능한 연구 문화를 장려하기 위해 코드와 모델을 공개합니다.
이 논문은 대비적 디코딩이 오디오 언어 모델의 특정 오류를 수정하는 데 효과적이지만 그 성능은 모델별 오류 패턴에 따라 달라지므로, 이를 분석하기 위한 전이 행렬 프레임워크를 제안하고 각 아키텍처에 적합한 개선 전략을 제시합니다.
이 논문은 텍스트 맥락에 의존하지 않고 음성 내의 비언어적 단서와 감정 정보를 융합하여 일본어 공감 대화에서 적절한 감정적 수용 (Validation) 시점을 탐지하는 새로운 모델을 제안하고, 이를 통해 더 공감적인 인간 - 로봇 상호작용을 가능하게 함을 보여줍니다.