[b]=[d]-[t]+[p]: Self-supervised Speech Models Discover Phonological Vector Arithmetic
이 논문은 자기지도학습 음성 모델이 음운론적 특징을 선형 벡터로 인코딩하여 음소 간의 산술 연산 (예: [d]-[t]+[p]=[b]) 이 가능함을 96 개 언어를 대상으로 한 연구를 통해 입증했습니다.
163 편의 논문
이 논문은 자기지도학습 음성 모델이 음운론적 특징을 선형 벡터로 인코딩하여 음소 간의 산술 연산 (예: [d]-[t]+[p]=[b]) 이 가능함을 96 개 언어를 대상으로 한 연구를 통해 입증했습니다.
이 논문은 흐름 기반 비디오-오디오 생성 모델을 인간의 선호도와 정렬시키기 위해 AudioScore 기반의 선호도 데이터 파이프라인과 커리큘럼 학습을 활용한 DPO 프레임워크인 V2A-DPO 를 제안하며, 이를 통해 기존 모델들보다 뛰어난 성능을 입증합니다.
이 논문은 오디오와 비디오의 서로 다른 샘플링 주파수 문제를 해결하기 위해 시간 정렬 로터리 위치 임베딩 (TaRoPE) 과 교차 시간 매칭 손실 (CTM) 을 도입한 멀티모달 자기주의 네트워크를 제안하여, 오디오 - 비디오 감정 인식의 성능을 향상시켰습니다.
이 논문은 저지연 스트리밍 환경에서도 비스트리밍 및 스트리밍 자동 음성 인식 (ASR) 을 하나의 아키텍처로 통합하고, 추가적인 지연 없이 정확도를 향상시키는 Uni-ASR 프레임워크를 제안합니다.
이 논문은 헌팅턴병 환자의 병리적 음성을 위한 자동 음성 인식 (ASR) 성능을 향상시키기 위해 고품질 임상 말뭉치를 활용하고, Parakeet-TDT 아키텍처의 우수성을 입증하며, 생체표지자 기반 보조 감독을 통해 오류 패턴을 질병 중증도에 맞게 재구성하는 새로운 방법을 제시합니다.
이 논문은 텍스트로 훈련된 대규모 언어 모델 (LLM) 을 음성 모델에 적용하여 부분적으로 편집된 음성 내의 가짜 단어를 국소화할 수 있는지 탐구했으며, 실험 결과 모델이 특정 편집 패턴에 과도하게 의존하여 일반화 능력이 제한될 수 있음을 보여주었습니다.
이 논문은 XLS-R 모델의 초기 레이어를 활용하여 결핵 환자의 기침 구간을 고정밀도로 자동 탐지함으로써 스마트폰 기반의 확장 가능한 결핵 선별 도구 개발의 실현 가능성을 입증했습니다.
이 논문은 성별에 따른 성능 격차를 해소하고 해석 가능성을 제공하기 위해, 위험 외삽과 지역 보완 게이트를 결합한 'Fair-Gate'라는 공정한 위험 게이트링 프레임워크를 제안하고 VoxCeleb1 데이터셋에서 그 유효성을 입증합니다.
이 논문은 20,000 개의 레이블이 지정된 데이터만 사용하여 유사 레이블링된 계속 전학습 (CPT) 과 지도 미세 조정을 결합함으로써, 기존 최고 성능 대비 61% 상대적 개선 (3.24% WER) 을 달성하여 저자원 스와힐리어 자동 음성 인식 (ASR) 의 새로운 최첨단 성능을 달성했다고 요약할 수 있습니다.
이 논문은 오디오 및 시각 신호의 신뢰도가 상호작용 단계에 따라 달라진다는 점을 고려하여, 각 단계별 모달리티 신뢰도를 추정하고 보정하는 'SAGE'라는 새로운 프레임워크를 제안함으로써 실시간 환경에서의 연속적인 정서 (가치 - 각성) 추정의 정확도를 향상시킵니다.
이 논문은 주관적 평가에 의존하던 애니메이션 스타일 음성 평가를 위해 15,000 개의 쌍별 선호도 데이터를 기반으로 한 'AnimeScore' 프레임워크를 제안하고, 이를 통해 자동화된 평가 지표 마련과 생성 모델의 최적화를 가능하게 함을 보여줍니다.
이 논문은 복소수 연산을 기반으로 한 생성기와 판별자, 위상 양자화, 그리고 블록 행렬 계산 기법을 도입하여 기존 실수 기반 모델보다 더 높은 음질과 25% 의 훈련 시간 단축을 달성한 새로운 복소수 신경 보코더 'ComVo'를 제안합니다.
이 논문은 주파수 GLP, 다중 해상도 병렬 시 - 주파수 이중 처리 블록, 학습 가능한 매핑을 통해 음성 특성을 반영한 SEMamba++ 를 제안하여 다양한 왜곡 하에서 계산 효율성을 유지하면서도 최상의 음성 복원 성능을 달성함을 보여줍니다.
이 논문은 자기지도 학습 모델과 상대적 판별 방식을 결합한 '상대적 적대 피드백 (RAF)'이라는 새로운 훈련 목표를 제안하여, 기존 GAN 보코더의 일반화 성능을 향상시키고 적은 파라미터로도 더 높은 지각적 음질을 달성할 수 있음을 입증합니다.
이 논문은 FastSpeech2 아키텍처에 명시적인 감정 조건부와 반사실적 훈련 목표를 도입하여 텍스트, 감정, 화자가 말초리 (지속 시간, 피치, 에너지) 를 통해 음성 파형에 미치는 인과적 관계를 모델링함으로써, 언어적 내용과 감정적 프로소디를 분리하고 자연스러운 감정 표현과 정교한 프로소디 제어가 가능한 새로운 TTS 프레임워크를 제안합니다.
이 논문은 발화 및 무성 발화 중 얼굴과 목의 표면 근전도 (sEMG) 신호를 분석하여 좌절감을 포함한 감정을 0.845 AUC 의 정확도로 식별할 수 있음을 입증하고, 무성 발화에서도 감정 신호가 유지됨을 보여줌으로써 감성 인식 무성 발화 인터페이스의 가능성을 제시합니다.
이 논문은 대규모 오디오 언어 모델 (LALMs) 이 현재 콘텐츠 중심 패러다임에서 간과하는 부언어적 단서를 재발견하기 위해 계층별 분석을 수행하고, 선택적 계층 미세조정과 보조 이중 수준 분류 헤드를 포함한 부언어적 강화 미세조정 (PE-FT) 프로토콜을 제안하여 모델의 부언어적 인식 능력을 효과적으로 향상시킨다는 내용입니다.
이 논문은 Shapley 값을 활용하여 오디오 - 비주얼 음성 인식 (AVSR) 모델의 모달리티 기여도를 분석하는 'Dr. SHAP-AV' 프레임워크를 제안하고, 다양한 실험을 통해 노이즈 환경에서도 오디오 편향이 지속되며 SNR 이 모달리티 가중치를 주도한다는 사실을 규명했습니다.
이 논문은 음악의 스타일과 사용자 프롬프트를 통합하여 다양한 스타일의 춤을 생성하고, 공간 - 시간 마스킹 메커니즘을 통해 궤적 기반 생성, 춤 끼워넣기, 춤 인페인팅 등 다양한 제어 작업을 수행할 수 있는 '스타일 가이드 모션 확산 (SGMD)' 모델을 제안합니다.
이 논문은 딥러닝을 활용하여 현장 녹음된 환경 소리를 실시간으로 Ableton Live 트랙에 자동 매핑함으로써 녹음자, 작곡가, 연주자 간의 상호작용을 가능하게 하는 실시간 앙상블 공연 시스템 'ExSampling'을 제안합니다.