SEMamba++: A General Speech Restoration Framework Leveraging Global, Local, and Periodic Spectral Patterns
이 논문은 주파수 GLP, 다중 해상도 병렬 시 - 주파수 이중 처리 블록, 학습 가능한 매핑을 통해 음성 특성을 반영한 SEMamba++ 를 제안하여 다양한 왜곡 하에서 계산 효율성을 유지하면서도 최상의 음성 복원 성능을 달성함을 보여줍니다.
141 편의 논문
이 논문은 주파수 GLP, 다중 해상도 병렬 시 - 주파수 이중 처리 블록, 학습 가능한 매핑을 통해 음성 특성을 반영한 SEMamba++ 를 제안하여 다양한 왜곡 하에서 계산 효율성을 유지하면서도 최상의 음성 복원 성능을 달성함을 보여줍니다.
이 논문은 자기지도 학습 모델과 상대적 판별 방식을 결합한 '상대적 적대 피드백 (RAF)'이라는 새로운 훈련 목표를 제안하여, 기존 GAN 보코더의 일반화 성능을 향상시키고 적은 파라미터로도 더 높은 지각적 음질을 달성할 수 있음을 입증합니다.
이 논문은 발화 및 무성 발화 중 얼굴과 목의 표면 근전도 (sEMG) 신호를 분석하여 좌절감을 포함한 감정을 0.845 AUC 의 정확도로 식별할 수 있음을 입증하고, 무성 발화에서도 감정 신호가 유지됨을 보여줌으로써 감성 인식 무성 발화 인터페이스의 가능성을 제시합니다.
이 논문은 시간 차원 풀링을 도입하여 1D 특징 공간의 특성을 유지하면서 채널 차원을 효율적으로 확장할 수 있도록 개선된 ReDimNet2 아키텍처를 제안하고, 다양한 규모의 모델 구성을 통해 VoxCeleb1 벤치마크에서 계산 비용 대비 정확도 성능을 크게 향상시켰음을 보여줍니다.
이 논문은 MRI 스캐너 잡음이 제거된 음성과 청결한 환경에서 녹음된 음성을 비교 분석한 결과, MRI 기반 모델이 청결한 음성으로도 1.56mm 의 낮은 오차율로 효과적으로 조음 운동을 역추적할 수 있음을 입증했습니다.
이 논문은 MRI 기반 성도 재구성 성능을 평가하기 위해 MFCC 기반 베이스라인과 자동 전사, 시간 정렬, 전문가 교정 등 세 단계의 음성학적 정보 정확도를 비교한 결과, 시간 정렬 후 전문가 교정을 거친 모델이 가장 우수한 성능을 보였음을 보고합니다.
이 논문은 환경 소음과 사생활 문제를 해결하고 대언어 모델 (LLM) 을 활용한 의미 정렬을 통해 실용성을 확보한 침묵형 음성 인터페이스 (SSI) 의 최신 기술 동향, 센서 모달리티, 그리고 윤리적 과제에 대한 포괄적인 분류 체계와 체계적 검토를 제공합니다.
이 논문은 대규모 오디오 언어 모델 (LALMs) 이 현재 콘텐츠 중심 패러다임에서 간과하는 부언어적 단서를 재발견하기 위해 계층별 분석을 수행하고, 선택적 계층 미세조정과 보조 이중 수준 분류 헤드를 포함한 부언어적 강화 미세조정 (PE-FT) 프로토콜을 제안하여 모델의 부언어적 인식 능력을 효과적으로 향상시킨다는 내용입니다.
이 논문은 Shapley 값을 활용하여 오디오 - 비주얼 음성 인식 (AVSR) 모델의 모달리티 기여도를 분석하는 'Dr. SHAP-AV' 프레임워크를 제안하고, 다양한 실험을 통해 노이즈 환경에서도 오디오 편향이 지속되며 SNR 이 모달리티 가중치를 주도한다는 사실을 규명했습니다.
이 논문은 음악의 스타일과 사용자 프롬프트를 통합하여 다양한 스타일의 춤을 생성하고, 공간 - 시간 마스킹 메커니즘을 통해 궤적 기반 생성, 춤 끼워넣기, 춤 인페인팅 등 다양한 제어 작업을 수행할 수 있는 '스타일 가이드 모션 확산 (SGMD)' 모델을 제안합니다.
이 논문은 딥러닝을 활용하여 현장 녹음된 환경 소리를 실시간으로 Ableton Live 트랙에 자동 매핑함으로써 녹음자, 작곡가, 연주자 간의 상호작용을 가능하게 하는 실시간 앙상블 공연 시스템 'ExSampling'을 제안합니다.
이 연구는 두경부암 환자의 주관적 지각 평가와 객관적 음성 측정치 간의 강한 상관관계를 확인했으며, 특히 임상 모니터링을 위해 단일 지능성 측정만으로도 충분한 결과를 얻을 수 있음을 시사합니다.
이 논문은 11 개의 자기지도학습 (SSL) 음성 모델을 대상으로 한 대규모 프로빙 분석을 통해, 초기 계층이 기본 음향을, 중간 계층이 추상적 특성을 인코딩하며, 특히 대규모 모델의 깊은 계층에서 예상치 않게 화자 식별 정보가 회복되고 중간 표현이 전문 화자 임베딩보다 역동적 억양을 더 잘 포착한다는 사실을 규명함으로써 SSL 모델의 내부 메커니즘을 해독하고 해석 가능한 표현 선택 가이드라인을 제시합니다.
이 논문은 제한된 컴퓨팅 자원으로도 베트남어-영어 코드스위칭 음성 인식 성능을 획기적으로 향상시키는 효율적인 2 단계 음소 중심 아키텍처 (TSPC) 를 제안하고, 기존 베이스라인 대비 낮은 단어 오류율을 달성했음을 입증합니다.
이 논문은 40 개 이상의 언어로 된 1 만 3,000 시간 분량의 아동 중심 녹음 데이터를 기반으로 학습된 자기지도 학습 모델 'BabyHuBERT'를 제안하여, 기존 성인용 모델보다 다양한 언어 환경에서 아동과 성인의 음성을 구분하는 성능을 크게 향상시켰다고 요약할 수 있습니다.
본 논문은 오디오 인코더와 Mamba-2 백본을 통합하여 7B 파라미터 규모의 트랜스포머 기반 모델을 능가하는 성능을 보여주며, 오디오-언어 모델에 대한 SSM 의 설계 원칙과 분석을 제시하는 SAM 을 제안합니다.
이 논문은 대화형 음성 입력의 불유창성을 처리하는 과정에서 기존 LLM 기반 SpeechLLM 이 구조적 충실도보다 의미 추상화를 선호하여 성능이 저하됨을 규명하고, 미세조정만으로는 일반화 한계가 있음을 보여줍니다.
이 논문은 드럼 자동 전사를 판별적 작업이 아닌 생성적 작업으로 재정의하고, 음악 기반 모델의 특징을 활용하여 온셋과 속도를 동시에 최적화하는 확산 기반 프레임워크 'Noise-to-Notes(N2N)'를 제안함으로써 여러 벤치마크에서 새로운 최고 성능을 달성했다고 요약할 수 있습니다.
이 논문은 슈뢰딩거 브리지 훈련 패러다임과 Mamba 아키텍처를 결합한 '슈뢰딩거 브리지 Mamba(SBM)' 모델을 제안하여, 단 한 번의 추론 단계로 실시간 스트리밍이 가능한 고품질의 음성 향상 (잡음 제거 및 반향 제거) 을 달성함을 보여줍니다.
이 논문은 에너지 적응형 믹스업과 프레임 수준 어텐션 모듈을 통합한 다중 손실 학습 프레임워크를 제안하여, 데이터 부족과 감정 복잡성이라는 과제를 해결하고 IEMOCAP 등 주요 데이터셋에서 최첨단 성능을 달성한 음성 감정 인식 연구를 소개합니다.