Towards Lightweight Adaptation of Speech Enhancement Models in Real-World Environments
이 논문은 실시간 환경 변화에 대응하여 기존 음성 향상 모델의 1% 미만 파라미터만 업데이트하는 경량 자기지도 학습 어댑터 프레임워크를 제안함으로써, 온디바이스 배포에 적합한 실시간 적응을 가능하게 하고 성능을 크게 향상시킵니다.
157 편의 논문
이 논문은 실시간 환경 변화에 대응하여 기존 음성 향상 모델의 1% 미만 파라미터만 업데이트하는 경량 자기지도 학습 어댑터 프레임워크를 제안함으로써, 온디바이스 배포에 적합한 실시간 적응을 가능하게 하고 성능을 크게 향상시킵니다.
이 논문은 파킨슨병 음성 검출과 프라이버시 보호 간의 균형을 평가한 결과, STT-TTS 방식은 정보 손실이 크지만 kNN-VC 방식은 거시적 운율 특징을 보존하여 프라이버시를 유지하면서도 파킨슨병 검출 성능을 효과적으로 유지할 수 있음을 입증했습니다.
이 논문은 제로샷 텍스트 음성 변환 (TTS) 모델에서 특정 화자의 신원을 제거하는 '화자 중독 (SGSP)'이라는 새로운 문제를 정의하고, 15 명까지의 화자에 대해 유용성을 유지하면서 강력한 프라이버시를 보장하는 프레임워크를 제안합니다.
이 논문은 디지털 소외를 겪고 있는 네팔어 (뉴아리) 를 위한 최초의 말뭉치 'Nwāchā Munā'를 구축하고, 대규모 다국어 모델과 유사한 성능을 내는 지리·언어적으로 인접한 네팔어 기반의 전이 학습이 초저자원 자동음성인식 분야에서 효율적인 대안이 될 수 있음을 입증했습니다.
이 논문은 실제 엔진 녹음의 조화 구조를 분석하여 샘플 단위의 정밀한 RPM 및 토크 주석이 포함된 19 시간 분량의 'Procedural Engine Sounds Dataset'을 생성하고, 이를 통해 엔진 사운드 합성 및 제어 파라미터 추정 연구에 활용할 수 있는 데이터셋을 공개했습니다.
이 논문은 음성 인터페이스의 보안 위험을 실시간으로 탐지하고 동시에 전사를 수행하는 경량 모델 'VoiceSHIELD-Small'을 제안하여, 기존 텍스트 기반 필터링의 지연 문제를 해결하고 높은 정확도를 달성했음을 보여줍니다.
본 논문은 캐시된 오디오를 의미적으로 유사한 예시로 워밍업하여 학습 없이 텍스트-오디오 확산 모델의 지연 시간을 1.8~3.0 배 단축하면서도 음질을 유지하거나 향상시키는 첫 번째 모델-중립적 서비스 시스템인 'SoundWeaver'를 제안합니다.
이 논문은 레이블이 없는 타겟 도메인 데이터에서 오디오 딥페이크 탐지 성능을 향상시키기 위해 Wav2Vec 2.0 임베딩과 통계적 변환 (전력 변환, ANOVA 기반 특징 선택, 공동 PCA, CORAL 정렬) 을 결합한 모듈형 비지도 도메인 적응 파이프라인을 제안하고 그 유효성을 검증합니다.
이 논문은 Mamba 기반 확산 모델과 가우시안 기반 비트 표현을 도입하여 기존 트랜스포머 기반 방법의 한계를 극복하고, 음악의 리듬과 비트에 정확히 동기화된 고품질 춤 동작을 생성하는 'MambaDance'를 제안합니다.
이 논문은 풍부한 정상 발화 데이터로부터 위스퍼 발화를 생성하는 역방향 모델을 통해 확장 가능한 가짜 병렬 데이터를 확보하고, 이를 활용해 위스퍼를 정상 발화로 변환하는 성능을 대폭 향상시킨 양방향 프레임워크 'WhispEar'와 대규모 이중 언어 병렬 말뭉치를 제안합니다.
이 논문은 기존 연구의 단편성을 해결하기 위해 공개 데이터셋을 기반으로 한 통합 벤치마크 'PathBench'를 제안하고, 다양한 평가 프로토콜과 기준을 통해 병리적 음성 인식 방법론을 체계적으로 비교 평가하며, 특히 참조 없는 방법론 중 '이중 ASR 조음 정밀도 (DArtP)'가 가장 높은 상관관계를 보임을 입증했습니다.
이 논문은 마스킹 오디오 - 비주얼 정렬과 동적 조건부 흐름을 통해 비디오의 의미론적 및 리듬적 특성과 정밀하게 동기화된 고품질 사운드를 생성하는 'FoleyFlow' 모델을 제안합니다.
이 논문은 MFCC 기반 방법론보다 복잡한 사운드스케이프를 더 정확하게 분류하는 데 효과적인 새로운 스펙트로그램 기반 CNN 아키텍처를 제안하고, SAS-KIIT 및 UrbanSound8K 데이터셋을 통해 그 우수성을 입증했습니다.
이 논문은 오디오 신호의 넓은 활성화 범위로 인한 정량화 손실을 해결하기 위해 진화 전략 기반의 2 단계 최적화 기법인 ESC 를 제안하여, 음성 모델에서 INT8 및 INT4 저비트 정량화 시 거의 손실 없는 성능을 달성함을 보여줍니다.
이 논문은 두 채널의 대화 오디오를 기반으로 한 생성적 사전 학습을 통해 자연스러운 턴-테이킹을 학습하고 해석 가능한 에이전트 행동을 예측하는 'DualTurn' 모델을 제안하여, 기존 음성 파이프라인의 비자연스러운 턴 전환 문제를 해결하고 성능을 크게 향상시켰음을 보여줍니다.
이 논문은 인간의 감정 표현이 본질적으로 모호하다는 점을 고려하여, 대규모 오디오 - 언어 모델의 추론 능력을 개선하기 위해 인간 지각 분포와 정렬된 모호성 인식 목적 함수와 구조화된 사고 연쇄 감독을 도입한 새로운 프레임워크를 제안하고 IEMOCAP 및 CREMA-D 데이터셋에서 다양한 학습 전략을 통해 그 유효성을 입증합니다.
이 논문은 범위 - 영공간 분해 이론을 시간 - 주파수 도메인에 적용하여 투명성, 유연성, 효율성 문제를 해결하고 다양한 입력 구성에서 추론이 가능한 경량 상태-of-the-art 신경 보코더를 제안합니다.
이 논문은 고비트 심도 (24 비트) 오디오의 손실 압축을 위해 어휘 크기를 상수 수준으로 줄이는 'Trilobyte' 바이트 단위 토큰화 방식을 제안하여, 기존 코덱을 능가하는 언어 모델 기반의 실용적 오디오 압축을 가능하게 했음을 보여줍니다.
이 논문은 심층 음성 제거 (DNS) 모델이 저배경 잡음 및 시뮬레이션된 오버더에어 환경에서도 청각적으로 숨겨진 적대적 잡음에 의해 이해할 수 없는 소음으로 변질될 수 있음을 보여주며, 안전이 중요한 응용 분야에서 이러한 취약성을 해결하기 위한 실질적인 대응책이 시급함을 강조합니다.
이 논문은 다양한 모달리티 손실 상황에서도 안정적인 성능을 유지하기 위해 고손실률로 학습된 감정 인식 다중 등록 융합 방식을 제안하여, 한 프레임의 얼굴 이미지와 프레임 단위 입술 특징을 결합한 강건한 오디오 - 비주얼 화자 추출 모델을 개발했습니다.