Training Dynamics-Aware Multi-Factor Curriculum Learning for Target Speaker Extraction
이 논문은 다양한 학습 요인의 복잡한 상호작용과 실제 모델 학습 동향을 반영하기 위해 다중 요인 커리큘럼 학습 전략과 TSE-Datamap 시각화 프레임워크를 제안하여 목표 화자 추출 성능을 향상시키는 방법을 다룹니다.
163 편의 논문
이 논문은 다양한 학습 요인의 복잡한 상호작용과 실제 모델 학습 동향을 반영하기 위해 다중 요인 커리큘럼 학습 전략과 TSE-Datamap 시각화 프레임워크를 제안하여 목표 화자 추출 성능을 향상시키는 방법을 다룹니다.
이 논문은 이중 ASR 검증과 비판적 피드백을 통한 엄격한 선별 프로세스를 적용하여 대만어 방언 특화 오디오 - 텍스트 데이터셋 'TW-Sound580K'를 구축하고, 이를 기반으로 한 Tai-LALM 모델이 TAU 벤치마크에서 기존 베이스라인 대비 6.5% 향상된 49.1% 의 정확도를 달성하여 지역화된 오디오 - 언어 모델링 성능을 크게 개선했음을 보여줍니다.
본 논문은 여러 사운드 이벤트가 공존하는 복합적 구조를 가진 폴리포닉 오디오의 추론 능력을 평가하기 위해 'PolyBench'라는 새로운 벤치마크를 제안하고, 최신 대규모 오디오 언어 모델들이 이러한 환경에서 일관된 성능 저하를 보임을 규명합니다.
이 논문은 기존 테스트 시간 적응 방법의 확인 편향을 극복하기 위해, 오디오 - 텍스트 의미 정합성을 보상 신호로 활용하는 강화 학습 기반의 새로운 프레임워크 'ASR-TRA'를 제안하여 잡음과 다양한 억양이 포함된 실제 환경에서 ASR 시스템의 강건성과 정확도를 향상시킵니다.
이 논문은 텍스트, 음성, 시각적 단서를 통합한 다중 모달 유머 탐지를 위해 강화 학습 기반의 'SarcasmMiner' 프레임워크를 제안하며, 구조화된 추론과 이중 궤도 증류 전략을 통해 MUStARD++ 데이터셋에서 기존 방법론 대비 성능을 크게 향상시켰음을 보여줍니다.
이 논문은 텍스트 지도나 복잡한 하이브리드 구조 없이 WavLM 표현을 단일 코드북으로 양자화하고 자기회귀적 다음 청크 예측을 통해 학습된 단일 스트림 음성 언어 모델 'WavSLM'을 제안하여, 단순한 아키텍처로도 경쟁력 있는 음성 생성 및 일관성 성능을 달성함을 보여줍니다.
이 논문은 복잡한 실제 환경의 음성 열화를 효과적으로 처리하기 위해 기존 입력층 주입 방식의 한계를 극복하고, 사전 학습된 인코더에서 추출한 열화 조건 정보를 모든 잔차 블록에 걸쳐 주입하는 'SLICE' 방법을 제안합니다.
이 논문은 신경망 기반 오디오 재합성에 강한 내성을 갖도록 코덱의 불변 잠재 공간에 워터마크를 삽입하고 여러 코덱을 통한 교차 최적화를 적용한 최초의 제로 비트 오디오 워터마킹 프레임워크인 'Latent-Mark'를 제안합니다.
본 논문은 신경 코덱 언어 모델의 추론 과정에서 발생하는 토큰 수준의 아티팩트와 분포 이탈을 해결하기 위해, 다중 해상도 스푸핑 탐지를 계층적 디코딩 전략에 통합하여 모델 재학습 없이 제로샷 음성 합성의 견고성과 품질을 향상시키는 'MSpoof-TTS' 프레임워크를 제안합니다.
이 논문은 개별 모델의 속도보다는 스트리밍과 파이프라인 기법이 실시간 음성 에이전트의 핵심임을 규명하고, Deepgram, vLLM, ElevenLabs 등을 활용한 엔터프라이즈급 실시간 음성 에이전트 구축을 위한 완전한 기술 튜토리얼을 제공합니다.
이 논문은 임베디드 및 이종 장치에서 가변적인 컴퓨팅 요구 사항에 맞춰 조정 가능한 단일 채널 음성 분리를 위해, 불확실성을 고려한 확률론적 프레임워크를 활용하여 재구성 품질을 저해하지 않으면서도 계산 비용을 크게 절감할 수 있는 조기 종료 (early-exit) 기능을 갖춘 신경망 아키텍처를 제안합니다.
이 논문은 유동 및 확산 기반 음성 향상 모델의 다단계 추론 병목 현상을 해결하기 위해, 유한 구간 평균 속도를 학습하여 단일 단계로 고품질 음성 향상을 가능하게 하는 'MeanFlowSE'를 제안합니다.
이 논문은 오디오와 악보의 시그널을 효과적으로 정렬하고 모호성을 줄이기 위해 두 개의 스트림 인코더와 심볼릭 프롬프트를 활용한 멀티모달 인터리브드 트랜스포머 모델 'LadderSym'을 제안하여 기존 방법 대비 음악 연습 오류 감지 성능을 획기적으로 개선했다고 요약할 수 있습니다.
이 논문은 다양한 하위 작업에서 우수한 성능을 보이는 최신 자기지도 학습 오디오 모델이 뇌 활동과 더 높은 유사성을 보이며, 이러한 뇌-모델 정렬 정도가 작업 수행 능력과 강한 양의 상관관계를 가짐을 확인하고, 자연음 복원 학습 과정에서 뇌와 유사한 표현이 의도하지 않게 발현됨을 규명했습니다.
이 논문은 제한된 리소스 환경에서 TinyML 키워드 감지 모델의 다목적 최적화 시 초기화 민감도를 해결하기 위해, 다목적 시뮬레이션 어닐링을 통해 생성된 파레토 편향 솔루션으로 대리 모델을 초기화하는 'OASI'를 제안하여 수렴성과 배포 가능성을 향상시킨다는 내용입니다.
이 논문은 텍스트, 가사, 오디오 프롬프트 등 복합 멀티모달 지시를 기반으로 한 음악 생성 모델을 평가하기 위해 대규모 선호도 데이터셋, 인간 주석 코퍼스, 통합 벤치마크인 CMI-RewardBench 및 효율적인 보상 모델 (CMI-RM) 을 제안하여 음악 생성의 정밀한 정렬과 인간 평가와의 높은 상관관계를 입증합니다.
이 논문은 딥러닝 기반의 자동화 프레임워크인 SMMA 를 제안하여 음성 중 구개수근의 두께를 정밀하게 측정함으로써 대규모 연구와 임상 평가를 가능하게 했음을 보여줍니다.
이 논문은 자동 음성 인식 (ASR) 모델의 억 accent 편차를 진단하는 'ACES' 프레임워크를 제안하며, accent 정보가 인식에 필수적인 특징과 깊이 얽혀 있어 단순한 제거 방식으로는 공정성을 개선하기 어렵다는 점을 규명했습니다.
이 논문은 ICASSP 2025 음악 소스 복원 (MSR) 챌린지를 위해 CP-JKU 팀이 제안한, 3 단계 커리큘럼 학습을 거친 BandSplit-RoFormer 분리 모델과 8 개 악기별 전문가로 특화된 HiFi++ GAN 복원 모델을 결합한 다단계 음악 소스 복원 시스템을 소개합니다.
이 논문은 기존 확산 및 흐름 기반 모델보다 훨씬 적은 파라미터와 연산 비용으로 48kHz 오디오 초해상도 작업을 수행하면서도 NU-Wave 2 보다 우수한 성능을 보이는 경량화된 확산 모델 'FastWave'를 제안합니다.