Robust Audio-Visual Target Speaker Extraction with Emotion-Aware Multiple Enrollment Fusion
이 논문은 다양한 모달리티 손실 상황에서도 안정적인 성능을 유지하기 위해 고손실률로 학습된 감정 인식 다중 등록 융합 방식을 제안하여, 한 프레임의 얼굴 이미지와 프레임 단위 입술 특징을 결합한 강건한 오디오 - 비주얼 화자 추출 모델을 개발했습니다.
141 편의 논문
이 논문은 다양한 모달리티 손실 상황에서도 안정적인 성능을 유지하기 위해 고손실률로 학습된 감정 인식 다중 등록 융합 방식을 제안하여, 한 프레임의 얼굴 이미지와 프레임 단위 입술 특징을 결합한 강건한 오디오 - 비주얼 화자 추출 모델을 개발했습니다.
이 논문은 음악 네트워크 표현에서 단일 특징 기반의 압축된 표현이 높은 불확실성과 낮은 모델 오차를 보이는 반면, 풍부한 다중 특징 표현은 더 정교한 구분을 제공하지만 상태 공간 확대로 인해 모델 오차가 증가함을 보여주어, 특징 선택이 네트워크 구조뿐만 아니라 청자의 기대를 반영하는 불확실성의 적합성까지 결정한다는 것을 규명합니다.
이 논문은 기존 음성 활동 감지 (VAD) 모델의 특정 계층에 대해 하이퍼네트워크를 통해 개인화된 가중치를 생성하는 'HyWA'를 제안하여, 기존 스피커 조건부 방법보다 성능을 향상시키고 동일한 아키텍처 재사용을 통한 배포 용이성을 확보했다고 요약할 수 있습니다.
이 논문은 다양한 시점의 영상 정보를 학습 단계에서 효과적으로 융합하여 단일 시점 입력 시에도 성능을 크게 향상시키고, 다중 시점 입력 시에는 더욱 견고한 오디오 - 비주얼 화자 추출을 가능하게 하는 '다중 뷰 텐서 융합 (MVTF)' 프레임워크를 제안합니다.
이 논문은 오디오 대규모 언어 모델을 보정 및 강화 학습 (GRPO) 을 통해 다차원 지각 특성과 시간적 위치를 정밀하게 분석하도록 조정하여, 기존 평균 의견 점수 (MOS) 를 넘어선 설명 가능한 음성 품질 평가의 새로운 기준을 제시합니다.
이 논문은 C++ 로 구현된 Max 외부 객체 'nlm'을 소개하여, 작곡가와 사운드 디자이너가 물리 모델링 파라미터를 실시간으로 제어하고 커스텀 모드 데이터를 불러와 현, 막, 판의 비선형 모달 합성을 쉽게 구현할 수 있도록 함으로써 비선형 모달 합성의 접근성을 높인다고 설명합니다.
이 논문은 현재 널리 사용되는 음성 토크나이저가 의미론적 정보보다는 음운론적 정보를 주로 포착한다는 사실을 다양한 분석 기법을 통해 규명하고, 이를 바탕으로 차세대 음성 토크나이저 설계에 대한 시사점을 제시합니다.
이 논문은 화성음성 인식 (ASR), 음성 활동 감지 (VAD), 언어 식별 (LID), 구두점 예측 (Punc) 모듈을 통합하여 방언 및 코드스위칭까지 포괄하는 산업용 수준의 최첨단 자동 음성 인식 시스템 'FireRedASR2S'를 제안하고, 각 모듈이 기존 모델들을 능가하는 성능을 달성했음을 보고합니다.
이 논문은 장문의 다자간 중첩 음성을 처리할 때 chunk 단위 추론에서 회의 수준의 화자 일관성을 유지하면서 시간 스탬프가 포함된 화자 할당 전사문을 생성하기 위해, 시간 인식 화자 추적 모듈과 Speech-LLM 전사 백본을 결합한 종단간 시스템 'G-STAR'를 제안합니다.
이 논문은 지리 정보 시스템 데이터에서 추출된 지리 공간 의미적 맥락 (GSC) 을 오디오 신호와 결합하여 다중 레이블 오디오 태깅의 모호성을 해결하는 'Geo-AT'작업과 이를 평가하기 위한 벤치마크 'Geo-ATBench', 그리고 통합 융합 프레임워크 'GeoFusion-AT'를 제안합니다.
이 논문은 음성 품질 평가 지표인 MOS(평균 의견 점수) 에 존재하는 성별 편향을 체계적으로 분석하고, 남성 청취자가 여성보다 높은 점수를 부여하는 경향이 음성 품질이 낮을수록 두드러짐을 규명하며, 이를 해결하기 위해 성별별 평가 패턴을 학습하는 새로운 성별 인식 모델을 제안합니다.
이 논문은 LLM 기반 TTS 모델의 적응 과정에서 발생하는 과적합과 학습 속도 저하 문제를 해결하기 위해, 감정과 화자 정보의 기여도를 동적으로 분석하여 전체 파라미터의 약 8% 만을 선택적으로 미세 조정하는 'CSP-FT' 전략을 제안하며, 이를 통해 전 파라미터 미세 조정과同等한 성능을 유지하면서 학습 속도를 2 배 가속화하고 화자 및 발음 정확도를 향상시킨다고 설명합니다.
이 논문은 로봇 카트를 이용해 L 자형 궤적을 따라 이동하는 마이크로폰과 정적 마이크로폰으로 수집된 8,648 개의 정적 임펄스 응답 및 다양한 이동 중 오디오 데이터를 포함하는 'trajectoRIR' 데이터베이스를 소개하며, 음원 위치 추정 및 공간 음장 재구성 등 다양한 음향 신호 처리 연구에 활용될 수 있음을 제시합니다.
이 논문은 말투, 감정, 화자 특성 등 비언어적 단서를 고려한 음성-음성 (S2S) 상호작용을 평가하고 최적화하기 위해 새로운 강화학습 프레임워크인 ParaS2S 와 벤치마크를 제안하며, 기존 모델보다 우수한 성능을 달성함을 보여줍니다.
이 논문은 노이즈가 많은 오디오 신호에서 의미 있는 정보를 손실하지 않으면서도 비강화적 마스크 생성 없이 비디오 정보를 활용해 오디오 특징을 정제하는 Conformer 기반의 새로운 오디오 - 비주얼 음성 인식 (AVSR) 프레임워크를 제안하여, 기존 마스크 기반 방법보다 LRS3 벤치마크에서 더 우수한 성능을 입증했습니다.
이 논문은 말하기 LLM 이 기존 ASR-LLM 파이프라인보다 우월하다는 통념과 달리, 실제 대부분의 배포 시나리오에서는 고비용의 비효율적인 캐스케이드로 작동하며 오히려 잡음 환경에서 성능이 더 떨어질 수 있음을 메커니즘적 분석을 통해 입증합니다.
이 논문은 제한된 주석과 강한 도메인 편차로 인한 어려움을 해결하기 위해 MFCC, STFT, 피치 특징을 융합한 다중 분기 CNN 과 효율적인 Legendre 메모리 단위 (LMU) 를 활용하고, 엔트로피 기반 가중치를 적용한 보정된 사후 확률 앙상블 융합 기법을 통해 도메인 간 일반화 성능을 향상시킨 영아 울음소리 분류 프레임워크를 제안합니다.
이 논문은 실제 방 임펄스 응답을 사용하여 청결한 음성과 반향 음성을 쌍으로 구성한 'Whisper-RIR-Mega' 벤치마크 데이터셋을 소개하고, 다양한 크기의 Whisper 모델이 반향 환경에서 성능이 저하됨을 실험적으로 입증하여 ASR의 방 음향 강건성 평가를 지원한다고 요약할 수 있습니다.
이 논문은 이미지, 오디오, 텍스트 등 이질적인 모달리티를 별도의 전문가 모델이나 MoE 구조 없이 단일 밀집 Transformer 인코더로 압축하여 메모리 효율성을 극대화하면서도 경쟁력 있는 성능을 달성하는 'Omni-C'를 제안합니다.
이 논문은 자동 음성 인식에서 억센트 변이를 해석 가능한 잠재 공간으로 간주하고, 인코더의 중간 레이어에 집중된 억센트 정보를 활성화 공간에서 직접 제어하는 파라미터 없는 스티어링 기법을 제안하여 다양한 억센트에서 단어 오류율을 일관되게 감소시킵니다.