Robust Audio-Visual Target Speaker Extraction with Emotion-Aware Multiple Enrollment Fusion

이 논문은 다양한 모달리티 손실 상황에서도 안정적인 성능을 유지하기 위해 고손실률로 학습된 감정 인식 다중 등록 융합 방식을 제안하여, 한 프레임의 얼굴 이미지와 프레임 단위 입술 특징을 결합한 강건한 오디오 - 비주얼 화자 추출 모델을 개발했습니다.

Zhan Jin, Bang Zeng, Peijun Yang, Jiarong Du, Wei Ju, Yao Tian, Juan Liu, Ming LiThu, 12 Ma⚡ eess

Trade-offs between structural richness and communication efficiency in music network representations

이 논문은 음악 네트워크 표현에서 단일 특징 기반의 압축된 표현이 높은 불확실성과 낮은 모델 오차를 보이는 반면, 풍부한 다중 특징 표현은 더 정교한 구분을 제공하지만 상태 공간 확대로 인해 모델 오차가 증가함을 보여주어, 특징 선택이 네트워크 구조뿐만 아니라 청자의 기대를 반영하는 불확실성의 적합성까지 결정한다는 것을 규명합니다.

Lluc Bono Rosselló, Robert Jankowski, Hugues Bersini, Marián Boguñá, M. Ángeles SerranoThu, 12 Ma🧬 q-bio

HyWA: Hypernetwork Weight Adapting Personalized Voice Activity Detection

이 논문은 기존 음성 활동 감지 (VAD) 모델의 특정 계층에 대해 하이퍼네트워크를 통해 개인화된 가중치를 생성하는 'HyWA'를 제안하여, 기존 스피커 조건부 방법보다 성능을 향상시키고 동일한 아키텍처 재사용을 통한 배포 용이성을 확보했다고 요약할 수 있습니다.

Mahsa Ghazvini Nejad, Hamed Jafarzadeh Asl, Amin Edraki, Mohammadreza Sadeghi, Masoud Asgharian, Yuanhao Yu, Vahid Partovi NiaThu, 12 Ma⚡ eess

FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System

이 논문은 화성음성 인식 (ASR), 음성 활동 감지 (VAD), 언어 식별 (LID), 구두점 예측 (Punc) 모듈을 통합하여 방언 및 코드스위칭까지 포괄하는 산업용 수준의 최첨단 자동 음성 인식 시스템 'FireRedASR2S'를 제안하고, 각 모듈이 기존 모델들을 능가하는 성능을 달성했음을 보고합니다.

Kaituo Xu, Yan Jia, Kai Huang, Junjie Chen, Wenpeng Li, Kun Liu, Feng-Long Xie, Xu Tang, Yao HuThu, 12 Ma⚡ eess

G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition

이 논문은 장문의 다자간 중첩 음성을 처리할 때 chunk 단위 추론에서 회의 수준의 화자 일관성을 유지하면서 시간 스탬프가 포함된 화자 할당 전사문을 생성하기 위해, 시간 인식 화자 추적 모듈과 Speech-LLM 전사 백본을 결합한 종단간 시스템 'G-STAR'를 제안합니다.

Jing Peng, Ziyi Chen, Haoyu Li, Yucheng Wang, Duo Ma, Mengtian Li, Yunfan Du, Dezhu Xu, Kai Yu, Shuai WangThu, 12 Ma⚡ eess

Geo-ATBench: A Benchmark for Geospatial Audio Tagging with Geospatial Semantic Context

이 논문은 지리 정보 시스템 데이터에서 추출된 지리 공간 의미적 맥락 (GSC) 을 오디오 신호와 결합하여 다중 레이블 오디오 태깅의 모호성을 해결하는 'Geo-AT'작업과 이를 평가하기 위한 벤치마크 'Geo-ATBench', 그리고 통합 융합 프레임워크 'GeoFusion-AT'를 제안합니다.

Yuanbo Hou, Yanru Wu, Qiaoqiao Ren, Shengchen Li, Stephen Roberts, Dick BotteldoorenThu, 12 Ma⚡ eess

MOS-Bias: From Hidden Gender Bias to Gender-Aware Speech Quality Assessment

이 논문은 음성 품질 평가 지표인 MOS(평균 의견 점수) 에 존재하는 성별 편향을 체계적으로 분석하고, 남성 청취자가 여성보다 높은 점수를 부여하는 경향이 음성 품질이 낮을수록 두드러짐을 규명하며, 이를 해결하기 위해 성별별 평가 패턴을 학습하는 새로운 성별 인식 모델을 제안합니다.

Wenze Ren, Yi-Cheng Lin, Wen-Chin Huang, Erica Cooper, Ryandhimas E. Zezario, Hsin-Min Wang, Hung-yi Lee, Yu TsaoThu, 12 Ma⚡ eess

Efficient Emotion and Speaker Adaptation in LLM-Based TTS via Characteristic-Specific Partial Fine-Tuning

이 논문은 LLM 기반 TTS 모델의 적응 과정에서 발생하는 과적합과 학습 속도 저하 문제를 해결하기 위해, 감정과 화자 정보의 기여도를 동적으로 분석하여 전체 파라미터의 약 8% 만을 선택적으로 미세 조정하는 'CSP-FT' 전략을 제안하며, 이를 통해 전 파라미터 미세 조정과同等한 성능을 유지하면서 학습 속도를 2 배 가속화하고 화자 및 발음 정확도를 향상시킨다고 설명합니다.

Tianrui Wang, Meng Ge, Cheng Gong, Chunyu Qiang, Haoyu Wang, Zikang Huang, Yu Jiang, Ye Ni, Yuheng Lu, Xiaobao Wang, Engsiong Chng, Xie Chen, Longbiao Wang, Jianwu DangMon, 09 Ma💻 cs

The trajectoRIR Database: Room Acoustic Recordings Along a Trajectory of Moving Microphones

이 논문은 로봇 카트를 이용해 L 자형 궤적을 따라 이동하는 마이크로폰과 정적 마이크로폰으로 수집된 8,648 개의 정적 임펄스 응답 및 다양한 이동 중 오디오 데이터를 포함하는 'trajectoRIR' 데이터베이스를 소개하며, 음원 위치 추정 및 공간 음장 재구성 등 다양한 음향 신호 처리 연구에 활용될 수 있음을 제시합니다.

Stefano Damiano, Kathleen MacWilliam, Valerio Lorenzoni, Thomas Dietzen, Toon van WaterschootMon, 09 Ma⚡ eess

ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-aware Speech-to-Speech Interaction

이 논문은 말투, 감정, 화자 특성 등 비언어적 단서를 고려한 음성-음성 (S2S) 상호작용을 평가하고 최적화하기 위해 새로운 강화학습 프레임워크인 ParaS2S 와 벤치마크를 제안하며, 기존 모델보다 우수한 성능을 달성함을 보여줍니다.

Shu-wen Yang, Ming Tu, Andy T. Liu, Xinghua Qu, Hung-yi Lee, Lu Lu, Yuxuan Wang, Yonghui WuMon, 09 Ma⚡ eess

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

이 논문은 노이즈가 많은 오디오 신호에서 의미 있는 정보를 손실하지 않으면서도 비강화적 마스크 생성 없이 비디오 정보를 활용해 오디오 특징을 정제하는 Conformer 기반의 새로운 오디오 - 비주얼 음성 인식 (AVSR) 프레임워크를 제안하여, 기존 마스크 기반 방법보다 LRS3 벤치마크에서 더 우수한 성능을 입증했습니다.

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei YinMon, 09 Ma🤖 cs.AI

LMU-Based Sequential Learning and Posterior Ensemble Fusion for Cross-Domain Infant Cry Classification

이 논문은 제한된 주석과 강한 도메인 편차로 인한 어려움을 해결하기 위해 MFCC, STFT, 피치 특징을 융합한 다중 분기 CNN 과 효율적인 Legendre 메모리 단위 (LMU) 를 활용하고, 엔트로피 기반 가중치를 적용한 보정된 사후 확률 앙상블 융합 기법을 통해 도메인 간 일반화 성능을 향상시킨 영아 울음소리 분류 프레임워크를 제안합니다.

Niloofar Jazaeri, Hilmi R. Dajani, Marco Janeczek, Martin BouchardMon, 09 Ma🤖 cs.LG

Activation Steering for Accent Adaptation in Speech Foundation Models

이 논문은 자동 음성 인식에서 억센트 변이를 해석 가능한 잠재 공간으로 간주하고, 인코더의 중간 레이어에 집중된 억센트 정보를 활성화 공간에서 직접 제어하는 파라미터 없는 스티어링 기법을 제안하여 다양한 억센트에서 단어 오류율을 일관되게 감소시킵니다.

Jinuo Sun, Yang Xiao, Sung Kyun Chung, Qiuchi Hu, Gongping Huang, Eun-Jung Holden, Ting DangMon, 09 Ma⚡ eess