eess.AS 편의 논문 | Gist.Science

Robust Audio-Visual Target Speaker Extraction with Emotion-Aware Multiple Enrollment Fusion

이 논문은 다양한 모달리티 손실 상황에서도 안정적인 성능을 유지하기 위해 고손실률로 학습된 감정 인식 다중 등록 융합 방식을 제안하여, 한 프레임의 얼굴 이미지와 프레임 단위 입술 특징을 결합한 강건한 오디오 - 비주얼 화자 추출 모델을 개발했습니다.

Zhan Jin, Bang Zeng, Peijun Yang, Jiarong Du, Wei Ju, Yao Tian, Juan Liu, Ming LiThu, 12 Ma⚡ eess

Trade-offs between structural richness and communication efficiency in music network representations

이 논문은 음악 네트워크 표현에서 단일 특징 기반의 압축된 표현이 높은 불확실성과 낮은 모델 오차를 보이는 반면, 풍부한 다중 특징 표현은 더 정교한 구분을 제공하지만 상태 공간 확대로 인해 모델 오차가 증가함을 보여주어, 특징 선택이 네트워크 구조뿐만 아니라 청자의 기대를 반영하는 불확실성의 적합성까지 결정한다는 것을 규명합니다.

Lluc Bono Rosselló, Robert Jankowski, Hugues Bersini, Marián Boguñá, M. Ángeles SerranoThu, 12 Ma🧬 q-bio

HyWA: Hypernetwork Weight Adapting Personalized Voice Activity Detection

이 논문은 기존 음성 활동 감지 (VAD) 모델의 특정 계층에 대해 하이퍼네트워크를 통해 개인화된 가중치를 생성하는 'HyWA'를 제안하여, 기존 스피커 조건부 방법보다 성능을 향상시키고 동일한 아키텍처 재사용을 통한 배포 용이성을 확보했다고 요약할 수 있습니다.

Mahsa Ghazvini Nejad, Hamed Jafarzadeh Asl, Amin Edraki, Mohammadreza Sadeghi, Masoud Asgharian, Yuanhao Yu, Vahid Partovi NiaThu, 12 Ma⚡ eess

Multi-View Based Audio Visual Target Speaker Extraction

이 논문은 다양한 시점의 영상 정보를 학습 단계에서 효과적으로 융합하여 단일 시점 입력 시에도 성능을 크게 향상시키고, 다중 시점 입력 시에는 더욱 견고한 오디오 - 비주얼 화자 추출을 가능하게 하는 '다중 뷰 텐서 융합 (MVTF)' 프레임워크를 제안합니다.

Peijun Yang, Zhan Jin, Juan Liu, Ming LiThu, 12 Ma⚡ eess

Calibration-Reasoning Framework for Descriptive Speech Quality Assessment

이 논문은 오디오 대규모 언어 모델을 보정 및 강화 학습 (GRPO) 을 통해 다차원 지각 특성과 시간적 위치를 정밀하게 분석하도록 조정하여, 기존 평균 의견 점수 (MOS) 를 넘어선 설명 가능한 음성 품질 평가의 새로운 기준을 제시합니다.

Elizaveta Kostenok, Mathieu Salzmann, Milos CernakThu, 12 Ma⚡ eess

nlm: Real-Time Non-linear Modal Synthesis in Max

이 논문은 C++ 로 구현된 Max 외부 객체 'nlm'을 소개하여, 작곡가와 사운드 디자이너가 물리 모델링 파라미터를 실시간으로 제어하고 커스텀 모드 데이터를 불러와 현, 막, 판의 비선형 모달 합성을 쉽게 구현할 수 있도록 함으로써 비선형 모달 합성의 접근성을 높인다고 설명합니다.

Rodrigo Diaz, Rodrigo Constanzo, Mark SandlerThu, 12 Ma⚡ eess

Speech Codec Probing from Semantic and Phonetic Perspectives

이 논문은 현재 널리 사용되는 음성 토크나이저가 의미론적 정보보다는 음운론적 정보를 주로 포착한다는 사실을 다양한 분석 기법을 통해 규명하고, 이를 바탕으로 차세대 음성 토크나이저 설계에 대한 시사점을 제시합니다.

Xuan Shi, Chang Zeng, Tiantian Feng, Shih-Heng Wang, Jianbo Ma, Shrikanth NarayananThu, 12 Ma⚡ eess

FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System

이 논문은 화성음성 인식 (ASR), 음성 활동 감지 (VAD), 언어 식별 (LID), 구두점 예측 (Punc) 모듈을 통합하여 방언 및 코드스위칭까지 포괄하는 산업용 수준의 최첨단 자동 음성 인식 시스템 'FireRedASR2S'를 제안하고, 각 모듈이 기존 모델들을 능가하는 성능을 달성했음을 보고합니다.

Kaituo Xu, Yan Jia, Kai Huang, Junjie Chen, Wenpeng Li, Kun Liu, Feng-Long Xie, Xu Tang, Yao HuThu, 12 Ma⚡ eess

G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition

이 논문은 장문의 다자간 중첩 음성을 처리할 때 chunk 단위 추론에서 회의 수준의 화자 일관성을 유지하면서 시간 스탬프가 포함된 화자 할당 전사문을 생성하기 위해, 시간 인식 화자 추적 모듈과 Speech-LLM 전사 백본을 결합한 종단간 시스템 'G-STAR'를 제안합니다.

Jing Peng, Ziyi Chen, Haoyu Li, Yucheng Wang, Duo Ma, Mengtian Li, Yunfan Du, Dezhu Xu, Kai Yu, Shuai WangThu, 12 Ma⚡ eess

Geo-ATBench: A Benchmark for Geospatial Audio Tagging with Geospatial Semantic Context

이 논문은 지리 정보 시스템 데이터에서 추출된 지리 공간 의미적 맥락 (GSC) 을 오디오 신호와 결합하여 다중 레이블 오디오 태깅의 모호성을 해결하는 'Geo-AT'작업과 이를 평가하기 위한 벤치마크 'Geo-ATBench', 그리고 통합 융합 프레임워크 'GeoFusion-AT'를 제안합니다.

Yuanbo Hou, Yanru Wu, Qiaoqiao Ren, Shengchen Li, Stephen Roberts, Dick BotteldoorenThu, 12 Ma⚡ eess

MOS-Bias: From Hidden Gender Bias to Gender-Aware Speech Quality Assessment

이 논문은 음성 품질 평가 지표인 MOS(평균 의견 점수) 에 존재하는 성별 편향을 체계적으로 분석하고, 남성 청취자가 여성보다 높은 점수를 부여하는 경향이 음성 품질이 낮을수록 두드러짐을 규명하며, 이를 해결하기 위해 성별별 평가 패턴을 학습하는 새로운 성별 인식 모델을 제안합니다.

Wenze Ren, Yi-Cheng Lin, Wen-Chin Huang, Erica Cooper, Ryandhimas E. Zezario, Hsin-Min Wang, Hung-yi Lee, Yu TsaoThu, 12 Ma⚡ eess

Efficient Emotion and Speaker Adaptation in LLM-Based TTS via Characteristic-Specific Partial Fine-Tuning

이 논문은 LLM 기반 TTS 모델의 적응 과정에서 발생하는 과적합과 학습 속도 저하 문제를 해결하기 위해, 감정과 화자 정보의 기여도를 동적으로 분석하여 전체 파라미터의 약 8% 만을 선택적으로 미세 조정하는 'CSP-FT' 전략을 제안하며, 이를 통해 전 파라미터 미세 조정과同等한 성능을 유지하면서 학습 속도를 2 배 가속화하고 화자 및 발음 정확도를 향상시킨다고 설명합니다.

Tianrui Wang, Meng Ge, Cheng Gong, Chunyu Qiang, Haoyu Wang, Zikang Huang, Yu Jiang, Ye Ni, Yuheng Lu, Xiaobao Wang, Engsiong Chng, Xie Chen, Longbiao Wang, Jianwu DangMon, 09 Ma💻 cs

The trajectoRIR Database: Room Acoustic Recordings Along a Trajectory of Moving Microphones

이 논문은 로봇 카트를 이용해 L 자형 궤적을 따라 이동하는 마이크로폰과 정적 마이크로폰으로 수집된 8,648 개의 정적 임펄스 응답 및 다양한 이동 중 오디오 데이터를 포함하는 'trajectoRIR' 데이터베이스를 소개하며, 음원 위치 추정 및 공간 음장 재구성 등 다양한 음향 신호 처리 연구에 활용될 수 있음을 제시합니다.

Stefano Damiano, Kathleen MacWilliam, Valerio Lorenzoni, Thomas Dietzen, Toon van WaterschootMon, 09 Ma⚡ eess

ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-aware Speech-to-Speech Interaction

이 논문은 말투, 감정, 화자 특성 등 비언어적 단서를 고려한 음성-음성 (S2S) 상호작용을 평가하고 최적화하기 위해 새로운 강화학습 프레임워크인 ParaS2S 와 벤치마크를 제안하며, 기존 모델보다 우수한 성능을 달성함을 보여줍니다.

Shu-wen Yang, Ming Tu, Andy T. Liu, Xinghua Qu, Hung-yi Lee, Lu Lu, Yuxuan Wang, Yonghui WuMon, 09 Ma⚡ eess

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

이 논문은 노이즈가 많은 오디오 신호에서 의미 있는 정보를 손실하지 않으면서도 비강화적 마스크 생성 없이 비디오 정보를 활용해 오디오 특징을 정제하는 Conformer 기반의 새로운 오디오 - 비주얼 음성 인식 (AVSR) 프레임워크를 제안하여, 기존 마스크 기반 방법보다 LRS3 벤치마크에서 더 우수한 성능을 입증했습니다.

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei YinMon, 09 Ma🤖 cs.AI

The Cascade Equivalence Hypothesis: When Do Speech LLMs Behave Like ASR $\rightarrow$ LLM Pipelines?

이 논문은 말하기 LLM 이 기존 ASR-LLM 파이프라인보다 우월하다는 통념과 달리, 실제 대부분의 배포 시나리오에서는 고비용의 비효율적인 캐스케이드로 작동하며 오히려 잡음 환경에서 성능이 더 떨어질 수 있음을 메커니즘적 분석을 통해 입증합니다.

Jayadev BillaMon, 09 Ma🤖 cs.AI

LMU-Based Sequential Learning and Posterior Ensemble Fusion for Cross-Domain Infant Cry Classification

이 논문은 제한된 주석과 강한 도메인 편차로 인한 어려움을 해결하기 위해 MFCC, STFT, 피치 특징을 융합한 다중 분기 CNN 과 효율적인 Legendre 메모리 단위 (LMU) 를 활용하고, 엔트로피 기반 가중치를 적용한 보정된 사후 확률 앙상블 융합 기법을 통해 도메인 간 일반화 성능을 향상시킨 영아 울음소리 분류 프레임워크를 제안합니다.

Niloofar Jazaeri, Hilmi R. Dajani, Marco Janeczek, Martin BouchardMon, 09 Ma🤖 cs.LG

Whisper-RIR-Mega: A Paired Clean-Reverberant Speech Benchmark for ASR Robustness to Room Acoustics

이 논문은 실제 방 임펄스 응답을 사용하여 청결한 음성과 반향 음성을 쌍으로 구성한 'Whisper-RIR-Mega' 벤치마크 데이터셋을 소개하고, 다양한 크기의 Whisper 모델이 반향 환경에서 성능이 저하됨을 실험적으로 입증하여 ASR의 방 음향 강건성 평가를 지원한다고 요약할 수 있습니다.

Mandip GoswamiMon, 09 Ma🤖 cs.AI

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

이 논문은 이미지, 오디오, 텍스트 등 이질적인 모달리티를 별도의 전문가 모델이나 MoE 구조 없이 단일 밀집 Transformer 인코더로 압축하여 메모리 효율성을 극대화하면서도 경쟁력 있는 성능을 달성하는 'Omni-C'를 제안합니다.

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de GusmãoMon, 09 Ma🤖 cs.AI

Activation Steering for Accent Adaptation in Speech Foundation Models

이 논문은 자동 음성 인식에서 억센트 변이를 해석 가능한 잠재 공간으로 간주하고, 인코더의 중간 레이어에 집중된 억센트 정보를 활성화 공간에서 직접 제어하는 파라미터 없는 스티어링 기법을 제안하여 다양한 억센트에서 단어 오류율을 일관되게 감소시킵니다.

Jinuo Sun, Yang Xiao, Sung Kyun Chung, Qiuchi Hu, Gongping Huang, Eun-Jung Holden, Ting DangMon, 09 Ma⚡ eess

← 이전 다음 →

eess.AS