Evaluating Parkinson's Disease Detection in Anonymized Speech: A Performance and Acoustic Analysis

이 논문은 파킨슨병 음성 검출과 프라이버시 보호 간의 균형을 평가한 결과, STT-TTS 방식은 정보 손실이 크지만 kNN-VC 방식은 거시적 운율 특징을 보존하여 프라이버시를 유지하면서도 파킨슨병 검출 성능을 효과적으로 유지할 수 있음을 입증했습니다.

Carlos Franzreb, Francisco Teixeira, Ben Luks, Sebastian Möller, Alberto AbadTue, 10 Ma💻 cs

Nw\=ach\=a Mun\=a: A Devanagari Speech Corpus and Proximal Transfer Benchmark for Nepal Bhasha ASR

이 논문은 디지털 소외를 겪고 있는 네팔어 (뉴아리) 를 위한 최초의 말뭉치 'Nwāchā Munā'를 구축하고, 대규모 다국어 모델과 유사한 성능을 내는 지리·언어적으로 인접한 네팔어 기반의 전이 학습이 초저자원 자동음성인식 분야에서 효율적인 대안이 될 수 있음을 입증했습니다.

Rishikesh Kumar Sharma, Safal Narshing Shrestha, Jenny Poudel, Rupak Tiwari, Arju Shrestha, Rupak Raj Ghimire, Bal Krishna BalTue, 10 Ma💬 cs.CL

Unsupervised Domain Adaptation for Audio Deepfake Detection with Modular Statistical Transformations

이 논문은 레이블이 없는 타겟 도메인 데이터에서 오디오 딥페이크 탐지 성능을 향상시키기 위해 Wav2Vec 2.0 임베딩과 통계적 변환 (전력 변환, ANOVA 기반 특징 선택, 공동 PCA, CORAL 정렬) 을 결합한 모듈형 비지도 도메인 적응 파이프라인을 제안하고 그 유효성을 검증합니다.

Urawee Thani, Gagandeep Singh, Priyanka SinghTue, 10 Ma💻 cs

WhispEar: A Bi-directional Framework for Scaling Whispered Speech Conversion via Pseudo-Parallel Whisper Generation

이 논문은 풍부한 정상 발화 데이터로부터 위스퍼 발화를 생성하는 역방향 모델을 통해 확장 가능한 가짜 병렬 데이터를 확보하고, 이를 활용해 위스퍼를 정상 발화로 변환하는 성능을 대폭 향상시킨 양방향 프레임워크 'WhispEar'와 대규모 이중 언어 병렬 말뭉치를 제안합니다.

Zihao Fang, Yingda Shen, Zifan Guan, Tongtong Song, Zhenyi Liu, Zhizheng WuTue, 10 Ma💻 cs

PathBench: Speech Intelligibility Benchmark for Automatic Pathological Speech Assessment

이 논문은 기존 연구의 단편성을 해결하기 위해 공개 데이터셋을 기반으로 한 통합 벤치마크 'PathBench'를 제안하고, 다양한 평가 프로토콜과 기준을 통해 병리적 음성 인식 방법론을 체계적으로 비교 평가하며, 특히 참조 없는 방법론 중 '이중 ASR 조음 정밀도 (DArtP)'가 가장 높은 상관관계를 보임을 입증했습니다.

Bence Mark Halpern, Thomas Tienkamp, Defne Abur, Tomoki TodaTue, 10 Ma💻 cs

Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction

이 논문은 인간의 감정 표현이 본질적으로 모호하다는 점을 고려하여, 대규모 오디오 - 언어 모델의 추론 능력을 개선하기 위해 인간 지각 분포와 정렬된 모호성 인식 목적 함수와 구조화된 사고 연쇄 감독을 도입한 새로운 프레임워크를 제안하고 IEMOCAP 및 CREMA-D 데이터셋에서 다양한 학습 전략을 통해 그 유효성을 입증합니다.

Xiaofeng Yu, Jiaheng Dong, Jean Honorio, Abhirup Ghosh, Hong Jia, Ting DangTue, 10 Ma💻 cs

Are Deep Speech Denoising Models Robust to Adversarial Noise?

이 논문은 심층 음성 제거 (DNS) 모델이 저배경 잡음 및 시뮬레이션된 오버더에어 환경에서도 청각적으로 숨겨진 적대적 잡음에 의해 이해할 수 없는 소음으로 변질될 수 있음을 보여주며, 안전이 중요한 응용 분야에서 이러한 취약성을 해결하기 위한 실질적인 대응책이 시급함을 강조합니다.

Will Schwarzer, Neel Chaudhari, Philip S. Thomas, Andrea Fanelli, Xiaoyu LiuThu, 12 Ma⚡ eess

Robust Audio-Visual Target Speaker Extraction with Emotion-Aware Multiple Enrollment Fusion

이 논문은 다양한 모달리티 손실 상황에서도 안정적인 성능을 유지하기 위해 고손실률로 학습된 감정 인식 다중 등록 융합 방식을 제안하여, 한 프레임의 얼굴 이미지와 프레임 단위 입술 특징을 결합한 강건한 오디오 - 비주얼 화자 추출 모델을 개발했습니다.

Zhan Jin, Bang Zeng, Peijun Yang, Jiarong Du, Wei Ju, Yao Tian, Juan Liu, Ming LiThu, 12 Ma⚡ eess