Affect Decoding in Phonated and Silent Speech Production from Surface EMG

이 논문은 발화 및 무성 발화 중 얼굴과 목의 표면 근전도 (sEMG) 신호를 분석하여 좌절감을 포함한 감정을 0.845 AUC 의 정확도로 식별할 수 있음을 입증하고, 무성 발화에서도 감정 신호가 유지됨을 보여줌으로써 감성 인식 무성 발화 인터페이스의 가능성을 제시합니다.

Simon Pistrosch, Kleanthis Avramidis, Tiantian Feng, Jihwan Lee, Monica Gonzalez-Machorro, Shrikanth Narayanan, Björn W. SchullerFri, 13 Ma⚡ eess

Silent Speech Interfaces in the Era of Large Language Models: A Comprehensive Taxonomy and Systematic Review

이 논문은 환경 소음과 사생활 문제를 해결하고 대언어 모델 (LLM) 을 활용한 의미 정렬을 통해 실용성을 확보한 침묵형 음성 인터페이스 (SSI) 의 최신 기술 동향, 센서 모달리티, 그리고 윤리적 과제에 대한 포괄적인 분류 체계와 체계적 검토를 제공합니다.

Kele Xu, Yifan Wang, Ming Feng, Qisheng Xu, Wuyang Chen, Yutao Dou, Cheng Yang, Huaimin WangFri, 13 Ma⚡ eess

Resurfacing Paralinguistic Awareness in Large Audio Language Models

이 논문은 대규모 오디오 언어 모델 (LALMs) 이 현재 콘텐츠 중심 패러다임에서 간과하는 부언어적 단서를 재발견하기 위해 계층별 분석을 수행하고, 선택적 계층 미세조정과 보조 이중 수준 분류 헤드를 포함한 부언어적 강화 미세조정 (PE-FT) 프로토콜을 제안하여 모델의 부언어적 인식 능력을 효과적으로 향상시킨다는 내용입니다.

Hao Yang, Minghan Wang, Tongtong Wu, Lizhen Qu, Ehsan Shareghi, Gholamreza HaffariFri, 13 Ma⚡ eess

Dr. SHAP-AV: Decoding Relative Modality Contributions via Shapley Attribution in Audio-Visual Speech Recognition

이 논문은 Shapley 값을 활용하여 오디오 - 비주얼 음성 인식 (AVSR) 모델의 모달리티 기여도를 분석하는 'Dr. SHAP-AV' 프레임워크를 제안하고, 다양한 실험을 통해 노이즈 환경에서도 오디오 편향이 지속되며 SNR 이 모달리티 가중치를 주도한다는 사실을 규명했습니다.

Umberto Cappellazzo, Stavros Petridis, Maja PanticFri, 13 Ma⚡ eess

A Large-Scale Probing Analysis of Speaker-Specific Attributes in Self-Supervised Speech Representations

이 논문은 11 개의 자기지도학습 (SSL) 음성 모델을 대상으로 한 대규모 프로빙 분석을 통해, 초기 계층이 기본 음향을, 중간 계층이 추상적 특성을 인코딩하며, 특히 대규모 모델의 깊은 계층에서 예상치 않게 화자 식별 정보가 회복되고 중간 표현이 전문 화자 임베딩보다 역동적 억양을 더 잘 포착한다는 사실을 규명함으로써 SSL 모델의 내부 메커니즘을 해독하고 해석 가능한 표현 선택 가이드라인을 제시합니다.

Aemon Yat Fei Chiu, Kei Ching Fung, Roger Tsz Yeung Li + 2 more2026-03-06💻 cs

BabyHuBERT: Multilingual Self-Supervised Learning for Segmenting Speakers in Child-Centered Long-Form Recordings

이 논문은 40 개 이상의 언어로 된 1 만 3,000 시간 분량의 아동 중심 녹음 데이터를 기반으로 학습된 자기지도 학습 모델 'BabyHuBERT'를 제안하여, 기존 성인용 모델보다 다양한 언어 환경에서 아동과 성인의 음성을 구분하는 성능을 크게 향상시켰다고 요약할 수 있습니다.

Théo Charlot, Tarek Kunze, Maxime Poli + 3 more2026-03-06💻 cs

Noise-to-Notes: Diffusion-based Generation and Refinement for Automatic Drum Transcription

이 논문은 드럼 자동 전사를 판별적 작업이 아닌 생성적 작업으로 재정의하고, 음악 기반 모델의 특징을 활용하여 온셋과 속도를 동시에 최적화하는 확산 기반 프레임워크 'Noise-to-Notes(N2N)'를 제안함으로써 여러 벤치마크에서 새로운 최고 성능을 달성했다고 요약할 수 있습니다.

Michael Yeung, Keisuke Toyama, Toya Teramoto + 2 more2026-03-06💻 cs