cs.SD 편의 논문 | Gist.Science

[b]=[d]-[t]+[p]: Self-supervised Speech Models Discover Phonological Vector Arithmetic

이 논문은 자기지도학습 음성 모델이 음운론적 특징을 선형 벡터로 인코딩하여 음소 간의 산술 연산 (예: [d]-[t]+[p]=[b]) 이 가능함을 96 개 언어를 대상으로 한 연구를 통해 입증했습니다.

Kwanghee Choi, Eunjung Yeo, Cheol Jun Cho, David Harwath, David R. MortensenFri, 13 Ma⚡ eess

V2A-DPO: Omni-Preference Optimization for Video-to-Audio Generation

이 논문은 흐름 기반 비디오-오디오 생성 모델을 인간의 선호도와 정렬시키기 위해 AudioScore 기반의 선호도 데이터 파이프라인과 커리큘럼 학습을 활용한 DPO 프레임워크인 V2A-DPO 를 제안하며, 이를 통해 기존 모델들보다 뛰어난 성능을 입증합니다.

Nolan Chan, Timmy Gang, Yongqian Wang, Yuzhe Liang, Dingdong WangFri, 13 Ma⚡ eess

Multimodal Self-Attention Network with Temporal Alignment for Audio-Visual Emotion Recognition

이 논문은 오디오와 비디오의 서로 다른 샘플링 주파수 문제를 해결하기 위해 시간 정렬 로터리 위치 임베딩 (TaRoPE) 과 교차 시간 매칭 손실 (CTM) 을 도입한 멀티모달 자기주의 네트워크를 제안하여, 오디오 - 비디오 감정 인식의 성능을 향상시켰습니다.

Inyong Koo, yeeun Seong, Minseok Son, Jaehyuk Jang, Changick KimFri, 13 Ma⚡ eess

Uni-ASR: Unified LLM-Based Architecture for Non-Streaming and Streaming Automatic Speech Recognition

이 논문은 저지연 스트리밍 환경에서도 비스트리밍 및 스트리밍 자동 음성 인식 (ASR) 을 하나의 아키텍처로 통합하고, 추가적인 지연 없이 정확도를 향상시키는 Uni-ASR 프레임워크를 제안합니다.

Yinfeng Xia, Jian Tang, Junfeng Hou, Gaopeng Xu, Haitao YaoFri, 13 Ma💬 cs.CL

Huntington Disease Automatic Speech Recognition with Biomarker Supervision

이 논문은 헌팅턴병 환자의 병리적 음성을 위한 자동 음성 인식 (ASR) 성능을 향상시키기 위해 고품질 임상 말뭉치를 활용하고, Parakeet-TDT 아키텍처의 우수성을 입증하며, 생체표지자 기반 보조 감독을 통해 오류 패턴을 질병 중증도에 맞게 재구성하는 새로운 방법을 제시합니다.

Charles L. Wang, Cady Chen, Ziwei Gong, Julia HirschbergFri, 13 Ma🤖 cs.LG

Can LLMs Help Localize Fake Words in Partially Fake Speech?

이 논문은 텍스트로 훈련된 대규모 언어 모델 (LLM) 을 음성 모델에 적용하여 부분적으로 편집된 음성 내의 가짜 단어를 국소화할 수 있는지 탐구했으며, 실험 결과 모델이 특정 편집 패턴에 과도하게 의존하여 일반화 능력이 제한될 수 있음을 보여주었습니다.

Lin Zhang, Thomas Thebaud, Zexin Cai, Sanjeev Khudanpur, Daniel Povey, Leibny Paola García-Perera, Matthew Wiesner, Nicholas AndrewsFri, 13 Ma⚡ eess

Cough activity detection for automatic tuberculosis screening

이 논문은 XLS-R 모델의 초기 레이어를 활용하여 결핵 환자의 기침 구간을 고정밀도로 자동 탐지함으로써 스마트폰 기반의 확장 가능한 결핵 선별 도구 개발의 실현 가능성을 입증했습니다.

Joshua Jansen van Vüren, Devendra Singh Parihar, Daphne Naidoo, Kimsey Zajac, Willy Ssengooba, Grant Theron, Thomas NieslerFri, 13 Ma⚡ eess

Fair-Gate: Fairness-Aware Interpretable Risk Gating for Sex-Fair Voice Biometrics

이 논문은 성별에 따른 성능 격차를 해소하고 해석 가능성을 제공하기 위해, 위험 외삽과 지역 보완 게이트를 결합한 'Fair-Gate'라는 공정한 위험 게이트링 프레임워크를 제안하고 VoxCeleb1 데이터셋에서 그 유효성을 입증합니다.

Yangyang Qu, Todisco Massimiliano, Galdi Chiara, Evans NicholasFri, 13 Ma⚡ eess

Continued Pretraining for Low-Resource Swahili ASR: Achieving State-of-the-Art Performance with Minimal Labeled Data

이 논문은 20,000 개의 레이블이 지정된 데이터만 사용하여 유사 레이블링된 계속 전학습 (CPT) 과 지도 미세 조정을 결합함으로써, 기존 최고 성능 대비 61% 상대적 개선 (3.24% WER) 을 달성하여 저자원 스와힐리어 자동 음성 인식 (ASR) 의 새로운 최첨단 성능을 달성했다고 요약할 수 있습니다.

Hillary Mutisya, John MuganeFri, 13 Ma⚡ eess

Stage-Adaptive Reliability Modeling for Continuous Valence-Arousal Estimation

이 논문은 오디오 및 시각 신호의 신뢰도가 상호작용 단계에 따라 달라진다는 점을 고려하여, 각 단계별 모달리티 신뢰도를 추정하고 보정하는 'SAGE'라는 새로운 프레임워크를 제안함으로써 실시간 환경에서의 연속적인 정서 (가치 - 각성) 추정의 정확도를 향상시킵니다.

Yubeen Lee, Sangeun Lee, Junyeop Cha, Eunil ParkFri, 13 Ma🤖 cs.AI

AnimeScore: A Preference-Based Dataset and Framework for Evaluating Anime-Like Speech Style

이 논문은 주관적 평가에 의존하던 애니메이션 스타일 음성 평가를 위해 15,000 개의 쌍별 선호도 데이터를 기반으로 한 'AnimeScore' 프레임워크를 제안하고, 이를 통해 자동화된 평가 지표 마련과 생성 모델의 최적화를 가능하게 함을 보여줍니다.

Joonyong Park, Jerry LiFri, 13 Ma⚡ eess

Toward Complex-Valued Neural Networks for Waveform Generation

이 논문은 복소수 연산을 기반으로 한 생성기와 판별자, 위상 양자화, 그리고 블록 행렬 계산 기법을 도입하여 기존 실수 기반 모델보다 더 높은 음질과 25% 의 훈련 시간 단축을 달성한 새로운 복소수 신경 보코더 'ComVo'를 제안합니다.

Hyung-Seok Oh, Deok-Hyeon Cho, Seung-Bin Kim, Seong-Whan LeeFri, 13 Ma🤖 cs.AI

SEMamba++: A General Speech Restoration Framework Leveraging Global, Local, and Periodic Spectral Patterns

이 논문은 주파수 GLP, 다중 해상도 병렬 시 - 주파수 이중 처리 블록, 학습 가능한 매핑을 통해 음성 특성을 반영한 SEMamba++ 를 제안하여 다양한 왜곡 하에서 계산 효율성을 유지하면서도 최상의 음성 복원 성능을 달성함을 보여줍니다.

Yongjoon Lee, Jung-Woo ChoiFri, 13 Ma⚡ eess

RAF: Relativistic Adversarial Feedback For Universal Speech Synthesis

이 논문은 자기지도 학습 모델과 상대적 판별 방식을 결합한 '상대적 적대 피드백 (RAF)'이라는 새로운 훈련 목표를 제안하여, 기존 GAN 보코더의 일반화 성능을 향상시키고 적은 파라미터로도 더 높은 지각적 음질을 달성할 수 있음을 입증합니다.

Yongjoon Lee, Jung-Woo ChoiFri, 13 Ma⚡ eess

Causal Prosody Mediation for Text-to-Speech:Counterfactual Training of Duration, Pitch, and Energy in FastSpeech2

이 논문은 FastSpeech2 아키텍처에 명시적인 감정 조건부와 반사실적 훈련 목표를 도입하여 텍스트, 감정, 화자가 말초리 (지속 시간, 피치, 에너지) 를 통해 음성 파형에 미치는 인과적 관계를 모델링함으로써, 언어적 내용과 감정적 프로소디를 분리하고 자연스러운 감정 표현과 정교한 프로소디 제어가 가능한 새로운 TTS 프레임워크를 제안합니다.

Suvendu Sekhar MohantyFri, 13 Ma🤖 cs.AI

Affect Decoding in Phonated and Silent Speech Production from Surface EMG

이 논문은 발화 및 무성 발화 중 얼굴과 목의 표면 근전도 (sEMG) 신호를 분석하여 좌절감을 포함한 감정을 0.845 AUC 의 정확도로 식별할 수 있음을 입증하고, 무성 발화에서도 감정 신호가 유지됨을 보여줌으로써 감성 인식 무성 발화 인터페이스의 가능성을 제시합니다.

Simon Pistrosch, Kleanthis Avramidis, Tiantian Feng, Jihwan Lee, Monica Gonzalez-Machorro, Shrikanth Narayanan, Björn W. SchullerFri, 13 Ma⚡ eess

Resurfacing Paralinguistic Awareness in Large Audio Language Models

이 논문은 대규모 오디오 언어 모델 (LALMs) 이 현재 콘텐츠 중심 패러다임에서 간과하는 부언어적 단서를 재발견하기 위해 계층별 분석을 수행하고, 선택적 계층 미세조정과 보조 이중 수준 분류 헤드를 포함한 부언어적 강화 미세조정 (PE-FT) 프로토콜을 제안하여 모델의 부언어적 인식 능력을 효과적으로 향상시킨다는 내용입니다.

Hao Yang, Minghan Wang, Tongtong Wu, Lizhen Qu, Ehsan Shareghi, Gholamreza HaffariFri, 13 Ma⚡ eess

Dr. SHAP-AV: Decoding Relative Modality Contributions via Shapley Attribution in Audio-Visual Speech Recognition

이 논문은 Shapley 값을 활용하여 오디오 - 비주얼 음성 인식 (AVSR) 모델의 모달리티 기여도를 분석하는 'Dr. SHAP-AV' 프레임워크를 제안하고, 다양한 실험을 통해 노이즈 환경에서도 오디오 편향이 지속되며 SNR 이 모달리티 가중치를 주도한다는 사실을 규명했습니다.

Umberto Cappellazzo, Stavros Petridis, Maja PanticFri, 13 Ma⚡ eess

Controllable Dance Generation with Style-Guided Motion Diffusion

이 논문은 음악의 스타일과 사용자 프롬프트를 통합하여 다양한 스타일의 춤을 생성하고, 공간 - 시간 마스킹 메커니즘을 통해 궤적 기반 생성, 춤 끼워넣기, 춤 인페인팅 등 다양한 제어 작업을 수행할 수 있는 '스타일 가이드 모션 확산 (SGMD)' 모델을 제안합니다.

Hongsong Wang, Ying Zhu, Xin Geng + 1 more2026-03-11⚡ eess

ExSampling: a system for the real-time ensemble performance of field-recorded environmental sounds

이 논문은 딥러닝을 활용하여 현장 녹음된 환경 소리를 실시간으로 Ableton Live 트랙에 자동 매핑함으로써 녹음자, 작곡가, 연주자 간의 상호작용을 가능하게 하는 실시간 앙상블 공연 시스템 'ExSampling'을 제안합니다.

Atsuya Kobayashi, Reo Anzai, Nao Tokui2026-03-10⚡ eess

← 이전 다음 →