eess.AS 편의 논문 | Gist.Science

ImKWS: Test-Time Adaptation for Keyword Spotting with Class Imbalance

이 논문은 불균형 데이터 환경에서 기존 엔트로피 최소화 방식의 한계를 극복하기 위해 보상 및 페널티 분기 구조와 일관성 제약을 도입한 키워드 감지용 테스트 시간 적응 방법인 'ImKWS'를 제안합니다.

Hanyu Ding, Yang Xiao, Jiaheng Dong, Ting DangMon, 09 Ma⚡ eess

Reconstruct! Don't Encode: Self-Supervised Representation Reconstruction Loss for High-Intelligibility and Low-Latency Streaming Neural Audio Codec

이 논문은 자기지도학습 표현 재구성 손실 (SSRR) 을 도입하여 단일 GPU 로도 효율적으로 학습 가능하며, 지연 시간 없이 실시간 스트리밍이 가능한 동시에 높은 가청성을 보장하는 최첨단 성능의 신경 오디오 코덱 'JHCodec'을 제안합니다.

Junhyeok Lee, Xiluo He, Jihwan Lee, Helin Wang, Shrikanth Narayanan, Thomas Thebaud, Laureano Moro-Velazquez, Jesús Villalba, Najim DehakMon, 09 Ma🤖 cs.AI

Activation Steering for Accent-Neutralized Zero-Shot Text-To-Speech

이 논문은 추론 시 활성화 방향 조정 (activation steering) 기법을 활용하여 제로샷 텍스트 음성 변환 모델에서 화자의 목소리 톤은 유지하면서 억만만 제거하는 새로운 사후 학습-free 방법을 제안합니다.

Mu Yang, John H. L. HansenMon, 09 Ma⚡ eess

StreamVoiceAnon+: Emotion-Preserving Streaming Speaker Anonymization via Frame-Level Acoustic Distillation

이 논문은 스트리밍 화자 익명화 과정에서 감정 정보를 보존하기 위해 중립-감정 발화 쌍을 활용한 감독 미세조정과 프레임 단위 감정 증류 기법을 도입하여, VoicePrivacy 2024 프로토콜에서 기존 대비 24% 상대적인 감정 보존율 향상을 달성하면서도 지연 시간 증가 없이 강력한 프라이버시 보호를 유지하는 'StreamVoiceAnon+' 모델을 제안합니다.

Nikita Kuzmin, Kong Aik Lee, Eng Siong ChngMon, 09 Ma🤖 cs.AI

Whisper-CD: Accurate Long-Form Speech Recognition using Multi-Negative Contrastive Decoding

Whisper-CD 는 학습 없이 추론 단계에서 가우시안 노이즈, 무음 신호, 시간 이동 등 세 가지 음향 기반 부정 샘플을 대비하여 생성하는 다중 부정 대비 디코딩 프레임워크를 제안함으로써, 장문 음성 인식의 환각 및 반복 오류를 줄이고 기존 Whisper 시스템에 바로 적용 가능한 효율적인 솔루션을 제공합니다.

Hoseong Ahn, Jeongyun Chae, Yoonji Park, Kyuhong ShimMon, 09 Ma🤖 cs.AI

Continual Adaptation for Pacific Indigenous Speech Recognition

이 논문은 데이터 부족과 파급적 망각 문제를 겪는 태평양 원주민 언어를 위한 음성 모델 적응 전략을 실증적으로 연구하여, 저랭크 적응 (LoRA) 이 초기에는 효과적이지만 연속 학습 시 파급적 망각을 초래하며, 이러한 언어에 적합한 강건한 적응 전략의 필요성을 강조합니다.

Yang Xiao, Aso Mahmudi, Nick Thieberger, Eliathamby Ambikairajah, Eun-Jung Holden, Ting DangMon, 09 Ma💬 cs.CL

Classification of Autistic and Non-Autistic Children's Speech: A Cross-Linguistic Study in Finnish, French, and Slovak

이 논문은 핀란드어, 프랑스어, 슬로바키아어 화자의 자폐증 유무에 따른 음성 분류를 수행하여 일부 음향적 단서가 언어 간에 공통적으로 적용되지만, 강건한 범언어적 분류기 구축을 위해서는 언어별 특성을 고려한 모델링과 더 균일한 녹음 환경이 필요함을 시사합니다.

Sofoklis Kakouros, Ida-Lotta MyllyläMon, 09 Ma⚡ eess

Cross-linguistic Prosodic Analysis of Autistic and Non-autistic Child Speech in Finnish, French and Slovak

이 논문은 핀란드어, 프랑스어, 슬로바키아어 화자를 대상으로 한 대규모 음향 분석을 통해 자폐 스펙트럼 아동의 말투가 언어에 관계없이 강도 변동성 증가와 더 선명한 음성 질감 (호흡성 감소) 이라는 공통적인 특징을 보이지만, 언어별로는 미묘한 차이가 있음을 규명하여 자폐의 음성적 특성을 결핍 모델이 아닌 복잡한 음향적 프로필로 재해석해야 함을 주장합니다.

Ida-Lotta Myllylä, Sofoklis KakourosMon, 09 Ma⚡ eess

Doctor or Patient? Synergizing Diarization and ASR for Code-Switched Hinglish Medical Conditions Extraction

이 논문은 중첩된 회화가 많은 힌글리시 의료 대화에서 환자 상태를 추출하기 위해 EEND-VC 기반의 화자 분리, 도메인 특화 Qwen3 ASR, 그리고 LLM 기반 오류 수정을 결합한 강건한 캐스케이드 시스템을 제안하여 DISPLACE-M 챌린지에서 1 위를 차지했음을 보고합니다.

Séverin Baroudi, Yanis Labrak, Shashi Kumar, Joonas Kalda, Sergio Burdisso, Pawel Cyrta, Juan Ignacio Alvarez-Trejos, Petr Motlicek, Hervé Bredin, Ricard MarxerMon, 09 Ma⚡ eess

Community-Informed AI Models for Police Accountability

이 논문은 경찰의 신체 부착 카메라 (BWC) 영상을 분석하여 정부 책임성을 강화하기 위해 다양한 이해관계자의 관점을 통합한 '커뮤니티 기반 AI' 접근법을 제안하고, 로스앤젤레스 경찰국의 교통 단속 영상 분석 프로젝트를 통해 사회과학자가 다학제 팀에서 어떻게 다양한 시각을 통합하는지 설명합니다.

Benjamin A. T. Grahama, Lauren Brown, Georgios Chochlakis, Morteza Dehghani, Raquel Delerme, Brittany Friedman, Ellie Graeden, Preni Golazizian, Rajat Hebbar, Parsa Hejabi, Aditya Kommineni, Mayagüez Salinas, Michael Sierra-Arévalo, Jackson Trager, Nicholas Weller, Shrikanth NarayananFri, 13 Ma⚡ eess

Audio-Language Models for Audio-Centric Tasks: A Systematic Survey

이 논문은 음성, 음악, 사운드 등 다양한 오디오 영역을 포괄하는 오디오 - 언어 모델 (ALM) 에 대한 최초의 체계적인 조사를 통해 모델 아키텍처와 학습 목표에 대한 통합 분류를 제시하고, 연구 현황과 한계, 향후 방향성을 종합하여 실용적 응용을 위한 지침을 제공합니다.

Yi Su, Jisheng Bai, Qisheng Xu, Kele Xu, Yong DouFri, 13 Ma⚡ eess

Text-only adaptation in LLM-based ASR through text denoising

이 논문은 새로운 도메인의 텍스트 데이터만으로 LLM 기반 음성 인식 시스템을 적응시키는 과정에서 기존 정렬을 해치지 않도록 노이즈가 포함된 텍스트를 깨끗한 전사로 복원하는 텍스트 제거 (denoising) 과제를 새로운 적응 방법으로 제안하고, 이를 통해 기존 최첨단 방법보다 최대 22.1% 의 상대적 성능 개선을 달성했다고 요약할 수 있습니다.

Andrés Carofilis, Sergio Burdisso, Esaú Villatoro-Tello, Shashi Kumar, Kadri Hacioglu, Srikanth Madikeri, Pradeep Rangappa, Manjunath K E, Petr Motlicek, Shankar Venkatesan, Andreas StolckeFri, 13 Ma⚡ eess

[b]=[d]-[t]+[p]: Self-supervised Speech Models Discover Phonological Vector Arithmetic

이 논문은 96 개 언어에 걸친 연구를 통해 자기지도식 음성 모델이 음운론적 벡터 산술을 통해 음운 정보를 구조화하고, 음운적 특징의 연속적인 실현 정도를 선형적으로 인코딩함을 입증했습니다.

Kwanghee Choi, Eunjung Yeo, Cheol Jun Cho, David Harwath, David R. MortensenFri, 13 Ma⚡ eess

V2A-DPO: Omni-Preference Optimization for Video-to-Audio Generation

이 논문은 흐름 기반 비디오-오디오 생성 모델을 인간의 선호도와 정렬시키기 위해 AudioScore 기반의 선호도 데이터 파이프라인과 커리큘럼 학습을 활용한 DPO 프레임워크인 V2A-DPO 를 제안하며, 이를 통해 기존 모델들보다 뛰어난 성능을 입증합니다.

Nolan Chan, Timmy Gang, Yongqian Wang, Yuzhe Liang, Dingdong WangFri, 13 Ma⚡ eess

Can LLMs Help Localize Fake Words in Partially Fake Speech?

이 논문은 텍스트로 훈련된 대규모 언어 모델 (LLM) 을 음성 모델에 적용하여 부분적으로 편집된 음성 내의 가짜 단어를 국소화할 수 있는지 탐구했으며, 실험 결과 모델이 특정 편집 패턴에 과도하게 의존하여 일반화 능력이 제한될 수 있음을 보여주었습니다.

Lin Zhang, Thomas Thebaud, Zexin Cai, Sanjeev Khudanpur, Daniel Povey, Leibny Paola García-Perera, Matthew Wiesner, Nicholas AndrewsFri, 13 Ma⚡ eess

Cough activity detection for automatic tuberculosis screening

이 논문은 XLS-R 모델의 초기 레이어를 활용하여 결핵 환자의 기침 구간을 고정밀도로 자동 탐지함으로써 스마트폰 기반의 확장 가능한 결핵 선별 도구 개발의 실현 가능성을 입증했습니다.

Joshua Jansen van Vüren, Devendra Singh Parihar, Daphne Naidoo, Kimsey Zajac, Willy Ssengooba, Grant Theron, Thomas NieslerFri, 13 Ma⚡ eess

Self-Speculative Decoding for LLM-based ASR with CTC Encoder Drafts

이 논문은 CTC 인코더를 드래프트 모델로 활용하는 '자기-사유적 디코딩 (self-speculative decoding)' 기법을 제안하여, 10 억 파라미터 규모의 LLM 기반 자동음성인식 (ASR) 시스템의 추론 속도를 4.4 배 향상시키면서도 5.58% 의 낮은 단어 오류율 (WER) 을 달성하는 동시에 정확도도 개선했다고 요약할 수 있습니다.

George Saon, Samuel Thomas, Takashi Fukuda, Tohru Nagano, Avihu Dekel, Luis LastrasFri, 13 Ma⚡ eess

Fair-Gate: Fairness-Aware Interpretable Risk Gating for Sex-Fair Voice Biometrics

이 논문은 성별에 따른 성능 격차를 해소하고 해석 가능성을 제공하기 위해, 위험 외삽과 지역 보완 게이트를 결합한 'Fair-Gate'라는 공정한 위험 게이트링 프레임워크를 제안하고 VoxCeleb1 데이터셋에서 그 유효성을 입증합니다.

Yangyang Qu, Todisco Massimiliano, Galdi Chiara, Evans NicholasFri, 13 Ma⚡ eess

Continued Pretraining for Low-Resource Swahili ASR: Achieving State-of-the-Art Performance with Minimal Labeled Data

이 논문은 20,000 개의 레이블이 지정된 데이터만 사용하여 유사 레이블링된 계속 전학습 (CPT) 과 지도 미세 조정을 결합함으로써, 기존 최고 성능 대비 61% 상대적 개선 (3.24% WER) 을 달성하여 저자원 스와힐리어 자동 음성 인식 (ASR) 의 새로운 최첨단 성능을 달성했다고 요약할 수 있습니다.

Hillary Mutisya, John MuganeFri, 13 Ma⚡ eess

AnimeScore: A Preference-Based Dataset and Framework for Evaluating Anime-Like Speech Style

이 논문은 주관적 평가에 의존하던 애니메이션 스타일 음성 평가를 위해 15,000 개의 쌍별 선호도 데이터를 기반으로 한 'AnimeScore' 프레임워크를 제안하고, 이를 통해 자동화된 평가 지표 마련과 생성 모델의 최적화를 가능하게 함을 보여줍니다.

Joonyong Park, Jerry LiFri, 13 Ma⚡ eess

← 이전 다음 →