Reconstruct! Don't Encode: Self-Supervised Representation Reconstruction Loss for High-Intelligibility and Low-Latency Streaming Neural Audio Codec

이 논문은 자기지도학습 표현 재구성 손실 (SSRR) 을 도입하여 단일 GPU 로도 효율적으로 학습 가능하며, 지연 시간 없이 실시간 스트리밍이 가능한 동시에 높은 가청성을 보장하는 최첨단 성능의 신경 오디오 코덱 'JHCodec'을 제안합니다.

Junhyeok Lee, Xiluo He, Jihwan Lee, Helin Wang, Shrikanth Narayanan, Thomas Thebaud, Laureano Moro-Velazquez, Jesús Villalba, Najim DehakMon, 09 Ma🤖 cs.AI

StreamVoiceAnon+: Emotion-Preserving Streaming Speaker Anonymization via Frame-Level Acoustic Distillation

이 논문은 스트리밍 화자 익명화 과정에서 감정 정보를 보존하기 위해 중립-감정 발화 쌍을 활용한 감독 미세조정과 프레임 단위 감정 증류 기법을 도입하여, VoicePrivacy 2024 프로토콜에서 기존 대비 24% 상대적인 감정 보존율 향상을 달성하면서도 지연 시간 증가 없이 강력한 프라이버시 보호를 유지하는 'StreamVoiceAnon+' 모델을 제안합니다.

Nikita Kuzmin, Kong Aik Lee, Eng Siong ChngMon, 09 Ma🤖 cs.AI

Whisper-CD: Accurate Long-Form Speech Recognition using Multi-Negative Contrastive Decoding

Whisper-CD 는 학습 없이 추론 단계에서 가우시안 노이즈, 무음 신호, 시간 이동 등 세 가지 음향 기반 부정 샘플을 대비하여 생성하는 다중 부정 대비 디코딩 프레임워크를 제안함으로써, 장문 음성 인식의 환각 및 반복 오류를 줄이고 기존 Whisper 시스템에 바로 적용 가능한 효율적인 솔루션을 제공합니다.

Hoseong Ahn, Jeongyun Chae, Yoonji Park, Kyuhong ShimMon, 09 Ma🤖 cs.AI

Continual Adaptation for Pacific Indigenous Speech Recognition

이 논문은 데이터 부족과 파급적 망각 문제를 겪는 태평양 원주민 언어를 위한 음성 모델 적응 전략을 실증적으로 연구하여, 저랭크 적응 (LoRA) 이 초기에는 효과적이지만 연속 학습 시 파급적 망각을 초래하며, 이러한 언어에 적합한 강건한 적응 전략의 필요성을 강조합니다.

Yang Xiao, Aso Mahmudi, Nick Thieberger, Eliathamby Ambikairajah, Eun-Jung Holden, Ting DangMon, 09 Ma💬 cs.CL

Classification of Autistic and Non-Autistic Children's Speech: A Cross-Linguistic Study in Finnish, French, and Slovak

이 논문은 핀란드어, 프랑스어, 슬로바키아어 화자의 자폐증 유무에 따른 음성 분류를 수행하여 일부 음향적 단서가 언어 간에 공통적으로 적용되지만, 강건한 범언어적 분류기 구축을 위해서는 언어별 특성을 고려한 모델링과 더 균일한 녹음 환경이 필요함을 시사합니다.

Sofoklis Kakouros, Ida-Lotta MyllyläMon, 09 Ma⚡ eess

Cross-linguistic Prosodic Analysis of Autistic and Non-autistic Child Speech in Finnish, French and Slovak

이 논문은 핀란드어, 프랑스어, 슬로바키아어 화자를 대상으로 한 대규모 음향 분석을 통해 자폐 스펙트럼 아동의 말투가 언어에 관계없이 강도 변동성 증가와 더 선명한 음성 질감 (호흡성 감소) 이라는 공통적인 특징을 보이지만, 언어별로는 미묘한 차이가 있음을 규명하여 자폐의 음성적 특성을 결핍 모델이 아닌 복잡한 음향적 프로필로 재해석해야 함을 주장합니다.

Ida-Lotta Myllylä, Sofoklis KakourosMon, 09 Ma⚡ eess

Doctor or Patient? Synergizing Diarization and ASR for Code-Switched Hinglish Medical Conditions Extraction

이 논문은 중첩된 회화가 많은 힌글리시 의료 대화에서 환자 상태를 추출하기 위해 EEND-VC 기반의 화자 분리, 도메인 특화 Qwen3 ASR, 그리고 LLM 기반 오류 수정을 결합한 강건한 캐스케이드 시스템을 제안하여 DISPLACE-M 챌린지에서 1 위를 차지했음을 보고합니다.

Séverin Baroudi, Yanis Labrak, Shashi Kumar, Joonas Kalda, Sergio Burdisso, Pawel Cyrta, Juan Ignacio Alvarez-Trejos, Petr Motlicek, Hervé Bredin, Ricard MarxerMon, 09 Ma⚡ eess

Community-Informed AI Models for Police Accountability

이 논문은 경찰의 신체 부착 카메라 (BWC) 영상을 분석하여 정부 책임성을 강화하기 위해 다양한 이해관계자의 관점을 통합한 '커뮤니티 기반 AI' 접근법을 제안하고, 로스앤젤레스 경찰국의 교통 단속 영상 분석 프로젝트를 통해 사회과학자가 다학제 팀에서 어떻게 다양한 시각을 통합하는지 설명합니다.

Benjamin A. T. Grahama, Lauren Brown, Georgios Chochlakis, Morteza Dehghani, Raquel Delerme, Brittany Friedman, Ellie Graeden, Preni Golazizian, Rajat Hebbar, Parsa Hejabi, Aditya Kommineni, Mayagüez Salinas, Michael Sierra-Arévalo, Jackson Trager, Nicholas Weller, Shrikanth NarayananFri, 13 Ma⚡ eess

Text-only adaptation in LLM-based ASR through text denoising

이 논문은 새로운 도메인의 텍스트 데이터만으로 LLM 기반 음성 인식 시스템을 적응시키는 과정에서 기존 정렬을 해치지 않도록 노이즈가 포함된 텍스트를 깨끗한 전사로 복원하는 텍스트 제거 (denoising) 과제를 새로운 적응 방법으로 제안하고, 이를 통해 기존 최첨단 방법보다 최대 22.1% 의 상대적 성능 개선을 달성했다고 요약할 수 있습니다.

Andrés Carofilis, Sergio Burdisso, Esaú Villatoro-Tello, Shashi Kumar, Kadri Hacioglu, Srikanth Madikeri, Pradeep Rangappa, Manjunath K E, Petr Motlicek, Shankar Venkatesan, Andreas StolckeFri, 13 Ma⚡ eess

Can LLMs Help Localize Fake Words in Partially Fake Speech?

이 논문은 텍스트로 훈련된 대규모 언어 모델 (LLM) 을 음성 모델에 적용하여 부분적으로 편집된 음성 내의 가짜 단어를 국소화할 수 있는지 탐구했으며, 실험 결과 모델이 특정 편집 패턴에 과도하게 의존하여 일반화 능력이 제한될 수 있음을 보여주었습니다.

Lin Zhang, Thomas Thebaud, Zexin Cai, Sanjeev Khudanpur, Daniel Povey, Leibny Paola García-Perera, Matthew Wiesner, Nicholas AndrewsFri, 13 Ma⚡ eess

Self-Speculative Decoding for LLM-based ASR with CTC Encoder Drafts

이 논문은 CTC 인코더를 드래프트 모델로 활용하는 '자기-사유적 디코딩 (self-speculative decoding)' 기법을 제안하여, 10 억 파라미터 규모의 LLM 기반 자동음성인식 (ASR) 시스템의 추론 속도를 4.4 배 향상시키면서도 5.58% 의 낮은 단어 오류율 (WER) 을 달성하는 동시에 정확도도 개선했다고 요약할 수 있습니다.

George Saon, Samuel Thomas, Takashi Fukuda, Tohru Nagano, Avihu Dekel, Luis LastrasFri, 13 Ma⚡ eess

Continued Pretraining for Low-Resource Swahili ASR: Achieving State-of-the-Art Performance with Minimal Labeled Data

이 논문은 20,000 개의 레이블이 지정된 데이터만 사용하여 유사 레이블링된 계속 전학습 (CPT) 과 지도 미세 조정을 결합함으로써, 기존 최고 성능 대비 61% 상대적 개선 (3.24% WER) 을 달성하여 저자원 스와힐리어 자동 음성 인식 (ASR) 의 새로운 최첨단 성능을 달성했다고 요약할 수 있습니다.

Hillary Mutisya, John MuganeFri, 13 Ma⚡ eess