LongAudio-RAG: Event-Grounded Question Answering over Multi-Hour Long Audio

이 논문은 수시간 분량의 오디오를 구조화된 사건 레코드로 변환하여 SQL 데이터베이스에 저장하고, 이를 기반으로 자연어 질문을 해결하는 하이브리드 RAG 프레임워크인 LongAudio-RAG 를 제안하며, 엣지-클라우드 환경에서의 실용성과 기존 방법 대비 향상된 정확도를 입증합니다.

Naveen Vakada, Kartik Hegde, Arvind Krishna Sridhar, Yinyi Guo, Erik VisserTue, 10 Ma🤖 cs.LG

TCG CREST System Description for the DISPLACE-M Challenge

이 논문은 DISPLACE-M 챌린지 트랙 1 을 위해 제안된 TCG CREST 시스템이 의료 대화 환경에서 SpeechBrain 기반 모듈식 파이프라인보다 DER 를 약 39% 개선한 Diarizen 기반 하이브리드 엔드투엔드 신경망 diarization 시스템을 통해 개발 세트에서 10.37%, 평가 세트에서 9.21% 의 diarization 오류율 (DER) 을 달성하여 11 개 팀 중 6 위를 기록한 결과를 보고합니다.

Nikhil Raghav, Md SahidullahTue, 10 Ma🤖 cs.LG

Towards Objective Gastrointestinal Auscultation: Automated Segmentation and Annotation of Bowel Sound Patterns

이 논문은 SonicGuard 센서와 에너지 기반 이벤트 탐지 알고리즘 및 Audio Spectrogram Transformer 모델을 결합하여 장음 패턴을 자동 분할 및 분류하는 시스템을 개발함으로써, 수동 검사의 한계를 극복하고 위장관 기능 평가에 객관적이고 정량적인 진단 도구를 제공한다는 것을 보여줍니다.

Zahra Mansour, Verena Uslar, Dirk Weyhe, Danilo Hollosi, Nils StrodthoffTue, 10 Ma🤖 cs.LG

Scaling Self-Supervised Speech Models Uncovers Deep Linguistic Relationships: Evidence from the Pacific Cluster

본 논문은 126 개에서 4,017 개 언어로 확장된 자기지도학습 음성 모델 (S3M) 을 통해 언어 표상에서 지리적 근접성을 넘어 파푸아, 오세아니아, 오스트레일리아 언어를 아우르는 강력한 거대 클러스터가 나타나는 등 대규모 모델이 언어의 계통과 장기적 접촉 관계를 포착할 수 있음을 보여줍니다.

Minu Kim, Hoirin Kim, David R. MortensenTue, 10 Ma💬 cs.CL

Seeing the Context: Rich Visual Context-Aware Speech Recognition via Multimodal Reasoning

이 논문은 오디오-비주얼 연쇄 사고 (AV-CoT) 를 통해 청각 신호와 시각적 증거 간의 명시적인 교차 모달 근거를 강제함으로써 단일 모달리티 지배 문제를 완화하고, 데이터 파이프라인과 테스트 세트를 공개하여 풍부한 시각적 문맥을 활용한 음성 인식 (CAVSR) 의 성능을 획기적으로 개선한 VASR 모델을 제안합니다.

Wenjie Tian, Mingchen Shao, Bingshen Mu, Xuelong Geng, Chengyou Wang, Yujie Liao, Zhixian Zhao, Ziyu Zhang, Jingbin Hu, Mengqi Wei, Lei XieTue, 10 Ma💻 cs

Evaluating Parkinson's Disease Detection in Anonymized Speech: A Performance and Acoustic Analysis

이 논문은 파킨슨병 음성 검출과 프라이버시 보호 간의 균형을 평가한 결과, STT-TTS 방식은 정보 손실이 크지만 kNN-VC 방식은 거시적 운율 특징을 보존하여 프라이버시를 유지하면서도 파킨슨병 검출 성능을 효과적으로 유지할 수 있음을 입증했습니다.

Carlos Franzreb, Francisco Teixeira, Ben Luks, Sebastian Möller, Alberto AbadTue, 10 Ma💻 cs

WhispEar: A Bi-directional Framework for Scaling Whispered Speech Conversion via Pseudo-Parallel Whisper Generation

이 논문은 풍부한 정상 발화 데이터로부터 위스퍼 발화를 생성하는 역방향 모델을 통해 확장 가능한 가짜 병렬 데이터를 확보하고, 이를 활용해 위스퍼를 정상 발화로 변환하는 성능을 대폭 향상시킨 양방향 프레임워크 'WhispEar'와 대규모 이중 언어 병렬 말뭉치를 제안합니다.

Zihao Fang, Yingda Shen, Zifan Guan, Tongtong Song, Zhenyi Liu, Zhizheng WuTue, 10 Ma💻 cs

Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction

이 논문은 인간의 감정 표현이 본질적으로 모호하다는 점을 고려하여, 대규모 오디오 - 언어 모델의 추론 능력을 개선하기 위해 인간 지각 분포와 정렬된 모호성 인식 목적 함수와 구조화된 사고 연쇄 감독을 도입한 새로운 프레임워크를 제안하고 IEMOCAP 및 CREMA-D 데이터셋에서 다양한 학습 전략을 통해 그 유효성을 입증합니다.

Xiaofeng Yu, Jiaheng Dong, Jean Honorio, Abhirup Ghosh, Hong Jia, Ting DangTue, 10 Ma💻 cs

Bootstrapping Audiovisual Speech Recognition in Zero-AV-Resource Scenarios with Synthetic Visual Data

이 논문은 실제 오디오와 정지 얼굴 이미지를 동기화하여 합성된 시각 데이터를 생성함으로써, 시각적 자료가 전혀 없는 언어에서도 오디오만 사용하는 모델보다 우수한 성능을 보이는 오디오비주얼 음성 인식 (AVSR) 모델을 구축할 수 있음을 입증했습니다.

Pol Buitrago, Pol Gàlvez, Oriol Pareras, Javier HernandoTue, 10 Ma💬 cs.CL

Are Deep Speech Denoising Models Robust to Adversarial Noise?

이 논문은 심층 음성 제거 (DNS) 모델이 저배경 잡음 및 시뮬레이션된 오버더에어 환경에서도 청각적으로 숨겨진 적대적 잡음에 의해 이해할 수 없는 소음으로 변질될 수 있음을 보여주며, 안전이 중요한 응용 분야에서 이러한 취약성을 해결하기 위한 실질적인 대응책이 시급함을 강조합니다.

Will Schwarzer, Neel Chaudhari, Philip S. Thomas, Andrea Fanelli, Xiaoyu LiuThu, 12 Ma⚡ eess