SPAR-K: Scheduled Periodic Alternating Early Exit for Spoken Language Models

이 논문은 텍스트와 음성을 교차 생성하는 대화형 음성 언어 모델의 추론 비용을 줄이기 위해, 주기적인 전체 깊이 '리프레시' 단계를 포함한 모달리티 인지형 조기 종료 프레임워크인 SPAR-K 를 제안하며, 이를 통해 음성 품질을 유지하면서 추론 깊이를 최대 11% 까지 감소시켰다고 요약할 수 있습니다.

Hsiao-Ying Huang, Cheng-Han Chiang, Hung-yi LeeWed, 11 Ma💬 cs.CL

Physics-Informed Neural Engine Sound Modeling with Differentiable Pulse-Train Synthesis

이 논문은 엔진 소리를 지속된 조화 진동이 아닌 배기 압력 펄스 시퀀스로 간주하고, 물리 정보 기반의 인덕티브 바이어를 통합한 미분 가능한 펄스-트레인-레조네이터 (PTR) 모델을 제안하여 기존 모델 대비 조화 재구성 성능을 21% 향상시키고 물리적 현상에 대응하는 해석 가능한 매개변수를 제공함을 보여줍니다.

Robin Doerfler, Lonce WyseWed, 11 Ma🤖 cs.AI

Speech-Omni-Lite: Portable Speech Interfaces for Vision-Language Models

이 논문은 대규모 멀티모달 데이터와 높은 계산 비용 없이 기존 시각 - 언어 모델의 성능을 유지하면서 경량 모듈을 통해 음성 이해 및 생성 기능을 추가하고, 저비용 데이터 구축 전략을 통해 소량의 음성 데이터로도 대규모 오미 모델과 유사한 성능을 달성하는 'Speech-Omni-Lite' 프레임워크를 제안합니다.

Dehua Tao, Xuan Luo, Daxin Tan, Kai Chen, Lanqing Hong, Jing Li, Ruifeng Xu, Xiao ChenWed, 11 Ma⚡ eess

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

이 논문은 다중 오디오 이해 능력이 부족한 대규모 오디오 - 언어 모델을 평가하기 위한 'MUGEN' 벤치마크를 제안하고, 오디오 입력 순서를 다양화하는 '오디오 순열 자기 일관성' 전략과 사고 연쇄 기법을 결합하여 성능을 유의미하게 향상시킬 수 있음을 보여줍니다.

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi LeeWed, 11 Ma🤖 cs.AI

A Semi-spontaneous Dutch Speech Dataset for Speech Enhancement and Speech Recognition

이 논문은 소음과 배경 대화 등 복잡한 실내 공공 환경에서 80 명의 화자가 발화한 1.5 시간 분량의 반자발적 네덜란드어 음성 데이터셋 DRES 를 소개하고, 이를 통해 현대적인 단일 채널 음성 향상 기술이 오히려 자동 음성 인식 성능을 향상시키지 못함을 보여주며 실제 환경에서의 평가 중요성을 강조합니다.

Dimme de Groot, Yuanyuan Zhang, Jorge Martinez, Odette ScharenborgWed, 11 Ma⚡ eess

Distributed Multichannel Wiener Filtering for Wireless Acoustic Sensor Networks

이 논문은 무선 음향 센서 네트워크에서 노드가 서로 다른 음원 집합을 관측하는 상황에서도 반복 과정 없이 중앙 집중식 시스템과 동등한 최적 성능을 달성하는 분산 멀티채널 위너 필터 (dMWF) 알고리즘을 제안하고 그 유효성을 입증합니다.

Paul Didier, Toon van Waterschoot, Simon Doclo, Jörg Bitzer, Pourya Behmandpoor, Henri Gode, Marc MoonenWed, 11 Ma⚡ eess

ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance

이 논문은 오디오와 텍스트 정보를 동기화하여 감정과 전신 움직임을 자연스럽게 생성하는 새로운 확산 기반 프레임워크인 ExpGest 를 제안하며, 기존 방법들의 한계를 극복하고 더 표현력 있고 제어 가능한 화자 제스처를 구현함을 보여줍니다.

Yongkang Cheng, Mingjiang Liang, Shaoli Huang, Gaoge Han, Jifeng Ning, Wei LiuTue, 10 Ma💻 cs

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

이 논문은 해양 포유류叫声부터 복잡한 실세계 음향에 이르기까지 다양한 도메인의 음향 이해와 추론 능력을 평가하기 위해 DCASE 2025 챌린지의 Task 5 로 오디오 질문 응답 (AQA) 벤치마크를 제안하고, 다양한 오디오 - 언어 모델들의 성능을 비교 분석합니다.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan CatanzaroTue, 10 Ma💬 cs.CL

SUBARU: A Practical Approach to Power Saving in Hearables Using SUB-Nyquist Audio Resolution Upsampling

이 논문은 저전력 청각 기기 (Hearables) 에서 아날로그 - 디지털 변환기의 샘플링 주파수와 비트 해상도를 의도적으로 낮추어 전력 소모를 3.31 배 감소시키면서도, 서브-나이퀴스트 샘플링 신호를 광대역으로 복원하는 SUBARU 기법을 통해 실시간 음성 향상 성능을 유지하는 실용적인 접근법을 제안합니다.

Tarikul Islam Tamiti, Sajid Fardin Dipto, Luke Benjamin Baja-Ricketts, David C Vergano, Anomadarshi BaruaTue, 10 Ma💻 cs