Physics-Informed Neural Engine Sound Modeling with Differentiable Pulse-Train Synthesis

이 논문은 엔진 소리를 지속된 조화 진동이 아닌 배기 압력 펄스 시퀀스로 간주하고, 물리 정보 기반의 인덕티브 바이어를 통합한 미분 가능한 펄스-트레인-레조네이터 (PTR) 모델을 제안하여 기존 모델 대비 조화 재구성 성능을 21% 향상시키고 물리적 현상에 대응하는 해석 가능한 매개변수를 제공함을 보여줍니다.

Robin Doerfler, Lonce WyseWed, 11 Ma🤖 cs.AI

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

이 논문은 다중 오디오 이해 능력이 부족한 대규모 오디오 - 언어 모델을 평가하기 위한 'MUGEN' 벤치마크를 제안하고, 오디오 입력 순서를 다양화하는 '오디오 순열 자기 일관성' 전략과 사고 연쇄 기법을 결합하여 성능을 유의미하게 향상시킬 수 있음을 보여줍니다.

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi LeeWed, 11 Ma🤖 cs.AI

ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance

이 논문은 오디오와 텍스트 정보를 동기화하여 감정과 전신 움직임을 자연스럽게 생성하는 새로운 확산 기반 프레임워크인 ExpGest 를 제안하며, 기존 방법들의 한계를 극복하고 더 표현력 있고 제어 가능한 화자 제스처를 구현함을 보여줍니다.

Yongkang Cheng, Mingjiang Liang, Shaoli Huang, Gaoge Han, Jifeng Ning, Wei LiuTue, 10 Ma💻 cs

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

이 논문은 해양 포유류叫声부터 복잡한 실세계 음향에 이르기까지 다양한 도메인의 음향 이해와 추론 능력을 평가하기 위해 DCASE 2025 챌린지의 Task 5 로 오디오 질문 응답 (AQA) 벤치마크를 제안하고, 다양한 오디오 - 언어 모델들의 성능을 비교 분석합니다.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan CatanzaroTue, 10 Ma💬 cs.CL

SUBARU: A Practical Approach to Power Saving in Hearables Using SUB-Nyquist Audio Resolution Upsampling

이 논문은 저전력 청각 기기 (Hearables) 에서 아날로그 - 디지털 변환기의 샘플링 주파수와 비트 해상도를 의도적으로 낮추어 전력 소모를 3.31 배 감소시키면서도, 서브-나이퀴스트 샘플링 신호를 광대역으로 복원하는 SUBARU 기법을 통해 실시간 음성 향상 성능을 유지하는 실용적인 접근법을 제안합니다.

Tarikul Islam Tamiti, Sajid Fardin Dipto, Luke Benjamin Baja-Ricketts, David C Vergano, Anomadarshi BaruaTue, 10 Ma💻 cs

Towards Objective Gastrointestinal Auscultation: Automated Segmentation and Annotation of Bowel Sound Patterns

이 논문은 SonicGuard 센서와 에너지 기반 이벤트 탐지 알고리즘 및 Audio Spectrogram Transformer 모델을 결합하여 장음 패턴을 자동 분할 및 분류하는 시스템을 개발함으로써, 수동 검사의 한계를 극복하고 위장관 기능 평가에 객관적이고 정량적인 진단 도구를 제공한다는 것을 보여줍니다.

Zahra Mansour, Verena Uslar, Dirk Weyhe, Danilo Hollosi, Nils StrodthoffTue, 10 Ma🤖 cs.LG

Seeing the Context: Rich Visual Context-Aware Speech Recognition via Multimodal Reasoning

이 논문은 오디오-비주얼 연쇄 사고 (AV-CoT) 를 통해 청각 신호와 시각적 증거 간의 명시적인 교차 모달 근거를 강제함으로써 단일 모달리티 지배 문제를 완화하고, 데이터 파이프라인과 테스트 세트를 공개하여 풍부한 시각적 문맥을 활용한 음성 인식 (CAVSR) 의 성능을 획기적으로 개선한 VASR 모델을 제안합니다.

Wenjie Tian, Mingchen Shao, Bingshen Mu, Xuelong Geng, Chengyou Wang, Yujie Liao, Zhixian Zhao, Ziyu Zhang, Jingbin Hu, Mengqi Wei, Lei XieTue, 10 Ma💻 cs