TW-Sound580K: A Regional Audio-Text Dataset with Verification-Guided Curation for Localized Audio-Language Modeling

이 논문은 이중 ASR 검증과 비판적 피드백을 통한 엄격한 선별 프로세스를 적용하여 대만어 방언 특화 오디오 - 텍스트 데이터셋 'TW-Sound580K'를 구축하고, 이를 기반으로 한 Tai-LALM 모델이 TAU 벤치마크에서 기존 베이스라인 대비 6.5% 향상된 49.1% 의 정확도를 달성하여 지역화된 오디오 - 언어 모델링 성능을 크게 개선했음을 보여줍니다.

Hao-Hui Xie, Ho-Lam Chung, Yi-Cheng Lin + 4 more2026-03-06💻 cs

Boosting ASR Robustness via Test-Time Reinforcement Learning with Audio-Text Semantic Rewards

이 논문은 기존 테스트 시간 적응 방법의 확인 편향을 극복하기 위해, 오디오 - 텍스트 의미 정합성을 보상 신호로 활용하는 강화 학습 기반의 새로운 프레임워크 'ASR-TRA'를 제안하여 잡음과 다양한 억양이 포함된 실제 환경에서 ASR 시스템의 강건성과 정확도를 향상시킵니다.

Linghan Fang, Tianxin Xie, Li Liu2026-03-06🤖 cs.AI

Hierarchical Decoding for Discrete Speech Synthesis with Multi-Resolution Spoof Detection

본 논문은 신경 코덱 언어 모델의 추론 과정에서 발생하는 토큰 수준의 아티팩트와 분포 이탈을 해결하기 위해, 다중 해상도 스푸핑 탐지를 계층적 디코딩 전략에 통합하여 모델 재학습 없이 제로샷 음성 합성의 견고성과 품질을 향상시키는 'MSpoof-TTS' 프레임워크를 제안합니다.

Junchuan Zhao, Minh Duc Vu, Ye Wang2026-03-06💻 cs

Knowing When to Quit: Probabilistic Early Exits for Speech Separation

이 논문은 임베디드 및 이종 장치에서 가변적인 컴퓨팅 요구 사항에 맞춰 조정 가능한 단일 채널 음성 분리를 위해, 불확실성을 고려한 확률론적 프레임워크를 활용하여 재구성 품질을 저해하지 않으면서도 계산 비용을 크게 절감할 수 있는 조기 종료 (early-exit) 기능을 갖춘 신경망 아키텍처를 제안합니다.

Kenny Falkær Olsen, Mads Østergaard, Karl Ulbæk + 4 more2026-03-05🤖 cs.LG

LadderSym: A Multimodal Interleaved Transformer for Music Practice Error Detection

이 논문은 오디오와 악보의 시그널을 효과적으로 정렬하고 모호성을 줄이기 위해 두 개의 스트림 인코더와 심볼릭 프롬프트를 활용한 멀티모달 인터리브드 트랜스포머 모델 'LadderSym'을 제안하여 기존 방법 대비 음악 연습 오류 감지 성능을 획기적으로 개선했다고 요약할 수 있습니다.

Benjamin Shiue-Hal Chou, Purvish Jajal, Nick John Eliopoulos + 4 more2026-03-05🤖 cs.AI

Better audio representations are more brain-like: linking model-brain alignment with performance in downstream auditory tasks

이 논문은 다양한 하위 작업에서 우수한 성능을 보이는 최신 자기지도 학습 오디오 모델이 뇌 활동과 더 높은 유사성을 보이며, 이러한 뇌-모델 정렬 정도가 작업 수행 능력과 강한 양의 상관관계를 가짐을 확인하고, 자연음 복원 학습 과정에서 뇌와 유사한 표현이 의도하지 않게 발현됨을 규명했습니다.

Leonardo Pepino, Pablo Riera, Juan Kamienkowski + 1 more2026-03-05🤖 cs.LG

OASI: Objective-Aware Surrogate Initialization for Multi-Objective Bayesian Optimization in TinyML Keyword Spotting

이 논문은 제한된 리소스 환경에서 TinyML 키워드 감지 모델의 다목적 최적화 시 초기화 민감도를 해결하기 위해, 다목적 시뮬레이션 어닐링을 통해 생성된 파레토 편향 솔루션으로 대리 모델을 초기화하는 'OASI'를 제안하여 수렴성과 배포 가능성을 향상시킨다는 내용입니다.

Soumen Garai, Danilo Pau, Suman Samui2026-03-05🤖 cs.LG

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

이 논문은 텍스트, 가사, 오디오 프롬프트 등 복합 멀티모달 지시를 기반으로 한 음악 생성 모델을 평가하기 위해 대규모 선호도 데이터셋, 인간 주석 코퍼스, 통합 벤치마크인 CMI-RewardBench 및 효율적인 보상 모델 (CMI-RM) 을 제안하여 음악 생성의 정밀한 정렬과 인간 평가와의 높은 상관관계를 입증합니다.

Yinghao Ma, Haiwen Xia, Hewei Gao + 9 more2026-03-05🤖 cs.AI