The PARLO Dementia Corpus: A German Multi-Center Resource for Alzheimer's Disease

이 논문은 독일 9 개 기억 클리닉에서 수집된 알츠하이머 병 관련 경도 인지 장애 및 치매 환자의 음성 데이터, 전사본, 임상 메타데이터를 포함하는 최초의 공개 독일어 다중 센터 코퍼스인 'PARLO Dementia Corpus'를 소개하고, 이를 통해 음성 기반 인지 평가의 실현 가능성과 진단적 가치를 입증합니다.

Franziska Braun, Christopher Witzl, Florian Hönig + 3 more2026-03-06⚡ eess

An Approach to Simultaneous Acquisition of Real-Time MRI Video, EEG, and Surface EMG for Articulatory, Brain, and Muscle Activity During Speech Production

이 논문은 MRI 유도 전자기 간섭과 근원성 아티팩트 등 기술적 난제를 극복하기 위해 맞춤형 아티팩트 억제 파이프라인을 도입하여, 실시간 MRI, EEG, 표면 EMG 를 동시 획득함으로써 발화 생성 과정의 뇌 신호, 근육 활성화, 조음 운동을 포괄적으로 분석하는 새로운 다중 모달 접근법을 제시합니다.

Jihwan Lee, Parsa Razmara, Kevin Huang + 16 more2026-03-06🤖 cs.AI

Visual-Informed Speech Enhancement Using Attention-Based Beamforming

이 논문은 시각적 단서 (입술 움직임) 를 활용하여 음성 인식 모델을 통해 화자 식별 및 음성 활동 검출을 수행하고, 주의 메커니즘을 갖춘 감독형 엔드 - 투 - 엔드 빔포밍 프레임워크를 도입함으로써 정적 및 동적 화자 환경에서 기존 방법보다 우수한 음성 향상 성능과 강인성을 달성한 새로운 비전 기반 신경 빔포밍 네트워크 (VI-NBFNet) 를 제안합니다.

Chihyun Liu, Jiaxuan Fan, Mingtung Sun + 3 more2026-03-06🤖 cs.AI

Exploring the potential and limitations of Model Merging for Multi-Domain Adaptation in ASR

이 논문은 11 가지 병합 알고리즘을 평가하고 TSV-M 기반의 새로운 알고리즘인 BoostedTSV-M 을 제안하여, 유럽 포르투갈어 다중 도메인 ASR 에서 전체 미세 조정보다 우수한 성능과 분포 외 일반화 능력을 단일 모델로 달성하는 모델 병합의 잠재력을 입증합니다.

Carlos Carvalho, Francisco Teixeira, Thomas Rolland + 1 more2026-03-06💬 cs.CL

Hierarchical Decoding for Discrete Speech Synthesis with Multi-Resolution Spoof Detection

본 논문은 신경 코덱 언어 모델의 추론 과정에서 발생하는 토큰 수준의 아티팩트와 분포 이탈을 해결하기 위해, 다중 해상도 스푸핑 탐지를 계층적 디코딩 전략에 통합하여 모델 재학습 없이 제로샷 음성 합성의 견고성과 품질을 향상시키는 'MSpoof-TTS' 프레임워크를 제안합니다.

Junchuan Zhao, Minh Duc Vu, Ye Wang2026-03-06💻 cs

Knowing When to Quit: Probabilistic Early Exits for Speech Separation

이 논문은 임베디드 및 이종 장치에서 가변적인 컴퓨팅 요구 사항에 맞춰 조정 가능한 단일 채널 음성 분리를 위해, 불확실성을 고려한 확률론적 프레임워크를 활용하여 재구성 품질을 저해하지 않으면서도 계산 비용을 크게 절감할 수 있는 조기 종료 (early-exit) 기능을 갖춘 신경망 아키텍처를 제안합니다.

Kenny Falkær Olsen, Mads Østergaard, Karl Ulbæk + 4 more2026-03-05🤖 cs.LG

LadderSym: A Multimodal Interleaved Transformer for Music Practice Error Detection

이 논문은 오디오와 악보의 시그널을 효과적으로 정렬하고 모호성을 줄이기 위해 두 개의 스트림 인코더와 심볼릭 프롬프트를 활용한 멀티모달 인터리브드 트랜스포머 모델 'LadderSym'을 제안하여 기존 방법 대비 음악 연습 오류 감지 성능을 획기적으로 개선했다고 요약할 수 있습니다.

Benjamin Shiue-Hal Chou, Purvish Jajal, Nick John Eliopoulos + 4 more2026-03-05🤖 cs.AI

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

이 논문은 텍스트, 가사, 오디오 프롬프트 등 복합 멀티모달 지시를 기반으로 한 음악 생성 모델을 평가하기 위해 대규모 선호도 데이터셋, 인간 주석 코퍼스, 통합 벤치마크인 CMI-RewardBench 및 효율적인 보상 모델 (CMI-RM) 을 제안하여 음악 생성의 정밀한 정렬과 인간 평가와의 높은 상관관계를 입증합니다.

Yinghao Ma, Haiwen Xia, Hewei Gao + 9 more2026-03-05🤖 cs.AI

Escaping the BLEU Trap: A Signal-Grounded Framework with Decoupled Semantic Guidance for EEG-to-Text Decoding

이 논문은 EEG 신호에서 자연어를 해독할 때 발생하는 의미 편향과 신호 무시 문제를 해결하기 위해, 감성·주제·길이·놀라움이라는 네 가지 분리된 의미 목표를 통해 신경 입력에 기반한 생성을 강제하는 'SemKey' 프레임워크를 제안하고, 기존 BLEU 점수의 한계를 넘어 N-way 검색 정확도 및 프라체트 거리와 같은 새로운 평가 지표를 통해 모델의 성능을 입증합니다.

Yuchen Wang, Haonan Wang, Yu Guo + 2 more2026-03-05🤖 cs.AI