Benchmarking Humans and Machines on Complex Multilingual Speech Understanding Tasks

이 논문은 다국어 음향 환경에서 인간이 모국어에 기반한 선택적 주의 메커니즘을 통해 화자를 구분하는 반면, 음성 기반 대규모 언어 모델 (LLM) 은 깨끗한 단일 화자 조건에서는 인간을 능가하지만 중첩된 화자 환경에서는 선택적 주의에 어려움을 겪는다는 핵심 차이를 규명했습니다.

Sai Samrat Kankanala, Ram Chandra, Sriram Ganapathy2026-03-11⚡ eess

Evaluating pretrained speech embedding systems for dysarthria detection across heterogenous datasets

이 논문은 17 개의 사전 훈련된 음성 임베딩 시스템을 6 개의 이질적인 데이터셋으로 평가하여, 데이터셋 간 편차와 일반화 한계를 지적하고 동일한 데이터셋으로 학습 및 테스트한 임상 시스템의 타당성에 의문을 제기합니다.

Lovisa Wihlborg, Jemima Goodall, David Wheatley, Jacob J. Webber, Johnny Tam, Christine Weaver, Suvankar Pal, Siddharthan Chandran, Sohan Seth, Oliver Watts, Cassia Valentini-Botinhao2026-03-11⚡ eess

IMAS2^2: Joint Agent Selection and Information-Theoretic Coordinated Perception In Dec-POMDPs

이 논문은 분산 부분 관측 마르코프 결정 과정 (Dec-POMDP) 환경에서 상호 정보량을 기반으로 한 정보 이론적 목적 함수의 단조 서브모듈러 성질을 활용하여, 감지 에이전트 선정과 협력적 감지 정책 생성을 동시에 최적화하는 IMAS2^2 알고리즘을 제안하고 (11/e)(1-1/e) 성능 보장을 증명합니다.

Chongyang Shi, Wesley A. Suttle, Michael Dorothy, Jie Fu2026-03-11⚡ eess

Randomized Space-Time Stacked Intelligent Metasurfaces for Massive Multiuser Downlink Connectivity

이 논문은 채널 상태 정보 (CSIT) 획득 및 피드백 오버헤드를 획기적으로 줄이면서도 다중 사용자 다양성을 활용할 수 있도록 입력 단계에 무작위 시공간 코딩 층을 도입한 새로운 스택형 지능형 메타표면 (ST-SIM) 아키텍처와 부분 CSIT 기반 빔포밍 기법을 제안합니다.

Donatella Darsena, Ivan Iudice, Vincenzo Galdi, Francesco Verde2026-03-11⚡ eess

Modeling strategies for speech enhancement in the latent space of a neural audio codec

이 논문은 신경 오디오 코덱의 잠재 공간에서 연속 벡터 예측이 이산 토큰 예측보다 우수하며, 비자율적 모델이 효율성과 명료성 측면에서 실용적이며, 인코더 미세 조정이 전체 성능을 극대화하지만 코덱 재구성은 저하시킨다는 세 가지 주요 발견을 통해 음성 향상 전략을 비교 분석합니다.

Sofiene Kammoun, Xavier Alameda-Pineda, Simon Leglaive2026-03-11⚡ eess