A Large-Scale Probing Analysis of Speaker-Specific Attributes in Self-Supervised Speech Representations

이 논문은 11 개의 자기지도학습 (SSL) 음성 모델을 대상으로 한 대규모 프로빙 분석을 통해, 초기 계층이 기본 음향을, 중간 계층이 추상적 특성을 인코딩하며, 특히 대규모 모델의 깊은 계층에서 예상치 않게 화자 식별 정보가 회복되고 중간 표현이 전문 화자 임베딩보다 역동적 억양을 더 잘 포착한다는 사실을 규명함으로써 SSL 모델의 내부 메커니즘을 해독하고 해석 가능한 표현 선택 가이드라인을 제시합니다.

Aemon Yat Fei Chiu, Kei Ching Fung, Roger Tsz Yeung Li + 2 more2026-03-06💻 cs

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

이 논문은 텍스트, 이미지, 오디오와 같은 다중 모달 조건을 기반으로 여러 사람과 객체가 포함된 복잡한 상호작용을 정밀하게 제어할 수 있도록, 각 개체의 공간적·시간적 영역에 조건을 명시적으로 바인딩하는 새로운 인간 애니메이션 프레임워크 'InterActHuman'을 제안합니다.

Zhenzhi Wang, Jiaqi Yang, Jianwen Jiang + 7 more2026-03-06💻 cs

BabyHuBERT: Multilingual Self-Supervised Learning for Segmenting Speakers in Child-Centered Long-Form Recordings

이 논문은 40 개 이상의 언어로 된 1 만 3,000 시간 분량의 아동 중심 녹음 데이터를 기반으로 학습된 자기지도 학습 모델 'BabyHuBERT'를 제안하여, 기존 성인용 모델보다 다양한 언어 환경에서 아동과 성인의 음성을 구분하는 성능을 크게 향상시켰다고 요약할 수 있습니다.

Théo Charlot, Tarek Kunze, Maxime Poli + 3 more2026-03-06💻 cs

Noise-to-Notes: Diffusion-based Generation and Refinement for Automatic Drum Transcription

이 논문은 드럼 자동 전사를 판별적 작업이 아닌 생성적 작업으로 재정의하고, 음악 기반 모델의 특징을 활용하여 온셋과 속도를 동시에 최적화하는 확산 기반 프레임워크 'Noise-to-Notes(N2N)'를 제안함으로써 여러 벤치마크에서 새로운 최고 성능을 달성했다고 요약할 수 있습니다.

Michael Yeung, Keisuke Toyama, Toya Teramoto + 2 more2026-03-06💻 cs

MultiAPI Spoof: A Multi-API Dataset and Local-Attention Network for Speech Anti-spoofing Detection

이 논문은 다양한 상업적 및 오픈소스 API 로 생성된 230 시간 규모의 'MultiAPI Spoof' 데이터셋과 로컬 어텐션 메커니즘을 강화한 'Nes2Net-LA' 모델을 제안하여, 기존 벤치마크의 한계를 극복하고 실제 환경에 부합하는 음성 위조 탐지 및 생성 소스 추적 성능을 크게 향상시켰습니다.

Xueping Zhang, Zhenshan Zhang, Yechen Wang + 3 more2026-03-06💻 cs

Focus Then Listen: Exploring Plug-and-Play Audio Enhancer for Noise-Robust Large Audio Language Models

이 논문은 기존 대규모 오디오 언어 모델이 잡음 환경에서 성능이 저하되는 문제를 해결하기 위해, 재학습 없이도 음성 및 비음성 소리를 분리하고 사용자 지시에 따라 적응적으로 융합하여 잡음에 강인한 성능을 제공하는 플러그 앤 플레이 오디오 향상기 'Focus-Then-Listen(FTL)'을 제안합니다.

Han Yin, Yang Xiao, Younghoo Kwon + 2 more2026-03-06💻 cs

The First Environmental Sound Deepfake Detection Challenge: Benchmarking Robustness, Evaluation, and Insights

본 논문은 97 개 팀의 참여와 1,748 건의 제출을 이끌어낸 최초의 환경음 딥페이크 탐지 (ESDD) 챌린지의 과제 정의, 데이터셋 구성, 평가 프로토콜, 베이스라인 시스템 및 주요 통찰을 제시하고, 최상위 시스템의 분석을 통해 해당 분야의 향후 연구 방향을 제시합니다.

Han Yin, Yang Xiao, Rohan Kumar Das + 2 more2026-03-06💻 cs