Benchmarking Humans and Machines on Complex Multilingual Speech Understanding Tasks

이 논문은 다국어 음향 환경에서 인간이 모국어에 기반한 선택적 주의 메커니즘을 통해 화자를 구분하는 반면, 음성 기반 대규모 언어 모델 (LLM) 은 깨끗한 단일 화자 조건에서는 인간을 능가하지만 중첩된 화자 환경에서는 선택적 주의에 어려움을 겪는다는 핵심 차이를 규명했습니다.

Sai Samrat Kankanala, Ram Chandra, Sriram GanapathyWed, 11 Ma⚡ eess

Evaluating pretrained speech embedding systems for dysarthria detection across heterogenous datasets

이 논문은 17 개의 사전 훈련된 음성 임베딩 시스템을 6 개의 이질적인 데이터셋으로 평가하여, 데이터셋 간 편차와 일반화 한계를 지적하고 동일한 데이터셋으로 학습 및 테스트한 임상 시스템의 타당성에 의문을 제기합니다.

Lovisa Wihlborg, Jemima Goodall, David Wheatley, Jacob J. Webber, Johnny Tam, Christine Weaver, Suvankar Pal, Siddharthan Chandran, Sohan Seth, Oliver Watts, Cassia Valentini-BotinhaoWed, 11 Ma⚡ eess

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

이 논문은 비디오 기반 오디오 생성 (비디오 - 사운드 및 비주얼 TTS) 을 별도의 작업이 아닌 통합된 흐름 매칭 프레임워크인 VSSFlow 를 통해 단일 모델로 성공적으로 통합하고, 기존 통념과 달리 결합 학습이 성능 저하를 초래하지 않음을 입증하여 최첨단 전용 모델들을 능가하는 성능을 보여줍니다.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua SongWed, 11 Ma🤖 cs.AI

VoiceBridge: General Speech Restoration with One-step Latent Bridge Models

이 논문은 다양한 왜곡을 가진 48kHz 풀밴드 음성을 단일 단계 잠재 브리지 모델을 통해 효율적으로 복원하는 범용 음성 복원 시스템 'VoiceBridge'를 제안하며, 에너지 보존 변이 오토인코더와 결합 신경 사전, 그리고 생성자 전환을 위한 교차 훈련 기법을 통해 증류 없이 고품질 음성을 생성합니다.

Chi Zhang, Kaiwen Zheng, Zehua Chen, Jun ZhuWed, 11 Ma🤖 cs.AI

Modeling strategies for speech enhancement in the latent space of a neural audio codec

이 논문은 신경 오디오 코덱의 잠재 공간에서 연속 벡터 예측이 이산 토큰 예측보다 우수하며, 비자율적 모델이 효율성과 명료성 측면에서 실용적이며, 인코더 미세 조정이 전체 성능을 극대화하지만 코덱 재구성은 저하시킨다는 세 가지 주요 발견을 통해 음성 향상 전략을 비교 분석합니다.

Sofiene Kammoun, Xavier Alameda-Pineda, Simon LeglaiveWed, 11 Ma⚡ eess

Rethinking Discrete Speech Representation Tokens for Accent Generation

이 논문은 화음 정보와 화자 정보를 넘어 디스크리트 음성 표현 토큰 (DSRTs) 에 내재된 억양 정보를 체계적으로 분석하기 위한 새로운 평가 프레임워크를 제안하고, 계층 선택의 중요성, ASR 감독에 의한 억양 정보 감소, 그리고 코드북 크기 축소의 비효율성 등 주요 발견 사항을 제시합니다.

Jinzuomu Zhong, Yi Wang, Korin Richmond, Peter BellWed, 11 Ma⚡ eess

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

이 논문은 언어별 다양성과 인간 감정의 모호성을 반영하기 위해 35 개 감정 말뭉치와 표준화된 툴킷을 포함한 음성 감정 인식 (SER) 벤치마크인 VoxEmo 를 제안하며, 이를 통해 생성형 음성 LLM 이 하드 라벨 정확도에서는 기존 모델을 따르지 못하지만 인간의 주관적 감정 분포에는 더 잘 부합함을 입증했습니다.

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

Can You Hear, Localize, and Segment Continually? An Exemplar-Free Continual Learning Benchmark for Audio-Visual Segmentation

이 논문은 오디오-비주얼 분할 (AVS) 을 위한 최초의 표본 없는 지속적 학습 벤치마크를 제시하고, 저랭크 앵커링 (LRA) 과 오디오 유도 사전 융합 조정을 활용한 ATLAS 라는 강력한 베이스라인을 제안하여 역동적인 환경에서의 지속적 학습과 catastrophic forgetting 문제를 해결합니다.

Siddeshwar Raghavan, Gautham Vinod, Bruce Coburn, Fengqing ZhuWed, 11 Ma⚡ eess

Universal Speech Content Factorization

이 논문은 최소한의 타겟 음성 데이터로 화자 특성을 제거하고 음소 내용을 보존하는 역변환 가능한 선형 방법인 범용 음성 내용 분해 (USCF) 를 제안하여, 제로샷 음성 변환 및 화자 분리된 음성 합성 모델 학습에 효과적으로 활용될 수 있음을 보여줍니다.

Henry Li Xinyuan, Zexin Cai, Lin Zhang, Leibny Paola García-Perera, Berrak Sisman, Sanjeev Khudanpur, Nicholas Andrews, Matthew WiesnerWed, 11 Ma⚡ eess

Trade-offs Between Capacity and Robustness in Neural Audio Codecs for Adversarially Robust Speech Recognition

이 논문은 신경 오디오 코덱의 잔류 벡터 양자화 (RVQ) 깊이를 조절하여 적대적 공격에 대한 강인성과 음성 내용 보존 사이의 최적 균형을 찾을 수 있음을 보여주며, 중간 깊이의 양자화가 전사 오류를 최소화하고 기존 압축 방어 기법보다 우수한 성능을 보인다고 주장합니다.

Jordan Prescott, Thanathai Lertpetchpun, Shrikanth NarayananWed, 11 Ma⚡ eess