VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

이 논문은 비디오 기반 오디오 생성 (비디오 - 사운드 및 비주얼 TTS) 을 별도의 작업이 아닌 통합된 흐름 매칭 프레임워크인 VSSFlow 를 통해 단일 모델로 성공적으로 통합하고, 기존 통념과 달리 결합 학습이 성능 저하를 초래하지 않음을 입증하여 최첨단 전용 모델들을 능가하는 성능을 보여줍니다.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua SongWed, 11 Ma🤖 cs.AI

VoiceBridge: General Speech Restoration with One-step Latent Bridge Models

이 논문은 다양한 왜곡을 가진 48kHz 풀밴드 음성을 단일 단계 잠재 브리지 모델을 통해 효율적으로 복원하는 범용 음성 복원 시스템 'VoiceBridge'를 제안하며, 에너지 보존 변이 오토인코더와 결합 신경 사전, 그리고 생성자 전환을 위한 교차 훈련 기법을 통해 증류 없이 고품질 음성을 생성합니다.

Chi Zhang, Kaiwen Zheng, Zehua Chen, Jun ZhuWed, 11 Ma🤖 cs.AI

LARA-Gen: Enabling Continuous Emotion Control for Music Generation Models via Latent Affective Representation Alignment

이 논문은 텍스트 프롬프트의 한계를 극복하고 외부 음악 이해 모델과의 잠재 정서 표현 정렬 (LARA) 을 통해 연속적이고 세밀한 감정 제어가 가능한 음악 생성 프레임워크 'LARA-Gen'을 제안하고, 이를 평가하기 위한 벤치마크와 예측 모델을 구축하여 기존 모델 대비 뛰어난 감정 준수도와 음악 품질을 입증합니다.

Jiahao Mei, Xuenan Xu, Zeyu Xie, Zihao Zheng, Ye Tao, Yue Ding, Mengyue WuWed, 11 Ma💻 cs

Modeling strategies for speech enhancement in the latent space of a neural audio codec

이 논문은 신경 오디오 코덱의 잠재 공간에서 연속 벡터 예측이 이산 토큰 예측보다 우수하며, 비자율적 모델이 효율성과 명료성 측면에서 실용적이며, 인코더 미세 조정이 전체 성능을 극대화하지만 코덱 재구성은 저하시킨다는 세 가지 주요 발견을 통해 음성 향상 전략을 비교 분석합니다.

Sofiene Kammoun, Xavier Alameda-Pineda, Simon LeglaiveWed, 11 Ma⚡ eess

Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound

이 논문은 시각과 청각 정보를 통합한 최초의 공식적인 오디오 - 비주얼 월드 모델 (AVWM) 프레임워크를 제안하고, 이를 위해 새로운 데이터셋 AVW-4k 와 3 단계 학습 전략을 갖춘 AV-CDiT 모델을 개발하여 멀티모달 미래 상태 예측 및 내비게이션 성능을 크게 향상시켰음을 보여줍니다.

Jiahua Wang, Leqi Zheng, Jialong Wu, Yaoxin MaoWed, 11 Ma💻 cs

Rethinking Discrete Speech Representation Tokens for Accent Generation

이 논문은 화음 정보와 화자 정보를 넘어 디스크리트 음성 표현 토큰 (DSRTs) 에 내재된 억양 정보를 체계적으로 분석하기 위한 새로운 평가 프레임워크를 제안하고, 계층 선택의 중요성, ASR 감독에 의한 억양 정보 감소, 그리고 코드북 크기 축소의 비효율성 등 주요 발견 사항을 제시합니다.

Jinzuomu Zhong, Yi Wang, Korin Richmond, Peter BellWed, 11 Ma⚡ eess

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

이 논문은 언어별 다양성과 인간 감정의 모호성을 반영하기 위해 35 개 감정 말뭉치와 표준화된 툴킷을 포함한 음성 감정 인식 (SER) 벤치마크인 VoxEmo 를 제안하며, 이를 통해 생성형 음성 LLM 이 하드 라벨 정확도에서는 기존 모델을 따르지 못하지만 인간의 주관적 감정 분포에는 더 잘 부합함을 입증했습니다.

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

Universal Speech Content Factorization

이 논문은 최소한의 타겟 음성 데이터로 화자 특성을 제거하고 음소 내용을 보존하는 역변환 가능한 선형 방법인 범용 음성 내용 분해 (USCF) 를 제안하여, 제로샷 음성 변환 및 화자 분리된 음성 합성 모델 학습에 효과적으로 활용될 수 있음을 보여줍니다.

Henry Li Xinyuan, Zexin Cai, Lin Zhang, Leibny Paola García-Perera, Berrak Sisman, Sanjeev Khudanpur, Nicholas Andrews, Matthew WiesnerWed, 11 Ma⚡ eess

Gender Fairness in Audio Deepfake Detection: Performance and Disparity Analysis

이 논문은 ASVspoof 5 데이터셋을 활용하여 오디오 딥페이크 탐지 모델의 전반적인 성능과 성별 간 편향을 분석한 결과, 기존 성능 지표만으로는 성별에 따른 오류 분포의 불균형을 파악하기 어렵지만 공정성 지표를 적용함으로써 이러한 편향을 발견하고 보다 공정하고 견고한 탐지 시스템 개발의 중요성을 강조합니다.

Aishwarya Fursule, Shruti Kshirsagar, Anderson R. AvilaWed, 11 Ma🤖 cs.AI

Trade-offs Between Capacity and Robustness in Neural Audio Codecs for Adversarially Robust Speech Recognition

이 논문은 신경 오디오 코덱의 잔류 벡터 양자화 (RVQ) 깊이를 조절하여 적대적 공격에 대한 강인성과 음성 내용 보존 사이의 최적 균형을 찾을 수 있음을 보여주며, 중간 깊이의 양자화가 전사 오류를 최소화하고 기존 압축 방어 기법보다 우수한 성능을 보인다고 주장합니다.

Jordan Prescott, Thanathai Lertpetchpun, Shrikanth NarayananWed, 11 Ma⚡ eess

The Costs of Reproducibility in Music Separation Research: a Replication of Band-Split RNN

이 논문은 공개된 코드가 없어 재현이 어려웠던 'Band-Split RNN' 모델을 재현 시도하는 과정에서 원본보다 성능이 향상된 최적화 모델을 개발하고, 연구 재현성 부족이 초래한 시간과 에너지 낭비 문제를 비판적으로 분석하며 재현 가능한 연구 문화를 장려하기 위해 코드와 모델을 공개합니다.

Paul Magron, Romain Serizel, Constance DouwesWed, 11 Ma🤖 cs.LG

Paralinguistic Emotion-Aware Validation Timing Detection in Japanese Empathetic Spoken Dialogue

이 논문은 텍스트 맥락에 의존하지 않고 음성 내의 비언어적 단서와 감정 정보를 융합하여 일본어 공감 대화에서 적절한 감정적 수용 (Validation) 시점을 탐지하는 새로운 모델을 제안하고, 이를 통해 더 공감적인 인간 - 로봇 상호작용을 가능하게 함을 보여줍니다.

Zi Haur Pang, Yahui Fu, Yuan Gao, Tatsuya KawaharaWed, 11 Ma💻 cs