eess.AS 편의 논문 | Gist.Science

Textless and Non-Parallel Speech-to-Speech Emotion Style Transfer

이 논문은 텍스트와 병렬 데이터 없이 소스 음성의 내용과 화자 특성을 유지하면서 참조 음성의 감정 스타일을 전달하는 제로샷 음성-음성 감정 스타일 전이 프레임워크인 S2S-ZEST 를 제안하고, 기존 방법보다 향상된 성능과 감정 인식 데이터 증강 적용 가능성을 입증합니다.

Soumya Dutta, Avni Jain, Sriram GanapathyWed, 11 Ma⚡ eess

Fast-Converging Distributed Signal Estimation in Topology-Unconstrained Wireless Acoustic Sensor Networks

이 논문은 기존 TI-DANSE 알고리즘의 느린 수렴 속도를 해결하고, 토폴로지 제약 없이 중앙 집중식 솔루션으로 빠르게 수렴하며 대역폭을 절약하는 새로운 'TI-DANSE+' 알고리즘을 제안합니다.

Paul Didier, Toon van Waterschoot, Simon Doclo, Jörg Bitzer, Marc MoonenWed, 11 Ma⚡ eess

Human-CLAP: Human-perception-based contrastive language-audio pretraining

이 논문은 기존 CLAP 점수와 인간 주관 평가 간의 상관관계가 낮다는 점을 지적하고, 인간 주관 평가를 기반으로 학습된 'Human-CLAP' 모델을 제안하여 두 점수 간의 상관관계를 기존 대비 0.25 이상 크게 향상시켰음을 보여줍니다.

Taisei Takano, Yuki Okamoto, Yusuke Kanamori, Yuki Saito, Ryotaro Nagase, Hiroshi SaruwatariWed, 11 Ma⚡ eess

Benchmarking Humans and Machines on Complex Multilingual Speech Understanding Tasks

이 논문은 다국어 음향 환경에서 인간이 모국어에 기반한 선택적 주의 메커니즘을 통해 화자를 구분하는 반면, 음성 기반 대규모 언어 모델 (LLM) 은 깨끗한 단일 화자 조건에서는 인간을 능가하지만 중첩된 화자 환경에서는 선택적 주의에 어려움을 겪는다는 핵심 차이를 규명했습니다.

Sai Samrat Kankanala, Ram Chandra, Sriram GanapathyWed, 11 Ma⚡ eess

Evaluating pretrained speech embedding systems for dysarthria detection across heterogenous datasets

이 논문은 17 개의 사전 훈련된 음성 임베딩 시스템을 6 개의 이질적인 데이터셋으로 평가하여, 데이터셋 간 편차와 일반화 한계를 지적하고 동일한 데이터셋으로 학습 및 테스트한 임상 시스템의 타당성에 의문을 제기합니다.

Lovisa Wihlborg, Jemima Goodall, David Wheatley, Jacob J. Webber, Johnny Tam, Christine Weaver, Suvankar Pal, Siddharthan Chandran, Sohan Seth, Oliver Watts, Cassia Valentini-BotinhaoWed, 11 Ma⚡ eess

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

이 논문은 비디오 기반 오디오 생성 (비디오 - 사운드 및 비주얼 TTS) 을 별도의 작업이 아닌 통합된 흐름 매칭 프레임워크인 VSSFlow 를 통해 단일 모델로 성공적으로 통합하고, 기존 통념과 달리 결합 학습이 성능 저하를 초래하지 않음을 입증하여 최첨단 전용 모델들을 능가하는 성능을 보여줍니다.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua SongWed, 11 Ma🤖 cs.AI

VoiceBridge: General Speech Restoration with One-step Latent Bridge Models

이 논문은 다양한 왜곡을 가진 48kHz 풀밴드 음성을 단일 단계 잠재 브리지 모델을 통해 효율적으로 복원하는 범용 음성 복원 시스템 'VoiceBridge'를 제안하며, 에너지 보존 변이 오토인코더와 결합 신경 사전, 그리고 생성자 전환을 위한 교차 훈련 기법을 통해 증류 없이 고품질 음성을 생성합니다.

Chi Zhang, Kaiwen Zheng, Zehua Chen, Jun ZhuWed, 11 Ma🤖 cs.AI

Latent Speech-Text Transformer

이 논문은 음성 토큰을 잠재적 패치로 집계하여 텍스트와 음성의 시퀀스 모델링 세분성을 일치시키고 계산 효율성을 높임으로써, 음성 및 텍스트 성능을 동시에 향상시키는 '잠재 음성 - 텍스트 트랜스포머 (LST)'를 제안합니다.

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc LeWed, 11 Ma🤖 cs.AI

Noise-Conditioned Mixture-of-Experts Framework for Robust Speaker Verification

이 논문은 다양한 배경 잡음 환경에서 화자 확인의 강건성을 향상시키기 위해, 잡음 정보를 기반으로 입력을 전문화된 서브공간으로 자동 라우팅하는 잡음 조건부 혼합 전문가 (Mixture-of-Experts) 프레임워크를 제안합니다.

Bin Gu, Haitao Zhao, Jibo WeiWed, 11 Ma⚡ eess

Modeling strategies for speech enhancement in the latent space of a neural audio codec

이 논문은 신경 오디오 코덱의 잠재 공간에서 연속 벡터 예측이 이산 토큰 예측보다 우수하며, 비자율적 모델이 효율성과 명료성 측면에서 실용적이며, 인코더 미세 조정이 전체 성능을 극대화하지만 코덱 재구성은 저하시킨다는 세 가지 주요 발견을 통해 음성 향상 전략을 비교 분석합니다.

Sofiene Kammoun, Xavier Alameda-Pineda, Simon LeglaiveWed, 11 Ma⚡ eess

WhisperVC: Decoupled Cross-Domain Alignment and Speech Generation for Low-Resource Whisper-to-Normal Conversion

이 논문은 제한된 데이터로도 whisper-to-normal 변환을 가능하게 하는 3 단계 프레임워크 'WhisperVC'를 제안하여, 교차 도메인 정렬과 음성 생성을 분리함으로써 음질과 화자 유사성을 크게 향상시켰음을 보여줍니다.

Dong Liu, Juan Liu, Wei Ju, Yao Tian, Ming LiWed, 11 Ma⚡ eess

Multiplexing Neural Audio Watermarks

이 논문은 단일 워터마킹 기법의 한계를 극복하기 위해 병렬 및 직렬 다중화 전략과 훈련 불필요한 PA-TFM, 그리고 모델 기반의 MaskNet 을 제안하여, 다양한 공격 환경에서 기존 방법보다 훨씬 강력한 오디오 워터마킹 성능을 입증합니다.

Zheqi Yuan, Yucheng Huang, Guangzhi Sun, Zengrui Jin, Chao ZhangWed, 11 Ma⚡ eess

Head, posture, and full-body gestures in unscripted dyadic conversations in noise

이 연구는 시끄러운 환경에서 대화하는 사람들이 말소리를 높이고 손동작의 복잡성을 증가시키며 머리와 몸통 움직임을 조절하는 등 청각적 소음에 적응하기 위해 비언어적 제스처와 신체 움직임을 어떻게 변화시키는지 분석했습니다.

Luboš Hládek, Bernhard U. SeeberWed, 11 Ma⚡ eess

Rethinking Discrete Speech Representation Tokens for Accent Generation

이 논문은 화음 정보와 화자 정보를 넘어 디스크리트 음성 표현 토큰 (DSRTs) 에 내재된 억양 정보를 체계적으로 분석하기 위한 새로운 평가 프레임워크를 제안하고, 계층 선택의 중요성, ASR 감독에 의한 억양 정보 감소, 그리고 코드북 크기 축소의 비효율성 등 주요 발견 사항을 제시합니다.

Jinzuomu Zhong, Yi Wang, Korin Richmond, Peter BellWed, 11 Ma⚡ eess

Bottleneck Transformer-Based Approach for Improved Automatic STOI Score Prediction

이 논문은 청각적 참조 신호 없이도 기존 최첨단 모델보다 높은 상관관계와 낮은 평균 제곱 오차를 보이는 새로운 병목 트랜스포머 아키텍처를 통해 STOI 점수를 정확하게 예측하는 방법을 제안합니다.

Amartyaveer, Murali Kadambi, Chandra Mohan Sharma, Anupam Mondal, Prasanta Kumar GhoshWed, 11 Ma🤖 cs.LG

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

이 논문은 언어별 다양성과 인간 감정의 모호성을 반영하기 위해 35 개 감정 말뭉치와 표준화된 툴킷을 포함한 음성 감정 인식 (SER) 벤치마크인 VoxEmo 를 제안하며, 이를 통해 생성형 음성 LLM 이 하드 라벨 정확도에서는 기존 모델을 따르지 못하지만 인간의 주관적 감정 분포에는 더 잘 부합함을 입증했습니다.

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

Can You Hear, Localize, and Segment Continually? An Exemplar-Free Continual Learning Benchmark for Audio-Visual Segmentation

이 논문은 오디오-비주얼 분할 (AVS) 을 위한 최초의 표본 없는 지속적 학습 벤치마크를 제시하고, 저랭크 앵커링 (LRA) 과 오디오 유도 사전 융합 조정을 활용한 ATLAS 라는 강력한 베이스라인을 제안하여 역동적인 환경에서의 지속적 학습과 catastrophic forgetting 문제를 해결합니다.

Siddeshwar Raghavan, Gautham Vinod, Bruce Coburn, Fengqing ZhuWed, 11 Ma⚡ eess

eess.AS