Trade-offs between structural richness and communication efficiency in music network representations

이 논문은 음악 네트워크 표현에서 단일 특징 기반의 압축된 표현이 높은 불확실성과 낮은 모델 오차를 보이는 반면, 풍부한 다중 특징 표현은 더 정교한 구분을 제공하지만 상태 공간 확대로 인해 모델 오차가 증가함을 보여주어, 특징 선택이 네트워크 구조뿐만 아니라 청자의 기대를 반영하는 불확실성의 적합성까지 결정한다는 것을 규명합니다.

Lluc Bono Rosselló, Robert Jankowski, Hugues Bersini, Marián Boguñá, M. Ángeles SerranoThu, 12 Ma🧬 q-bio

Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention

이 논문은 시각적 구강 움직임을 이산적 의미 토큰으로 변환하는 DP-LipCoder 와 다중 스케일 전역 - 국소 어텐션 메커니즘을 활용한 경량화 모델 'Dolphin'을 제안하여, 기존 최첨단 모델 대비 분리 품질은 유지하거나 향상시키면서도 파라미터 수와 연산량을 획기적으로 줄인 효율적인 오디오 - 비주얼 음성 분리 솔루션을 제시합니다.

Kai Li, Kejun Gao, Xiaolin HuThu, 12 Ma💻 cs

HyWA: Hypernetwork Weight Adapting Personalized Voice Activity Detection

이 논문은 기존 음성 활동 감지 (VAD) 모델의 특정 계층에 대해 하이퍼네트워크를 통해 개인화된 가중치를 생성하는 'HyWA'를 제안하여, 기존 스피커 조건부 방법보다 성능을 향상시키고 동일한 아키텍처 재사용을 통한 배포 용이성을 확보했다고 요약할 수 있습니다.

Mahsa Ghazvini Nejad, Hamed Jafarzadeh Asl, Amin Edraki, Mohammadreza Sadeghi, Masoud Asgharian, Yuanhao Yu, Vahid Partovi NiaThu, 12 Ma⚡ eess

AMB-DSGDN: Adaptive Modality-Balanced Dynamic Semantic Graph Differential Network for Multimodal Emotion Recognition

이 논문은 텍스트, 음성, 시각 모달리티 간의 노이즈를 제거하고 우세한 모달리티의 편향을 완화하기 위해 차분 그래프 어텐션 메커니즘과 적응형 모달리티 균형 메커니즘을 도입한 AMB-DSGDN 모델을 제안하여 다중 모달 대화 감정 인식 성능을 향상시킵니다.

Yunsheng Wang, Yuntao Shou, Yilong Tan, Wei Ai, Tao Meng, Keqin LiThu, 12 Ma🤖 cs.AI

ID-LoRA: Identity-Driven Audio-Video Personalization with In-Context LoRA

이 논문은 텍스트 프롬프트, 참조 이미지, 짧은 오디오 클립을 단일 생성 과정으로 통합하여 시각적 외모와 목소리를 동시에 개인화하는 새로운 모델 'ID-LoRA'를 제안하며, 이를 통해 기존 방법론 대비 뛰어난 음성 유사도와 화자 특성을 구현하고 단일 GPU 에서 3 천 개의 훈련 쌍만으로 학습이 가능함을 보여줍니다.

Aviad Dahan, Moran Yanuka, Noa Kraicer, Lior Wolf, Raja GiryesThu, 12 Ma💻 cs

PRoADS: Provably Secure and Robust Audio Diffusion Steganography with latent optimization and backward Euler Inversion

이 논문은 직교 행렬 투영을 통해 초기 노이즈에 비밀 메시지를 임베딩하고, 잠재 공간 최적화와 역방향 오일러 역변환을 도입하여 재구성 오차를 최소화함으로써 64kbps MP3 압축 하에서도 0.15% 의 매우 낮은 비트 오류율을 달성하는 증명 가능한 보안성과 강인성을 갖춘 오디오 확산 스테가노그래피 프레임워크 'PRoADS'를 제안합니다.

YongPeng Yan, Yanan Li, Qiyang Xiao, Yanzhen RenThu, 12 Ma💻 cs

FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System

이 논문은 화성음성 인식 (ASR), 음성 활동 감지 (VAD), 언어 식별 (LID), 구두점 예측 (Punc) 모듈을 통합하여 방언 및 코드스위칭까지 포괄하는 산업용 수준의 최첨단 자동 음성 인식 시스템 'FireRedASR2S'를 제안하고, 각 모듈이 기존 모델들을 능가하는 성능을 달성했음을 보고합니다.

Kaituo Xu, Yan Jia, Kai Huang, Junjie Chen, Wenpeng Li, Kun Liu, Feng-Long Xie, Xu Tang, Yao HuThu, 12 Ma⚡ eess

G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition

이 논문은 장문의 다자간 중첩 음성을 처리할 때 chunk 단위 추론에서 회의 수준의 화자 일관성을 유지하면서 시간 스탬프가 포함된 화자 할당 전사문을 생성하기 위해, 시간 인식 화자 추적 모듈과 Speech-LLM 전사 백본을 결합한 종단간 시스템 'G-STAR'를 제안합니다.

Jing Peng, Ziyi Chen, Haoyu Li, Yucheng Wang, Duo Ma, Mengtian Li, Yunfan Du, Dezhu Xu, Kai Yu, Shuai WangThu, 12 Ma⚡ eess

Distilling LLM Semantic Priors into Encoder-Only Multi-Talker ASR with Talker-Count Routing

이 논문은 LLM 의 의미적 사전 지식을 인코더에 증류하고 화자 수를 예측하여 동적으로 디코딩 분기를 선택하는 Talker-Count Routing 을 도입함으로써, 계산 비용은 낮추면서도 화자 수가 증가할수록 성능이 향상되는 효율적인 인코더 전용 다화자 음성 인식 프레임워크를 제안합니다.

Hao Shi, Yusuke Fujita, Roman Koshkin, Mengjie Zhao, Yuan Gao, Lianbo Liu, Yui SudoThu, 12 Ma💻 cs

Geo-ATBench: A Benchmark for Geospatial Audio Tagging with Geospatial Semantic Context

이 논문은 지리 정보 시스템 데이터에서 추출된 지리 공간 의미적 맥락 (GSC) 을 오디오 신호와 결합하여 다중 레이블 오디오 태깅의 모호성을 해결하는 'Geo-AT'작업과 이를 평가하기 위한 벤치마크 'Geo-ATBench', 그리고 통합 융합 프레임워크 'GeoFusion-AT'를 제안합니다.

Yuanbo Hou, Yanru Wu, Qiaoqiao Ren, Shengchen Li, Stephen Roberts, Dick BotteldoorenThu, 12 Ma⚡ eess

AlphaFlowTSE: One-Step Generative Target Speaker Extraction via Conditional AlphaFlow

이 논문은 혼합 음성과 짧은 등록 음성을 조건으로 하여 혼합 비율 예측 없이 한 번의 단계로 목표 화자 음성을 추출하는 새로운 생성 모델 'AlphaFlowTSE'를 제안하며, 이를 통해 지연 시간을 줄이고 화자 유사성 및 실제 환경에서의 자동 음성 인식 성능을 향상시켰습니다.

Duojia Li, Shuhan Zhang, Zihan Qian, Wenxuan Wu, Shuai Wang, Qingyang Hong, Lin Li, Haizhou LiThu, 12 Ma🤖 cs.AI

Towards Robust Speech Deepfake Detection via Human-Inspired Reasoning

이 논문은 대규모 오디오 언어 모델과 인간이 주석한 데이터셋에서 도출된 사고 연쇄 추론을 결합하여, 새로운 오디오 도메인 및 생성기에 대한 일반화 성능과 예측에 대한 인간이 이해할 수 있는 해석 가능성을 동시에 갖춘 새로운 음성 딥페이크 탐지 프레임워크인 HIR-SDD 를 제안합니다.

Artem Dvirniak, Evgeny Kushnir, Dmitrii Tarasov, Artem Iudin, Oleg Kiriukhin, Mikhail Pautov, Dmitrii Korzh, Oleg Y. RogovThu, 12 Ma🤖 cs.AI

OSUM-Pangu: An Open-Source Multidimension Speech Understanding Foundation Model Built upon OpenPangu on Ascend NPUs

이 논문은 GPU 기반 생태계에 의존하지 않고 아센드 (Ascend) NPU 하드웨어와 오픈파누 (OpenPangu) LLM 을 기반으로 구축된 최초의 완전 오픈소스 다차원 음성 이해 기반 모델인 OSUM-Pangu 를 소개하며, 비 CUDA 환경에서도 주요 GPU 기반 모델과 유사한 성능을 달성함을 보여줍니다.

Yujie Liao, Xuelong Geng, Hongfei Xue, Shuiyuan Wang, Lei XieThu, 12 Ma💻 cs

VoxCare: Studying Natural Communication Behaviors of Hospital Caregivers through Wearable Sensing of Egocentric Audio

이 논문은 원시 오디오를 저장하지 않고 웨어러블 기기의 온디바이스 음성 기반 분석을 통해 병원 의료진 간의 자연스러운 의사소통 패턴을 실시간으로 측정하고, 이를 통해 업무 부하와 스트레스를 이해하여 의료 서비스의 질을 향상시키는 'VoxCare' 시스템을 제안합니다.

Tiantian Feng, Kleanthis Avramidis, Anfeng Xu, Deqi Wang, Brandon M Booth, Shrikanth NarayananThu, 12 Ma💻 cs