cs.SD 편의 논문 | Gist.Science

Wave-like behaviour in (0,1) binary sequences

이 논문은 유전체 서열을 분석하기 위해 GenomeBits 모델을 양자 이론의 관점에서 확장하여, (0,1) 이진 시퀀스를 복소 파동함수로 모델링하고 이를 통해 염기 서열에서 음파와 유사한 파동적 특성을 규명했습니다.

E. Canessa2026-03-10🔬 physics

Relationship between objective and subjective perceptual measures of speech in individuals with head and neck cancer

이 연구는 두경부암 환자의 주관적 지각 평가와 객관적 음성 측정치 간의 강한 상관관계를 확인했으며, 특히 임상 모니터링을 위해 단일 지능성 측정만으로도 충분한 결과를 얻을 수 있음을 시사합니다.

Bence Mark Halpern, Thomas Tienkamp, Teja Rebernik + 4 more2026-03-10⚡ eess

A Large-Scale Probing Analysis of Speaker-Specific Attributes in Self-Supervised Speech Representations

이 논문은 11 개의 자기지도학습 (SSL) 음성 모델을 대상으로 한 대규모 프로빙 분석을 통해, 초기 계층이 기본 음향을, 중간 계층이 추상적 특성을 인코딩하며, 특히 대규모 모델의 깊은 계층에서 예상치 않게 화자 식별 정보가 회복되고 중간 표현이 전문 화자 임베딩보다 역동적 억양을 더 잘 포착한다는 사실을 규명함으로써 SSL 모델의 내부 메커니즘을 해독하고 해석 가능한 표현 선택 가이드라인을 제시합니다.

Aemon Yat Fei Chiu, Kei Ching Fung, Roger Tsz Yeung Li + 2 more2026-03-06💻 cs

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

이 논문은 텍스트, 이미지, 오디오와 같은 다중 모달 조건을 기반으로 여러 사람과 객체가 포함된 복잡한 상호작용을 정밀하게 제어할 수 있도록, 각 개체의 공간적·시간적 영역에 조건을 명시적으로 바인딩하는 새로운 인간 애니메이션 프레임워크 'InterActHuman'을 제안합니다.

Zhenzhi Wang, Jiaqi Yang, Jianwen Jiang + 7 more2026-03-06💻 cs

Vevo2: A Unified and Controllable Framework for Speech and Singing Voice Generation

이 논문은 말과 노래 음성을 통합적으로 생성하고 제어할 수 있는 'Vevo2' 프레임워크를 제안하며, 두 가지 통합 오디오 토크나이저와 새로운 학습 전략을 통해 데이터 부족 문제를 해결하고 다양한 음성 생성 및 편집 작업에서 뛰어난 일반화 능력을 입증했습니다.

Xueyao Zhang, Junan Zhang, Yuancheng Wang + 5 more2026-03-06💻 cs

TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition

이 논문은 제한된 컴퓨팅 자원으로도 베트남어-영어 코드스위칭 음성 인식 성능을 획기적으로 향상시키는 효율적인 2 단계 음소 중심 아키텍처 (TSPC) 를 제안하고, 기존 베이스라인 대비 낮은 단어 오류율을 달성했음을 입증합니다.

Tran Nguyen Anh, Truong Dinh Dung, Vo Van Nam + 1 more2026-03-06💻 cs

BabyHuBERT: Multilingual Self-Supervised Learning for Segmenting Speakers in Child-Centered Long-Form Recordings

이 논문은 40 개 이상의 언어로 된 1 만 3,000 시간 분량의 아동 중심 녹음 데이터를 기반으로 학습된 자기지도 학습 모델 'BabyHuBERT'를 제안하여, 기존 성인용 모델보다 다양한 언어 환경에서 아동과 성인의 음성을 구분하는 성능을 크게 향상시켰다고 요약할 수 있습니다.

Théo Charlot, Tarek Kunze, Maxime Poli + 3 more2026-03-06💻 cs

SAM: A Mamba-2 State-Space Audio-Language Model

본 논문은 오디오 인코더와 Mamba-2 백본을 통합하여 7B 파라미터 규모의 트랜스포머 기반 모델을 능가하는 성능을 보여주며, 오디오-언어 모델에 대한 SSM 의 설계 원칙과 분석을 제시하는 SAM 을 제안합니다.

Taehan Lee, Jaehan Jung, Hyukjun Lee2026-03-06💻 cs

Noise-to-Notes: Diffusion-based Generation and Refinement for Automatic Drum Transcription

이 논문은 드럼 자동 전사를 판별적 작업이 아닌 생성적 작업으로 재정의하고, 음악 기반 모델의 특징을 활용하여 온셋과 속도를 동시에 최적화하는 확산 기반 프레임워크 'Noise-to-Notes(N2N)'를 제안함으로써 여러 벤치마크에서 새로운 최고 성능을 달성했다고 요약할 수 있습니다.

Michael Yeung, Keisuke Toyama, Toya Teramoto + 2 more2026-03-06💻 cs

Schrödinger Bridge Mamba for One-Step Speech Enhancement

이 논문은 슈뢰딩거 브리지 훈련 패러다임과 Mamba 아키텍처를 결합한 '슈뢰딩거 브리지 Mamba(SBM)' 모델을 제안하여, 단 한 번의 추론 단계로 실시간 스트리밍이 가능한 고품질의 음성 향상 (잡음 제거 및 반향 제거) 을 달성함을 보여줍니다.

Jing Yang, Sirui Wang, Chao Wu + 2 more2026-03-06💻 cs

Multi-Loss Learning for Speech Emotion Recognition with Energy-Adaptive Mixup and Frame-Level Attention

이 논문은 에너지 적응형 믹스업과 프레임 수준 어텐션 모듈을 통합한 다중 손실 학습 프레임워크를 제안하여, 데이터 부족과 감정 복잡성이라는 과제를 해결하고 IEMOCAP 등 주요 데이터셋에서 최첨단 성능을 달성한 음성 감정 인식 연구를 소개합니다.

Cong Wang, Yizhong Geng, Yuhua Wen + 7 more2026-03-06💻 cs

MultiAPI Spoof: A Multi-API Dataset and Local-Attention Network for Speech Anti-spoofing Detection

이 논문은 다양한 상업적 및 오픈소스 API 로 생성된 230 시간 규모의 'MultiAPI Spoof' 데이터셋과 로컬 어텐션 메커니즘을 강화한 'Nes2Net-LA' 모델을 제안하여, 기존 벤치마크의 한계를 극복하고 실제 환경에 부합하는 음성 위조 탐지 및 생성 소스 추적 성능을 크게 향상시켰습니다.

Xueping Zhang, Zhenshan Zhang, Yechen Wang + 3 more2026-03-06💻 cs

RA-QA: A Benchmarking System for Respiratory Audio Question Answering Under Real-World Heterogeneity

이 논문은 실제 세계의 이질성 하에서 호흡기 오디오 질문 응답 (QA) 의 성능을 평가하기 위해, 공개 데이터셋을 통합하여 900 만 개의 다양한 QA 쌍을 포함하는 표준화된 벤치마크 시스템인 RA-QA 를 제안하고 현재 모델들의 한계를 분석합니다.

Gaia A. Bertolino, Yuwei Zhang, Tong Xia + 2 more2026-03-06💻 cs

Fine-grained Soundscape Control for Augmented Hearing

이 논문은 제한된 컴퓨팅 자원을 가진 청각 보조 장치에서 실시간으로 여러 소리 소스를 개별적으로 추출하고 볼륨을 조절할 수 있는 최초의 시스템인 'Aurchestra'를 제안하여, 단순한 소음 제거를 넘어 환경을 프로그래밍 가능하게 만드는 정교한 사운드스케이프 제어 기술을 제시합니다.

Seunghyun Oh, Malek Itani, Aseem Gauri + 1 more2026-03-06💻 cs

VoxKnesset: A Large-Scale Longitudinal Hebrew Speech Dataset for Aging Speaker Modeling

이 논문은 2009 년부터 2025 년까지의 15 년간 393 명의 연사 약 2,300 시간 분량의 헤브리어 의회 연설을 포함한 대규모 종단적 음성 데이터셋 'VoxKnesset'을 공개하고, 이를 통해 화자 검증 및 나이 예측 모델의 노화 적응 성능을 평가한 결과를 제시합니다.

Yanir Marmor, Arad Zulti, David Krongauz + 4 more2026-03-06💻 cs

Temporal Pooling Strategies for Training-Free Anomalous Sound Detection with Self-Supervised Audio Embeddings

이 논문은 사전 학습된 오디오 임베딩을 활용한 훈련 없는 이상 음향 검출에서 기존 평균 풀링의 한계를 극복하기 위해 제안한 상대 편차 풀링 (RDP) 과 하이브리드 풀링 전략이 다양한 벤치마크에서 최첨단 성능을 달성함을 입증합니다.

Kevin Wilkinghoff, Sarthak Yadav, Zheng-Hua Tan2026-03-06💻 cs

When Denoising Hinders: Revisiting Zero-Shot ASR with SAM-Audio and Whisper

본 논문은 SAM-Audio 와 같은 최신 음성 향상 모델이 인간 청취자에게는 음질을 개선하지만, 제로샷 ASR 시스템 (Whisper) 의 인식 정확도는 오히려 저하시킨다는 역설적인 결과를 제시하며, 음질 향상이 기계 인식 성능 향상으로 직결되지 않을 수 있음을 경고합니다.

Akif Islam, Raufun Nahar, Md. Ekramul Hamid2026-03-06💻 cs

WhisperAlign: Word-Boundary-Aware ASR and WhisperX-Anchored Pyannote Diarization for Long-Form Bengali Speech

이 논문은 긴 형식의 벵골어 음성 인식과 화자 분리 과제를 해결하기 위해 WhisperX 기반의 단어 경계 인식 청크 전략과 도메인 특화 파인튜닝이 적용된 Pyannote 분할 모델을 통합한 'WhisperAlign' 솔루션을 제안합니다.

Aurchi Chowdhury, Rubaiyat -E-Zaman, Sk. Ashrafuzzaman Nafees2026-03-06💻 cs

Focus Then Listen: Exploring Plug-and-Play Audio Enhancer for Noise-Robust Large Audio Language Models

이 논문은 기존 대규모 오디오 언어 모델이 잡음 환경에서 성능이 저하되는 문제를 해결하기 위해, 재학습 없이도 음성 및 비음성 소리를 분리하고 사용자 지시에 따라 적응적으로 융합하여 잡음에 강인한 성능을 제공하는 플러그 앤 플레이 오디오 향상기 'Focus-Then-Listen(FTL)'을 제안합니다.

Han Yin, Yang Xiao, Younghoo Kwon + 2 more2026-03-06💻 cs

The First Environmental Sound Deepfake Detection Challenge: Benchmarking Robustness, Evaluation, and Insights

본 논문은 97 개 팀의 참여와 1,748 건의 제출을 이끌어낸 최초의 환경음 딥페이크 탐지 (ESDD) 챌린지의 과제 정의, 데이터셋 구성, 평가 프로토콜, 베이스라인 시스템 및 주요 통찰을 제시하고, 최상위 시스템의 분석을 통해 해당 분야의 향후 연구 방향을 제시합니다.

Han Yin, Yang Xiao, Rohan Kumar Das + 2 more2026-03-06💻 cs

← 이전 다음 →