cs.SD 편의 논문 | Gist.Science

Training Dynamics-Aware Multi-Factor Curriculum Learning for Target Speaker Extraction

이 논문은 다양한 학습 요인의 복잡한 상호작용과 실제 모델 학습 동향을 반영하기 위해 다중 요인 커리큘럼 학습 전략과 TSE-Datamap 시각화 프레임워크를 제안하여 목표 화자 추출 성능을 향상시키는 방법을 다룹니다.

Yun Liu, Xuechen Liu, Xiaoxiao Miao + 1 more2026-03-06💻 cs

TW-Sound580K: A Regional Audio-Text Dataset with Verification-Guided Curation for Localized Audio-Language Modeling

이 논문은 이중 ASR 검증과 비판적 피드백을 통한 엄격한 선별 프로세스를 적용하여 대만어 방언 특화 오디오 - 텍스트 데이터셋 'TW-Sound580K'를 구축하고, 이를 기반으로 한 Tai-LALM 모델이 TAU 벤치마크에서 기존 베이스라인 대비 6.5% 향상된 49.1% 의 정확도를 달성하여 지역화된 오디오 - 언어 모델링 성능을 크게 개선했음을 보여줍니다.

Hao-Hui Xie, Ho-Lam Chung, Yi-Cheng Lin + 4 more2026-03-06💻 cs

PolyBench: A Benchmark for Compositional Reasoning in Polyphonic Audio

본 논문은 여러 사운드 이벤트가 공존하는 복합적 구조를 가진 폴리포닉 오디오의 추론 능력을 평가하기 위해 'PolyBench'라는 새로운 벤치마크를 제안하고, 최신 대규모 오디오 언어 모델들이 이러한 환경에서 일관된 성능 저하를 보임을 규명합니다.

Yuanjian Chen, Yang Xiao, Han Yin + 3 more2026-03-06💻 cs

Boosting ASR Robustness via Test-Time Reinforcement Learning with Audio-Text Semantic Rewards

이 논문은 기존 테스트 시간 적응 방법의 확인 편향을 극복하기 위해, 오디오 - 텍스트 의미 정합성을 보상 신호로 활용하는 강화 학습 기반의 새로운 프레임워크 'ASR-TRA'를 제안하여 잡음과 다양한 억양이 포함된 실제 환경에서 ASR 시스템의 강건성과 정확도를 향상시킵니다.

Linghan Fang, Tianxin Xie, Li Liu2026-03-06🤖 cs.AI

SarcasmMiner: A Dual-Track Post-Training Framework for Robust Audio-Visual Sarcasm Reasoning

이 논문은 텍스트, 음성, 시각적 단서를 통합한 다중 모달 유머 탐지를 위해 강화 학습 기반의 'SarcasmMiner' 프레임워크를 제안하며, 구조화된 추론과 이중 궤도 증류 전략을 통해 MUStARD++ 데이터셋에서 기존 방법론 대비 성능을 크게 향상시켰음을 보여줍니다.

Zhu Li, Yongjian Chen, Huiyuan Lai + 3 more2026-03-06💬 cs.CL

WavSLM: Single-Stream Speech Language Modeling via WavLM Distillation

이 논문은 텍스트 지도나 복잡한 하이브리드 구조 없이 WavLM 표현을 단일 코드북으로 양자화하고 자기회귀적 다음 청크 예측을 통해 학습된 단일 스트림 음성 언어 모델 'WavSLM'을 제안하여, 단순한 아키텍처로도 경쟁력 있는 음성 생성 및 일관성 성능을 달성함을 보여줍니다.

Luca Della Libera, Cem Subakan, Mirco Ravanelli2026-03-06🤖 cs.AI

SLICE: Speech Enhancement via Layer-wise Injection of Conditioning Embeddings

이 논문은 복잡한 실제 환경의 음성 열화를 효과적으로 처리하기 위해 기존 입력층 주입 방식의 한계를 극복하고, 사전 학습된 인코더에서 추출한 열화 조건 정보를 모든 잔차 블록에 걸쳐 주입하는 'SLICE' 방법을 제안합니다.

Seokhoon Moon, Kyudan Jung, Jaegul Choo2026-03-06💻 cs

Latent-Mark: An Audio Watermark Robust to Neural Resynthesis

이 논문은 신경망 기반 오디오 재합성에 강한 내성을 갖도록 코덱의 불변 잠재 공간에 워터마크를 삽입하고 여러 코덱을 통한 교차 최적화를 적용한 최초의 제로 비트 오디오 워터마킹 프레임워크인 'Latent-Mark'를 제안합니다.

Yen-Shan Chen, Shih-Yu Lai, Ying-Jung Tsou + 5 more2026-03-06🤖 cs.AI

Hierarchical Decoding for Discrete Speech Synthesis with Multi-Resolution Spoof Detection

본 논문은 신경 코덱 언어 모델의 추론 과정에서 발생하는 토큰 수준의 아티팩트와 분포 이탈을 해결하기 위해, 다중 해상도 스푸핑 탐지를 계층적 디코딩 전략에 통합하여 모델 재학습 없이 제로샷 음성 합성의 견고성과 품질을 향상시키는 'MSpoof-TTS' 프레임워크를 제안합니다.

Junchuan Zhao, Minh Duc Vu, Ye Wang2026-03-06💻 cs

Building Enterprise Realtime Voice Agents from Scratch: A Technical Tutorial

이 논문은 개별 모델의 속도보다는 스트리밍과 파이프라인 기법이 실시간 음성 에이전트의 핵심임을 규명하고, Deepgram, vLLM, ElevenLabs 등을 활용한 엔터프라이즈급 실시간 음성 에이전트 구축을 위한 완전한 기술 튜토리얼을 제공합니다.

Jielin Qiu, Zixiang Chen, Liangwei Yang + 11 more2026-03-06💻 cs

Knowing When to Quit: Probabilistic Early Exits for Speech Separation

이 논문은 임베디드 및 이종 장치에서 가변적인 컴퓨팅 요구 사항에 맞춰 조정 가능한 단일 채널 음성 분리를 위해, 불확실성을 고려한 확률론적 프레임워크를 활용하여 재구성 품질을 저해하지 않으면서도 계산 비용을 크게 절감할 수 있는 조기 종료 (early-exit) 기능을 갖춘 신경망 아키텍처를 제안합니다.

Kenny Falkær Olsen, Mads Østergaard, Karl Ulbæk + 4 more2026-03-05🤖 cs.LG

MeanFlowSE: one-step generative speech enhancement via conditional mean flow

이 논문은 유동 및 확산 기반 음성 향상 모델의 다단계 추론 병목 현상을 해결하기 위해, 유한 구간 평균 속도를 학습하여 단일 단계로 고품질 음성 향상을 가능하게 하는 'MeanFlowSE'를 제안합니다.

Duojia Li, Shenghui Lu, Hongchen Pan + 3 more2026-03-05🤖 cs.AI

LadderSym: A Multimodal Interleaved Transformer for Music Practice Error Detection

이 논문은 오디오와 악보의 시그널을 효과적으로 정렬하고 모호성을 줄이기 위해 두 개의 스트림 인코더와 심볼릭 프롬프트를 활용한 멀티모달 인터리브드 트랜스포머 모델 'LadderSym'을 제안하여 기존 방법 대비 음악 연습 오류 감지 성능을 획기적으로 개선했다고 요약할 수 있습니다.

Benjamin Shiue-Hal Chou, Purvish Jajal, Nick John Eliopoulos + 4 more2026-03-05🤖 cs.AI

Better audio representations are more brain-like: linking model-brain alignment with performance in downstream auditory tasks

이 논문은 다양한 하위 작업에서 우수한 성능을 보이는 최신 자기지도 학습 오디오 모델이 뇌 활동과 더 높은 유사성을 보이며, 이러한 뇌-모델 정렬 정도가 작업 수행 능력과 강한 양의 상관관계를 가짐을 확인하고, 자연음 복원 학습 과정에서 뇌와 유사한 표현이 의도하지 않게 발현됨을 규명했습니다.

Leonardo Pepino, Pablo Riera, Juan Kamienkowski + 1 more2026-03-05🤖 cs.LG

← 이전 다음 →

cs.SD