cs.SD 편의 논문 | Gist.Science

TimberAgent: Gram-Guided Retrieval for Executable Music Effect Control

이 논문은 Wav2Vec2 활성화의 그람 행렬을 기반으로 한 텍스처 공명 검색 (TRR) 을 제안하여, 디지털 오디오 워크스테이션의 저수준 신호 처리 매개변수와 사용자의 지각적 의도 간의 격차를 해소하고 편집 가능한 오디오 효과 제어를 위한 새로운 기준을 제시합니다.

Shihao He, Yihan Xia, Fang Liu, Taotao Wang, Shengli ZhangWed, 11 Ma🤖 cs.AI

Physics-Informed Neural Engine Sound Modeling with Differentiable Pulse-Train Synthesis

이 논문은 엔진 소리를 지속된 조화 진동이 아닌 배기 압력 펄스 시퀀스로 간주하고, 물리 정보 기반의 인덕티브 바이어를 통합한 미분 가능한 펄스-트레인-레조네이터 (PTR) 모델을 제안하여 기존 모델 대비 조화 재구성 성능을 21% 향상시키고 물리적 현상에 대응하는 해석 가능한 매개변수를 제공함을 보여줍니다.

Robin Doerfler, Lonce WyseWed, 11 Ma🤖 cs.AI

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

이 논문은 다중 오디오 이해 능력이 부족한 대규모 오디오 - 언어 모델을 평가하기 위한 'MUGEN' 벤치마크를 제안하고, 오디오 입력 순서를 다양화하는 '오디오 순열 자기 일관성' 전략과 사고 연쇄 기법을 결합하여 성능을 유의미하게 향상시킬 수 있음을 보여줍니다.

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi LeeWed, 11 Ma🤖 cs.AI

EmoSURA: Towards Accurate Evaluation of Detailed and Long-Context Emotional Speech Captions

이 논문은 기존 평가 방법의 한계를 극복하고 긴 문맥의 감정 음성 캡션에 대한 정확한 평가를 위해 캡션을 원자적 지각 단위로 분해하여 오디오 신호와 검증하는 'EmoSURA' 프레임워크와 표준 벤치마크 'SURABench'를 제안합니다.

Xin Jing, Andreas Triantafyllopoulos, Jiadong Wang, Shahin Amiriparian, Jun Luo, Björn SchullerWed, 11 Ma💻 cs

SCENEBench: An Audio Understanding Benchmark Grounded in Assistive and Industrial Use Cases

이 논문은 접근성 기술과 산업용 소음 모니터링의 필요성에 기반하여 음성 인식 외의 오디오 이해 능력을 평가하기 위해 SCENEBench 라는 새로운 벤치마크를 제안하고, 최신 대규모 오디오 언어 모델 (LALM) 들의 성능과 한계를 분석합니다.

Laya Iyer, Angelina Wang, Sanmi KoyejoWed, 11 Ma🤖 cs.AI

Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Fold Paralysis

이 논문은 오디오와 비디오 데이터를 통합하여 성대 마비 진단을 지원하기 위해 성문 검출, 음성 키워드 인식, 확산 기반 분할 정제 기술을 활용한 다중 모달 후두경 비디오 분석 시스템 (MLVAS) 을 제안하고 그 유효성을 입증합니다.

Yucong Zhang, Xin Zou, Jinshan Yang, Wenjun Chen, Juan Liu, Faya Liang, Ming LiTue, 10 Ma💻 cs

ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance

이 논문은 오디오와 텍스트 정보를 동기화하여 감정과 전신 움직임을 자연스럽게 생성하는 새로운 확산 기반 프레임워크인 ExpGest 를 제안하며, 기존 방법들의 한계를 극복하고 더 표현력 있고 제어 가능한 화자 제스처를 구현함을 보여줍니다.

Yongkang Cheng, Mingjiang Liang, Shaoli Huang, Gaoge Han, Jifeng Ning, Wei LiuTue, 10 Ma💻 cs

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

이 논문은 해양 포유류叫声부터 복잡한 실세계 음향에 이르기까지 다양한 도메인의 음향 이해와 추론 능력을 평가하기 위해 DCASE 2025 챌린지의 Task 5 로 오디오 질문 응답 (AQA) 벤치마크를 제안하고, 다양한 오디오 - 언어 모델들의 성능을 비교 분석합니다.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan CatanzaroTue, 10 Ma💬 cs.CL

BemaGANv2: Discriminator Combination Strategies for GAN-based Vocoders in Long-Term Audio Generation

이 논문은 AMP 모듈과 Multi-Envelope Discriminator(MED) 를 도입하여 장기간 오디오 생성의 일관성과 고음질을 향상시키고, 다양한 판별자 조합 전략을 체계적으로 평가한 BemaGANv2 를 제안합니다.

Taesoo Park, Mungwi Jeong, Mingyu Park, Narae Kim, Junyoung Kim, Mujung Kim, Jisang Yoo, Hoyun Lee, Sanghoon Kim, Soonchul KwonTue, 10 Ma🤖 cs.LG

WaLi: Can Pressure Sensors in HVAC Systems Capture Human Speech?

이 논문은 HVAC 시스템의 압력 센서 데이터를 복원하여 인간 음성을 도청할 수 있는 'WaLi'라는 새로운 공격 기법을 제안하고, 이를 위한 방어책을 제시합니다.

Tarikul Islam Tamiti, Biraj Joshi, Rida Hasan, Anomadarshi BaruaTue, 10 Ma💻 cs

SUBARU: A Practical Approach to Power Saving in Hearables Using SUB-Nyquist Audio Resolution Upsampling

이 논문은 저전력 청각 기기 (Hearables) 에서 아날로그 - 디지털 변환기의 샘플링 주파수와 비트 해상도를 의도적으로 낮추어 전력 소모를 3.31 배 감소시키면서도, 서브-나이퀴스트 샘플링 신호를 광대역으로 복원하는 SUBARU 기법을 통해 실시간 음성 향상 성능을 유지하는 실용적인 접근법을 제안합니다.

Tarikul Islam Tamiti, Sajid Fardin Dipto, Luke Benjamin Baja-Ricketts, David C Vergano, Anomadarshi BaruaTue, 10 Ma💻 cs

ECHO: Frequency-aware Hierarchical Encoding for Variable-length Signals

이 논문은 임의의 샘플링률과 가변 길이의 신호를 처리할 수 있는 새로운 파운데이션 모델 'ECHO'를 제안하여 기계 신호 이상 탐지 및 고장 분류 분야에서 최첨단 성능을 입증했습니다.

Yucong Zhang, Juan Liu, Ming LiTue, 10 Ma🤖 cs.LG

LibriTTS-VI: A Public Corpus and Novel Methods for Efficient Voice Impression Control

이 논문은 수치적 음성 인상 (VI) 제어의 한계를 해결하기 위해 최초의 공개 VI 코퍼스인 'LibriTTS-VI'를 구축하고, 화자 정체성과 VI 의 분리를 통해 인상 누수를 방지하는 새로운 방법을 제안하여 객관적 및 주관적 제어 성능을 크게 향상시켰습니다.

Junki Ohmura, Yuki Ito, Emiru Tsunoo, Toshiyuki Sekiya, Toshiyuki KumakuraTue, 10 Ma💻 cs

Improving X-Codec-2.0 for Multi-Lingual Speech: 25 Hz Latent Rate and 24 kHz Sampling

이 논문은 X-Codec-2.0 의 잠재 공간 레이트를 50Hz 에서 25Hz 로 낮추고 샘플링 주파수를 16kHz 에서 24kHz 로 높이는 간단한 구조 개선을 통해 다국어 음성 모델의 효율성과 음질 (MOS 점수 0.29 향상) 을 동시에 개선한 결과를 제시합니다.

Husein ZolkepliTue, 10 Ma💬 cs.CL

Are Audio-Language Models Listening? Audio-Specialist Heads for Adaptive Audio Steering

이 논문은 기계적 해석 기법을 통해 오디오-언어 모델의 '청취' 신호를 식별하고, 추론 시 활성화 개입을 통해 오디오 의존성을 강화함으로써 파라미터 수정 없이 모델의 정확도를 크게 향상시키는 방법을 제시합니다.

Neta Glazer, Lenny Aharon, Ethan FetayaTue, 10 Ma💻 cs

Adaptive Discovery of Interpretable Audio Attributes with Multimodal LLMs for Low-Resource Classification

이 논문은 저자원 오디오 분류를 위해 멀티모달 대규모 언어 모델을 활용하여 인간 의존도를 줄이고 속도를 높인 해석 가능한 오디오 속성을 적응적으로 발견하는 방법을 제안하며, 기존 인간 중심 방식보다 효율적이고 정확한 분류 성능을 입증합니다.

Kosuke Yoshimura, Hisashi KashimaTue, 10 Ma🤖 cs.LG

Toward Multimodal Industrial Fault Analysis: A Single-Speed Chain Conveyor Dataset with Audio and Vibration Signals

이 논문은 다양한 작동 조건과 공장 소음 환경에서 수집된 오디오 및 진동 신호를 포함한 멀티모달 체인 컨베이어 고장 분석용 데이터셋을 소개하고, 이를 위한 표준화된 평가 프로토콜과 기준 모델을 제시합니다.

Zhang Chen, Yucong Zhang, Xiaoxiao Miao, Ming LiTue, 10 Ma💻 cs

Towards Objective Gastrointestinal Auscultation: Automated Segmentation and Annotation of Bowel Sound Patterns

이 논문은 SonicGuard 센서와 에너지 기반 이벤트 탐지 알고리즘 및 Audio Spectrogram Transformer 모델을 결합하여 장음 패턴을 자동 분할 및 분류하는 시스템을 개발함으로써, 수동 검사의 한계를 극복하고 위장관 기능 평가에 객관적이고 정량적인 진단 도구를 제공한다는 것을 보여줍니다.

Zahra Mansour, Verena Uslar, Dirk Weyhe, Danilo Hollosi, Nils StrodthoffTue, 10 Ma🤖 cs.LG

Seeing the Context: Rich Visual Context-Aware Speech Recognition via Multimodal Reasoning

이 논문은 오디오-비주얼 연쇄 사고 (AV-CoT) 를 통해 청각 신호와 시각적 증거 간의 명시적인 교차 모달 근거를 강제함으로써 단일 모달리티 지배 문제를 완화하고, 데이터 파이프라인과 테스트 세트를 공개하여 풍부한 시각적 문맥을 활용한 음성 인식 (CAVSR) 의 성능을 획기적으로 개선한 VASR 모델을 제안합니다.

Wenjie Tian, Mingchen Shao, Bingshen Mu, Xuelong Geng, Chengyou Wang, Yujie Liao, Zhixian Zhao, Ziyu Zhang, Jingbin Hu, Mengqi Wei, Lei XieTue, 10 Ma💻 cs

Fast and Flexible Audio Bandwidth Extension via Vocos

이 논문은 Vocos 기반의 신경 보코더와 경량화된 리프라이너를 결합하여 8~48kHz 대역의 결손 고주파 성분을 생성하고, NVIDIA A100 GPU 에서 실시간 인자의 0.0001 배에 달하는 극한의 처리 속도로 고품질 대역폭 확장을 실현하는 모델을 제안합니다.

Yatharth SharmaTue, 10 Ma🤖 cs.LG

← 이전 다음 →