eess.AS 편의 논문 | Gist.Science

Acoustic and Semantic Modeling of Emotion in Spoken Language

이 논문은 음성 내의 감정 표현을 이해하고 생성하기 위해 음향 및 의미 정보를 결합한 사전 학습, 대화 기반 감정 인식, 그리고 화자 정체성과 언어 내용을 유지한 감정 스타일 전이 프레임워크를 제안하고 그 유효성을 입증합니다.

Soumya DuttaWed, 11 Ma⚡ eess

SPAR-K: Scheduled Periodic Alternating Early Exit for Spoken Language Models

이 논문은 텍스트와 음성을 교차 생성하는 대화형 음성 언어 모델의 추론 비용을 줄이기 위해, 주기적인 전체 깊이 '리프레시' 단계를 포함한 모달리티 인지형 조기 종료 프레임워크인 SPAR-K 를 제안하며, 이를 통해 음성 품질을 유지하면서 추론 깊이를 최대 11% 까지 감소시켰다고 요약할 수 있습니다.

Hsiao-Ying Huang, Cheng-Han Chiang, Hung-yi LeeWed, 11 Ma💬 cs.CL

How Contrastive Decoding Enhances Large Audio Language Models?

이 논문은 대비적 디코딩이 오디오 언어 모델의 특정 오류를 수정하는 데 효과적이지만 그 성능은 모델별 오류 패턴에 따라 달라지므로, 이를 분석하기 위한 전이 행렬 프레임워크를 제안하고 각 아키텍처에 적합한 개선 전략을 제시합니다.

Tzu-Quan Lin, Wei-Ping Huang, Yi-Cheng Lin, Hung-yi LeeWed, 11 Ma💬 cs.CL

StuPASE: Towards Low-Hallucination Studio-Quality Generative Speech Enhancement

이 논문은 PASE 를 기반으로 한 StuPASE 를 제안하여, 건식 목표 신호 미세 조정과 플로우 매칭 모듈 도입을 통해 저할루시네이션 특성을 유지하면서도 어드버설 환경에서도 스튜디오급 음질을 구현하는 generative speech enhancement 방법을 제시합니다.

Xiaobin Rong, Jun Gao, Zheng Wang, Mansur Yesilbursa, Kamil Wojcicki, Jing LuWed, 11 Ma⚡ eess

Physics-Informed Neural Engine Sound Modeling with Differentiable Pulse-Train Synthesis

이 논문은 엔진 소리를 지속된 조화 진동이 아닌 배기 압력 펄스 시퀀스로 간주하고, 물리 정보 기반의 인덕티브 바이어를 통합한 미분 가능한 펄스-트레인-레조네이터 (PTR) 모델을 제안하여 기존 모델 대비 조화 재구성 성능을 21% 향상시키고 물리적 현상에 대응하는 해석 가능한 매개변수를 제공함을 보여줍니다.

Robin Doerfler, Lonce WyseWed, 11 Ma🤖 cs.AI

End-to-End Direction-Aware Keyword Spotting with Spatial Priors in Noisy Environments

이 논문은 단일 채널 기반의 기존 방식의 한계를 극복하기 위해 공간적 단서와 방향성 사전 지식을 결합한 엔드투엔드 다채널 키워드 감지 프레임워크를 제안하며, 이를 통해 복잡한 잡음 환경에서 목표 화자 감지의 성능을 크게 향상시켰음을 보여줍니다.

Rui Wang, Zhifei Zhang, Yu Gao, Xiaofeng Mou, Yi XuWed, 11 Ma⚡ eess

A Fast Solver for Interpolating Stochastic Differential Equation Diffusion Models for Speech Restoration

이 논문은 기존 확산 모델의 고속 샘플링 솔버가 적용되지 않던 음성 복원 모델 (SGMSE+) 을 포함하는 보간 확률 미분방정식 (iSDE) 의 수학적 체계를 정립하고, 이를 통해 다양한 음성 복원 작업에서 신경망 평가 횟수를 10 회 미만으로 줄이는 고속 솔버를 제안합니다.

Bunlong Lay, Timo GerkmannWed, 11 Ma⚡ eess

Speech-Omni-Lite: Portable Speech Interfaces for Vision-Language Models

이 논문은 대규모 멀티모달 데이터와 높은 계산 비용 없이 기존 시각 - 언어 모델의 성능을 유지하면서 경량 모듈을 통해 음성 이해 및 생성 기능을 추가하고, 저비용 데이터 구축 전략을 통해 소량의 음성 데이터로도 대규모 오미 모델과 유사한 성능을 달성하는 'Speech-Omni-Lite' 프레임워크를 제안합니다.

Dehua Tao, Xuan Luo, Daxin Tan, Kai Chen, Lanqing Hong, Jing Li, Ruifeng Xu, Xiao ChenWed, 11 Ma⚡ eess

Finetuning a Text-to-Audio Model for Room Impulse Response Generation

이 논문은 기존 이미지-RIR 데이터셋에 비전 - 언어 모델을 적용하여 텍스트 - RIR 쌍을 생성하고, 이를 통해 사전 학습된 텍스트 - 오디오 모델을 미세 조정하여 자유로운 프롬프트로 현실적인 방 임펄스 응답 (RIR) 을 생성하는 새로운 방법을 제안합니다.

Kirak Kim, Sungyoung KimWed, 11 Ma⚡ eess

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

이 논문은 다중 오디오 이해 능력이 부족한 대규모 오디오 - 언어 모델을 평가하기 위한 'MUGEN' 벤치마크를 제안하고, 오디오 입력 순서를 다양화하는 '오디오 순열 자기 일관성' 전략과 사고 연쇄 기법을 결합하여 성능을 유의미하게 향상시킬 수 있음을 보여줍니다.

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi LeeWed, 11 Ma🤖 cs.AI

A Semi-spontaneous Dutch Speech Dataset for Speech Enhancement and Speech Recognition

이 논문은 소음과 배경 대화 등 복잡한 실내 공공 환경에서 80 명의 화자가 발화한 1.5 시간 분량의 반자발적 네덜란드어 음성 데이터셋 DRES 를 소개하고, 이를 통해 현대적인 단일 채널 음성 향상 기술이 오히려 자동 음성 인식 성능을 향상시키지 못함을 보여주며 실제 환경에서의 평가 중요성을 강조합니다.

Dimme de Groot, Yuanyuan Zhang, Jorge Martinez, Odette ScharenborgWed, 11 Ma⚡ eess

Distributed Multichannel Wiener Filtering for Wireless Acoustic Sensor Networks

이 논문은 무선 음향 센서 네트워크에서 노드가 서로 다른 음원 집합을 관측하는 상황에서도 반복 과정 없이 중앙 집중식 시스템과 동등한 최적 성능을 달성하는 분산 멀티채널 위너 필터 (dMWF) 알고리즘을 제안하고 그 유효성을 입증합니다.

Paul Didier, Toon van Waterschoot, Simon Doclo, Jörg Bitzer, Pourya Behmandpoor, Henri Gode, Marc MoonenWed, 11 Ma⚡ eess

Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Fold Paralysis

이 논문은 오디오와 비디오 데이터를 통합하여 성대 마비 진단을 지원하기 위해 성문 검출, 음성 키워드 인식, 확산 기반 분할 정제 기술을 활용한 다중 모달 후두경 비디오 분석 시스템 (MLVAS) 을 제안하고 그 유효성을 입증합니다.

Yucong Zhang, Xin Zou, Jinshan Yang, Wenjun Chen, Juan Liu, Faya Liang, Ming LiTue, 10 Ma💻 cs

ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance

이 논문은 오디오와 텍스트 정보를 동기화하여 감정과 전신 움직임을 자연스럽게 생성하는 새로운 확산 기반 프레임워크인 ExpGest 를 제안하며, 기존 방법들의 한계를 극복하고 더 표현력 있고 제어 가능한 화자 제스처를 구현함을 보여줍니다.

Yongkang Cheng, Mingjiang Liang, Shaoli Huang, Gaoge Han, Jifeng Ning, Wei LiuTue, 10 Ma💻 cs

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

이 논문은 해양 포유류叫声부터 복잡한 실세계 음향에 이르기까지 다양한 도메인의 음향 이해와 추론 능력을 평가하기 위해 DCASE 2025 챌린지의 Task 5 로 오디오 질문 응답 (AQA) 벤치마크를 제안하고, 다양한 오디오 - 언어 모델들의 성능을 비교 분석합니다.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan CatanzaroTue, 10 Ma💬 cs.CL

← 이전 다음 →

eess.AS