Acoustic and Semantic Modeling of Emotion in Spoken Language
이 논문은 음성 내의 감정 표현을 이해하고 생성하기 위해 음향 및 의미 정보를 결합한 사전 학습, 대화 기반 감정 인식, 그리고 화자 정체성과 언어 내용을 유지한 감정 스타일 전이 프레임워크를 제안하고 그 유효성을 입증합니다.
132 편의 논문
이 논문은 음성 내의 감정 표현을 이해하고 생성하기 위해 음향 및 의미 정보를 결합한 사전 학습, 대화 기반 감정 인식, 그리고 화자 정체성과 언어 내용을 유지한 감정 스타일 전이 프레임워크를 제안하고 그 유효성을 입증합니다.
이 논문은 텍스트와 음성을 교차 생성하는 대화형 음성 언어 모델의 추론 비용을 줄이기 위해, 주기적인 전체 깊이 '리프레시' 단계를 포함한 모달리티 인지형 조기 종료 프레임워크인 SPAR-K 를 제안하며, 이를 통해 음성 품질을 유지하면서 추론 깊이를 최대 11% 까지 감소시켰다고 요약할 수 있습니다.
이 논문은 대비적 디코딩이 오디오 언어 모델의 특정 오류를 수정하는 데 효과적이지만 그 성능은 모델별 오류 패턴에 따라 달라지므로, 이를 분석하기 위한 전이 행렬 프레임워크를 제안하고 각 아키텍처에 적합한 개선 전략을 제시합니다.
이 논문은 PASE 를 기반으로 한 StuPASE 를 제안하여, 건식 목표 신호 미세 조정과 플로우 매칭 모듈 도입을 통해 저할루시네이션 특성을 유지하면서도 어드버설 환경에서도 스튜디오급 음질을 구현하는 generative speech enhancement 방법을 제시합니다.
이 논문은 엔진 소리를 지속된 조화 진동이 아닌 배기 압력 펄스 시퀀스로 간주하고, 물리 정보 기반의 인덕티브 바이어를 통합한 미분 가능한 펄스-트레인-레조네이터 (PTR) 모델을 제안하여 기존 모델 대비 조화 재구성 성능을 21% 향상시키고 물리적 현상에 대응하는 해석 가능한 매개변수를 제공함을 보여줍니다.
이 논문은 단일 채널 기반의 기존 방식의 한계를 극복하기 위해 공간적 단서와 방향성 사전 지식을 결합한 엔드투엔드 다채널 키워드 감지 프레임워크를 제안하며, 이를 통해 복잡한 잡음 환경에서 목표 화자 감지의 성능을 크게 향상시켰음을 보여줍니다.
이 논문은 기존 확산 모델의 고속 샘플링 솔버가 적용되지 않던 음성 복원 모델 (SGMSE+) 을 포함하는 보간 확률 미분방정식 (iSDE) 의 수학적 체계를 정립하고, 이를 통해 다양한 음성 복원 작업에서 신경망 평가 횟수를 10 회 미만으로 줄이는 고속 솔버를 제안합니다.
이 논문은 대규모 멀티모달 데이터와 높은 계산 비용 없이 기존 시각 - 언어 모델의 성능을 유지하면서 경량 모듈을 통해 음성 이해 및 생성 기능을 추가하고, 저비용 데이터 구축 전략을 통해 소량의 음성 데이터로도 대규모 오미 모델과 유사한 성능을 달성하는 'Speech-Omni-Lite' 프레임워크를 제안합니다.
이 논문은 기존 이미지-RIR 데이터셋에 비전 - 언어 모델을 적용하여 텍스트 - RIR 쌍을 생성하고, 이를 통해 사전 학습된 텍스트 - 오디오 모델을 미세 조정하여 자유로운 프롬프트로 현실적인 방 임펄스 응답 (RIR) 을 생성하는 새로운 방법을 제안합니다.
이 논문은 다중 오디오 이해 능력이 부족한 대규모 오디오 - 언어 모델을 평가하기 위한 'MUGEN' 벤치마크를 제안하고, 오디오 입력 순서를 다양화하는 '오디오 순열 자기 일관성' 전략과 사고 연쇄 기법을 결합하여 성능을 유의미하게 향상시킬 수 있음을 보여줍니다.
이 논문은 소음과 배경 대화 등 복잡한 실내 공공 환경에서 80 명의 화자가 발화한 1.5 시간 분량의 반자발적 네덜란드어 음성 데이터셋 DRES 를 소개하고, 이를 통해 현대적인 단일 채널 음성 향상 기술이 오히려 자동 음성 인식 성능을 향상시키지 못함을 보여주며 실제 환경에서의 평가 중요성을 강조합니다.
이 논문은 무선 음향 센서 네트워크에서 노드가 서로 다른 음원 집합을 관측하는 상황에서도 반복 과정 없이 중앙 집중식 시스템과 동등한 최적 성능을 달성하는 분산 멀티채널 위너 필터 (dMWF) 알고리즘을 제안하고 그 유효성을 입증합니다.
이 논문은 오디오와 비디오 데이터를 통합하여 성대 마비 진단을 지원하기 위해 성문 검출, 음성 키워드 인식, 확산 기반 분할 정제 기술을 활용한 다중 모달 후두경 비디오 분석 시스템 (MLVAS) 을 제안하고 그 유효성을 입증합니다.
이 논문은 오디오와 텍스트 정보를 동기화하여 감정과 전신 움직임을 자연스럽게 생성하는 새로운 확산 기반 프레임워크인 ExpGest 를 제안하며, 기존 방법들의 한계를 극복하고 더 표현력 있고 제어 가능한 화자 제스처를 구현함을 보여줍니다.
이 논문은 해양 포유류叫声부터 복잡한 실세계 음향에 이르기까지 다양한 도메인의 음향 이해와 추론 능력을 평가하기 위해 DCASE 2025 챌린지의 Task 5 로 오디오 질문 응답 (AQA) 벤치마크를 제안하고, 다양한 오디오 - 언어 모델들의 성능을 비교 분석합니다.
이 논문은 AMP 모듈과 Multi-Envelope Discriminator(MED) 를 도입하여 장기간 오디오 생성의 일관성과 고음질을 향상시키고, 다양한 판별자 조합 전략을 체계적으로 평가한 BemaGANv2 를 제안합니다.
이 논문은 HVAC 시스템의 압력 센서 데이터를 복원하여 인간 음성을 도청할 수 있는 'WaLi'라는 새로운 공격 기법을 제안하고, 이를 위한 방어책을 제시합니다.
이 논문은 저전력 청각 기기 (Hearables) 에서 아날로그 - 디지털 변환기의 샘플링 주파수와 비트 해상도를 의도적으로 낮추어 전력 소모를 3.31 배 감소시키면서도, 서브-나이퀴스트 샘플링 신호를 광대역으로 복원하는 SUBARU 기법을 통해 실시간 음성 향상 성능을 유지하는 실용적인 접근법을 제안합니다.
이 논문은 임의의 샘플링률과 가변 길이의 신호를 처리할 수 있는 새로운 파운데이션 모델 'ECHO'를 제안하여 기계 신호 이상 탐지 및 고장 분류 분야에서 최첨단 성능을 입증했습니다.
이 논문은 수치적 음성 인상 (VI) 제어의 한계를 해결하기 위해 최초의 공개 VI 코퍼스인 'LibriTTS-VI'를 구축하고, 화자 정체성과 VI 의 분리를 통해 인상 누수를 방지하는 새로운 방법을 제안하여 객관적 및 주관적 제어 성능을 크게 향상시켰습니다.