ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-aware Speech-to-Speech Interaction
이 논문은 말투, 감정, 화자 특성 등 비언어적 단서를 고려한 음성-음성 (S2S) 상호작용을 평가하고 최적화하기 위해 새로운 강화학습 프레임워크인 ParaS2S 와 벤치마크를 제안하며, 기존 모델보다 우수한 성능을 달성함을 보여줍니다.
174 편의 논문
이 논문은 말투, 감정, 화자 특성 등 비언어적 단서를 고려한 음성-음성 (S2S) 상호작용을 평가하고 최적화하기 위해 새로운 강화학습 프레임워크인 ParaS2S 와 벤치마크를 제안하며, 기존 모델보다 우수한 성능을 달성함을 보여줍니다.
이 논문은 비영속적 흐름이 있는 환경에서 첫 도착 위치 채널의 소음이 무거운 꼬리를 가진 코시 분포에서 지수적 감쇠로 전환되는 특성을 규명하고, 확산 우세와 표류 우세 영역을 구분하는 특징적 전파 거리를 제시하여 저표류 환경에서 가우스 근사의 한계를 지적하고 코시 법칙의 중요성을 강조합니다.
이 논문은 보안 MIMO 통합 감지 및 통신 (ISAC) 시스템의 정밀도 설계 문제를 해결하기 위해 새로운 채널 모델을 분석하고, 고신호대잡음비 영역에서의 성능 한계를 규명하며, 비볼록 최적화 문제를 효율적으로 풀 수 있는 2 단계 반복 알고리즘을 제안합니다.
이 논문은 약 11,000 시간의 뇌파 (EEG) 기록과 9,922 개의 임상 보고서를 기반으로 개발된 최초의 임상 뇌파 - 언어 기반 모델인 CELM 을 소개하며, 이를 통해 장기간의 뇌파 데이터를 다양한 규모로 요약하고 임상 보고서를 생성하는 데 있어 기존 방법 대비 70%~95% 의 상대적 성능 향상을 달성했음을 보여줍니다.
이 논문은 에데마의 저대비 신호를 기존 초음파 영상에서 정확하게 검출하기 위해 물리 법칙을 반영한 심층 전개 풀 파형 역산 (DUFWI) 방법을 제안하여, 기존 물리 기반 역산 기법보다 높은 재구성 품질과 실시간 처리 속도를 달성했음을 보여줍니다.
이 논문은 MGWR, 랜덤 포레스트, ST-GCN 을 결합한 GeoAI 하이브리드 프레임워크를 통해 6 개 도시의 350 개 교통 분석 구역 데이터를 분석하여, 토지 이용과 교통 수요 간의 복잡한 시공간적 이질성을 기존 모델보다 정밀하게 규명하고 다양한 이동 수단에 대한 정책 수립을 위한 해석 가능한 도구를 제시했습니다.
본 논문은 차세대 6G 무선 시스템을 위한 프로그래머블 전자기 프로세서로서의 적층형 지능형 메타표면 (SIM) 의 물리적 원리, 모델링, 하드웨어 구현, 통신 기능 및 향후 연구 과제를 포괄적으로 조사합니다.
이 논문은 창(window) 이 적용된 DFT 기반 위상계 추정기가 진동 관측에 미치는 주파수 응답 특성을 완전히 분석하고, 이를 통해 PMU 데이터에서 실제 진동 진폭과 위상을 복원하는 방법을 제시합니다.
본 논문은 6G 통신의 요구사항을 충족하고 기존 표준과의 호환성을 유지하기 위해 직교성과 비직교성을 통합한 새로운 신호 파형 (SC-OFDM 및 SC-NOFS) 을 제안하며, 특히 2 차원 시간 - 주파수 프리코딩을 적용한 SC-NOFS(2D) 가 고데이터율, 저지연, 고이동성 및 지속가능성을 모두 갖춘 차세대 6G 의 유력한 솔루션임을 입증합니다.
이 논문은 차세대 네트워크에서 신호 전파 중 파동 영역으로 계산을 수행하는 적층형 지능 메타표면 (SIM) 의 기술 현황과 잠재력을 검토하고, 확장성 및 제어성 등의 과제를 해결하여 새로운 신호 처리 패러다임을 정립하기 위한 방향성을 제시합니다.
이 논문은 리시안 통계적 특성을 가진 라디오 주파수 (RF) 신호 검출을 위해 리디움 원자 양자 수신기 (RAQR) 에 최적의 다중-샷 통계 모델과 위상 평균 가능도비 검정법을 제시하여, 고전적 검출기보다 월등한 성능을 달성하는 양자 향상 신호 검출의 통일된 통계적 기반을 마련했습니다.
본 논문은 ISAC 시스템의 CSI 기반 전자기 역산란 문제에서 발생하는 심한 비적절성을 수학적으로 분석하여, 관심 영역 (ROI) 을 제한함으로써 조건수를 개선하고 재구성 정확도를 높이는 검증된 프레임워크를 제안합니다.
이 논문은 6G 상부 중대역 (UMB) 시스템에서 근거리 전파와 과도 산란으로 인한 채널 추정 문제를 해결하기 위해, 희소성 가정에 의존하지 않고 그람 행렬의 조건수를 개선하는 탐욕적 열 그룹핑 기반의 조건 인식 채널 추정 프레임워크를 제안합니다.
이 논문은 증폭 기능과 손실 없는 전력 분할을 갖춘 물리적으로 일관된 모델과 하드웨어 제약을 기반으로 STAR BD-RIS 의 하향 링크 합 용량 최대화 문제를 해결하기 위한 교차 최적화 프레임워크를 제안하고, 이를 통해 기존 수동 BD-RIS 대비 상당한 용량 향상을 입증합니다.
이 논문은 수중 에너지 하베스팅 릴레이 네트워크의 하이브리드 광음향 전송 환경에서 모델 기반 강화 학습을 활용한 최적 전력 할당 전략을 제안하여, 배터리 동역학과 채널 조건 변화에 적응하며 장기적인 누적 기밀성 성능을 극대화하는 방법을 제시합니다.
이 논문은 스트리밍 화자 익명화 과정에서 감정 정보를 보존하기 위해 중립-감정 발화 쌍을 활용한 감독 미세조정과 프레임 단위 감정 증류 기법을 도입하여, VoicePrivacy 2024 프로토콜에서 기존 대비 24% 상대적인 감정 보존율 향상을 달성하면서도 지연 시간 증가 없이 강력한 프라이버시 보호를 유지하는 'StreamVoiceAnon+' 모델을 제안합니다.
이 논문은 고차원 CSI 공간에서 기존 유사도 기반 및 학습 기반 방법의 한계를 극복하기 위해 채널 차트링을 통한 효율적인 참조점 검색과 그래프 어텐션 네트워크를 결합한 통합된 검색 보조 지문 기반 무선 위치 추정 프레임워크를 제안하고, 이를 통해 실내 및 실외 시나리오에서 최첨단 기법들보다 우수한 성능을 입증합니다.
본 논문은 레일리 페이딩 채널 하에서 연속 개구면 배열 (CAPA) 기반 도청 채널의 기밀성 성능을 분석하여, 다양한 도청자 시나리오에서의 기밀 전송률과 기밀 중단 확률을 유도하고 고신호대잡음비 영역에서의 성능 한계를 규명하며, 기존 이산 안테나 배열 대비 우수한 기밀성 성능을 입증했습니다.
이 논문은 뇌파, 심전도 등 다양한 생리학적 신호와 3 차원 얼굴 영상을 동기화하여 수집하고, 자극 유발, 주관적 인지, 행동 표현이라는 3 단계 계층적 감정 주석을 적용한 다중 모달 감정 데이터셋 'MAD'를 제안하며, 이를 통해 감정 인식 및 교차 모달 감정 분석을 위한 신뢰할 수 있는 벤치마크를 확립합니다.
이 논문은 수면 중 베개 기반 심전도 (BCG) 신호의 J-피크 검출을 위해 새로운 다중 피험자·다중 야간 데이터셋을 공개하고, 고해상도 분할 헤드가 불필요하며 모델 효율성이 뛰어난 집합 예측 (set-prediction) 기반 프레임워크를 제안하여 기존 U-Net 기반 방법보다 우수한 성능을 입증했습니다.