ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-aware Speech-to-Speech Interaction

이 논문은 말투, 감정, 화자 특성 등 비언어적 단서를 고려한 음성-음성 (S2S) 상호작용을 평가하고 최적화하기 위해 새로운 강화학습 프레임워크인 ParaS2S 와 벤치마크를 제안하며, 기존 모델보다 우수한 성능을 달성함을 보여줍니다.

Shu-wen Yang, Ming Tu, Andy T. Liu, Xinghua Qu, Hung-yi Lee, Lu Lu, Yuxuan Wang, Yonghui WuMon, 09 Ma⚡ eess

On the Tail Transition of First Arrival Position Channels: From Cauchy to Exponential Decay

이 논문은 비영속적 흐름이 있는 환경에서 첫 도착 위치 채널의 소음이 무거운 꼬리를 가진 코시 분포에서 지수적 감쇠로 전환되는 특성을 규명하고, 확산 우세와 표류 우세 영역을 구분하는 특징적 전파 거리를 제시하여 저표류 환경에서 가우스 근사의 한계를 지적하고 코시 법칙의 중요성을 강조합니다.

Yen-Chi LeeMon, 09 Ma🔢 math

Neural Signals Generate Clinical Notes in the Wild

이 논문은 약 11,000 시간의 뇌파 (EEG) 기록과 9,922 개의 임상 보고서를 기반으로 개발된 최초의 임상 뇌파 - 언어 기반 모델인 CELM 을 소개하며, 이를 통해 장기간의 뇌파 데이터를 다양한 규모로 요약하고 임상 보고서를 생성하는 데 있어 기존 방법 대비 70%~95% 의 상대적 성능 향상을 달성했음을 보여줍니다.

Jathurshan Pradeepkumar, Zheng Chen, Jimeng SunMon, 09 Ma🤖 cs.AI

Spatiotemporal Heterogeneity of AI-Driven Traffic Flow Patterns and Land Use Interaction: A GeoAI-Based Analysis of Multimodal Urban Mobility

이 논문은 MGWR, 랜덤 포레스트, ST-GCN 을 결합한 GeoAI 하이브리드 프레임워크를 통해 6 개 도시의 350 개 교통 분석 구역 데이터를 분석하여, 토지 이용과 교통 수요 간의 복잡한 시공간적 이질성을 기존 모델보다 정밀하게 규명하고 다양한 이동 수단에 대한 정책 수립을 위한 해석 가능한 도구를 제시했습니다.

Olaf Yunus Laitinen ImanovMon, 09 Ma🤖 cs.AI

Rethinking Next-Generation Signal Waveform: Integration of Orthogonality and Non-Orthogonality

본 논문은 6G 통신의 요구사항을 충족하고 기존 표준과의 호환성을 유지하기 위해 직교성과 비직교성을 통합한 새로운 신호 파형 (SC-OFDM 및 SC-NOFS) 을 제안하며, 특히 2 차원 시간 - 주파수 프리코딩을 적용한 SC-NOFS(2D) 가 고데이터율, 저지연, 고이동성 및 지속가능성을 모두 갖춘 차세대 6G 의 유력한 솔루션임을 입증합니다.

Tongyang Xu, Shuangyang Li, Zhongxiang Wei, Gan Zheng, Izzat DarwazehMon, 09 Ma⚡ eess

In-Wave Computation Aided Stacked Intelligent Metasurfaces in Next-Generation Networks: Challenges and Opportunities

이 논문은 차세대 네트워크에서 신호 전파 중 파동 영역으로 계산을 수행하는 적층형 지능 메타표면 (SIM) 의 기술 현황과 잠재력을 검토하고, 확장성 및 제어성 등의 과제를 해결하여 새로운 신호 처리 패러다임을 정립하기 위한 방향성을 제시합니다.

Mengbing Liu, Chau Yuen, Dusit Niyato, Bruno Clerckx, Lajos HanzoMon, 09 Ma⚡ eess

Multi-Shot Quantum Sensing for RF Signal Detection with MIMO Rydberg-Atom Receivers

이 논문은 리시안 통계적 특성을 가진 라디오 주파수 (RF) 신호 검출을 위해 리디움 원자 양자 수신기 (RAQR) 에 최적의 다중-샷 통계 모델과 위상 평균 가능도비 검정법을 제시하여, 고전적 검출기보다 월등한 성능을 달성하는 양자 향상 신호 검출의 통일된 통계적 기반을 마련했습니다.

Saman Atapattu, Harini Hapuarachchi, Nathan RossMon, 09 Ma⚛️ quant-ph

Ill-Posedness Analysis of CSI-Based Electromagnetic Inverse Scattering for Material Reconstruction in ISAC Systems

본 논문은 ISAC 시스템의 CSI 기반 전자기 역산란 문제에서 발생하는 심한 비적절성을 수학적으로 분석하여, 관심 영역 (ROI) 을 제한함으로써 조건수를 개선하고 재구성 정확도를 높이는 검증된 프레임워크를 제안합니다.

Yubin Luo, Li Yu, Takumi Takahashi, Shaoyi Liu, Yuxiang Zhang, Jianhua Zhang, Hideki OchiaiMon, 09 Ma⚡ eess

STAR Beyond Diagonal RISs with Amplification: Modeling and Optimization

이 논문은 증폭 기능과 손실 없는 전력 분할을 갖춘 물리적으로 일관된 모델과 하드웨어 제약을 기반으로 STAR BD-RIS 의 하향 링크 합 용량 최대화 문제를 해결하기 위한 교차 최적화 프레임워크를 제안하고, 이를 통해 기존 수동 BD-RIS 대비 상당한 용량 향상을 입증합니다.

Chandan Kumar Sheemar, Giovanni Iacovelli, Wali Ullah Khan, George C. Alexandropoulos, Stefano Tomasin, Symeon ChatzinotasMon, 09 Ma🔢 math

StreamVoiceAnon+: Emotion-Preserving Streaming Speaker Anonymization via Frame-Level Acoustic Distillation

이 논문은 스트리밍 화자 익명화 과정에서 감정 정보를 보존하기 위해 중립-감정 발화 쌍을 활용한 감독 미세조정과 프레임 단위 감정 증류 기법을 도입하여, VoicePrivacy 2024 프로토콜에서 기존 대비 24% 상대적인 감정 보존율 향상을 달성하면서도 지연 시간 증가 없이 강력한 프라이버시 보호를 유지하는 'StreamVoiceAnon+' 모델을 제안합니다.

Nikita Kuzmin, Kong Aik Lee, Eng Siong ChngMon, 09 Ma🤖 cs.AI

A Retrieval-Assisted Framework for Wireless Localization

이 논문은 고차원 CSI 공간에서 기존 유사도 기반 및 학습 기반 방법의 한계를 극복하기 위해 채널 차트링을 통한 효율적인 참조점 검색과 그래프 어텐션 네트워크를 결합한 통합된 검색 보조 지문 기반 무선 위치 추정 프레임워크를 제안하고, 이를 통해 실내 및 실외 시나리오에서 최첨단 기법들보다 우수한 성능을 입증합니다.

Haoyu Huang, Guangjin Pan, Kaixuan Huang, Shunqing Zhang, Yuhao Zhang, Musa Furkan Keskin, Zheng Xing, Henk WymeerschMon, 09 Ma⚡ eess

On the Secrecy Performance of Continuous-Aperture Arrays Over Fading Channels

본 논문은 레일리 페이딩 채널 하에서 연속 개구면 배열 (CAPA) 기반 도청 채널의 기밀성 성능을 분석하여, 다양한 도청자 시나리오에서의 기밀 전송률과 기밀 중단 확률을 유도하고 고신호대잡음비 영역에서의 성능 한계를 규명하며, 기존 이산 안테나 배열 대비 우수한 기밀성 성능을 입증했습니다.

Xuan Yang, Chongjun Ouyang, Dongming Li, Yuanwei LiuMon, 09 Ma🔢 math

MAD: A Multimodal and Multi-perspective Affective Dataset with Hierarchical Annotations

이 논문은 뇌파, 심전도 등 다양한 생리학적 신호와 3 차원 얼굴 영상을 동기화하여 수집하고, 자극 유발, 주관적 인지, 행동 표현이라는 3 단계 계층적 감정 주석을 적용한 다중 모달 감정 데이터셋 'MAD'를 제안하며, 이를 통해 감정 인식 및 교차 모달 감정 분석을 위한 신뢰할 수 있는 벤치마크를 확립합니다.

Shengwei Guo, Yunqing Qiao, Wenzhan Zhang, Bo Liu, Yong Wang, Guobing SunMon, 09 Ma⚡ eess