Randomized Space-Time Stacked Intelligent Metasurfaces for Massive Multiuser Downlink Connectivity

이 논문은 채널 상태 정보 (CSIT) 획득 및 피드백 오버헤드를 획기적으로 줄이면서도 다중 사용자 다양성을 활용할 수 있도록 입력 단계에 무작위 시공간 코딩 층을 도입한 새로운 스택형 지능형 메타표면 (ST-SIM) 아키텍처와 부분 CSIT 기반 빔포밍 기법을 제안합니다.

Donatella Darsena, Ivan Iudice, Vincenzo Galdi, Francesco VerdeWed, 11 Ma⚡ eess

Modeling strategies for speech enhancement in the latent space of a neural audio codec

이 논문은 신경 오디오 코덱의 잠재 공간에서 연속 벡터 예측이 이산 토큰 예측보다 우수하며, 비자율적 모델이 효율성과 명료성 측면에서 실용적이며, 인코더 미세 조정이 전체 성능을 극대화하지만 코덱 재구성은 저하시킨다는 세 가지 주요 발견을 통해 음성 향상 전략을 비교 분석합니다.

Sofiene Kammoun, Xavier Alameda-Pineda, Simon LeglaiveWed, 11 Ma⚡ eess

From Demonstrations to Safe Deployment: Path-Consistent Safety Filtering for Diffusion Policies

이 논문은 확산 정책 (Diffusion Policies) 의 학습 분포를 유지하면서 실시간으로 안전성을 보장하기 위해 경로 일관성 기반의 안전 필터링 (PACS) 을 제안하며, 이를 통해 기존 안전 기법 대비 작업 성공률을 크게 향상시키고 동적 환경에서 공식적인 안전 보장을 달성함을 보여줍니다.

Ralf Römer, Julian Balletshofer, Jakob Thumm, Marco Pavone, Angela P. Schoellig, Matthias AlthoffWed, 11 Ma⚡ eess

LiM-YOLO: Less is More with Pyramid Level Shift and Normalized Auxiliary Branch for Ship Detection in Optical Remote Sensing Imagery

이 논문은 위성 영상 내 선박 검출의 극심한 크기 차이와 높은 종횡비 문제를 해결하기 위해, 기존 YOLO 아키텍처의 피라미드 레벨을 P3-P5 에서 P2-P4 로 전환하고 그룹 정규화를 적용하여 정확도와 효율성을 동시에 극대화한 'LiM-YOLO'를 제안합니다.

Seon-Hoon Kim, Hyeji Sim, Youeyun Jung, Ok-Chul Jung, Yerin KimWed, 11 Ma⚡ eess

Rethinking Discrete Speech Representation Tokens for Accent Generation

이 논문은 화음 정보와 화자 정보를 넘어 디스크리트 음성 표현 토큰 (DSRTs) 에 내재된 억양 정보를 체계적으로 분석하기 위한 새로운 평가 프레임워크를 제안하고, 계층 선택의 중요성, ASR 감독에 의한 억양 정보 감소, 그리고 코드북 크기 축소의 비효율성 등 주요 발견 사항을 제시합니다.

Jinzuomu Zhong, Yi Wang, Korin Richmond, Peter BellWed, 11 Ma⚡ eess

Exploiting Completeness Perception with Diffusion Transformer for Unified 3D MRI Synthesis

이 논문은 임상 환경에서 외부 가이드 없이도 결손 상태를 스스로 인식하여 3D MRI 의 완전성을 파악하고 생성할 수 있도록 설계된 'CoPeDiT'라는 새로운 잠재 확산 모델을 제안하며, 이를 통해 다양한 결손 패턴에서도 높은 정확도와 구조적 일관성을 갖춘 고품질 3D MRI 합성을 가능하게 합니다.

Junkai Liu, Nay Aung, Theodoros N. Arvanitis, Joao A. C. Lima, Steffen E. Petersen, Le ZhangWed, 11 Ma⚡ eess

Mobile Base Station Optimal Tour in Wide Area IoT Sensor Networks

이 논문은 제한된 에너지와 통신 인프라를 가진 광역 IoT 센서 네트워크에서 UAV 탑재 이동 기지국의 최적 경로를 찾는 NP-완전 문제를 정의하고, 이를 해결하기 위해 이동 비용과 커버리지 이득을 동시에 고려하는 다항 시간 탐욕 휴리스틱 알고리즘을 제안하여 기존 방법 대비 39.15% 향상된 성능을 입증했습니다.

Sachin KadamWed, 11 Ma⚡ eess

Predictive Control with Indirect Adaptive Laws for Payload Transportation by Quadrupedal Robots

이 논문은 모델 예측 제어 (MPC) 와 간접 적응 법칙을 통합한 계층적 제어 프레임워크를 제안하여, 미지의 정적 및 동적 하중과 불규칙한 지형 환경에서도 4 발 보행 로봇이 하중 운반을 안정적이고 효율적으로 수행할 수 있음을 실험을 통해 입증했습니다.

Leila Amanzadeh, Taizoon Chunawala, Randall T. Fawcett, Alexander Leonessa, Kaveh Akbari HamedWed, 11 Ma⚡ eess

SEP-NMPC: Safety Enhanced Passivity-Based Nonlinear Model Predictive Control for a UAV Slung Payload System

이 논문은 클러터된 환경에서 공중 드론이 매달린 화물을 운반할 때, 엄격한 패시비티 부등식과 고차 제어 장벽 함수 (HOCBF) 를 비선형 모델 예측 제어 (NMPC) 에 통합하여 안정성과 안전성을 동시에 보장하는 'SEP-NMPC'프레임워크를 제안합니다.

Seyedreza Rezaei, Junjie Kang, Amaldev Haridevan, Jinjun ShanWed, 11 Ma⚡ eess

Can You Hear, Localize, and Segment Continually? An Exemplar-Free Continual Learning Benchmark for Audio-Visual Segmentation

이 논문은 오디오-비주얼 분할 (AVS) 을 위한 최초의 표본 없는 지속적 학습 벤치마크를 제시하고, 저랭크 앵커링 (LRA) 과 오디오 유도 사전 융합 조정을 활용한 ATLAS 라는 강력한 베이스라인을 제안하여 역동적인 환경에서의 지속적 학습과 catastrophic forgetting 문제를 해결합니다.

Siddeshwar Raghavan, Gautham Vinod, Bruce Coburn, Fengqing ZhuWed, 11 Ma⚡ eess

Universal Speech Content Factorization

이 논문은 최소한의 타겟 음성 데이터로 화자 특성을 제거하고 음소 내용을 보존하는 역변환 가능한 선형 방법인 범용 음성 내용 분해 (USCF) 를 제안하여, 제로샷 음성 변환 및 화자 분리된 음성 합성 모델 학습에 효과적으로 활용될 수 있음을 보여줍니다.

Henry Li Xinyuan, Zexin Cai, Lin Zhang, Leibny Paola García-Perera, Berrak Sisman, Sanjeev Khudanpur, Nicholas Andrews, Matthew WiesnerWed, 11 Ma⚡ eess