SpatialMem: Metric-Aligned Long-Horizon Video Memory for Language Grounding and QA

이 논문은 메트릭 3D 구조를 해석 가능한 인덱싱 기반으로 활용하여, 특수 센서 없이도 일상적인 1 차원 RGB 영상으로부터 장기적 공간 기억을 구축하고 언어 기반 검색 및 질의응답을 가능하게 하는 'SpatialMem' 시스템을 제안합니다.

Xinyi Zheng, Yunze Liu, Chi-Hao Wu, Fan Zhang, Hao Zheng, Wenqi Zhou, Walterio W. Mayol-Cuevas, Junxiao Shen2026-03-09🤖 cs.AI

SpatialReward: Bridging the Perception Gap in Online RL for Image Editing via Explicit Spatial Reasoning

이 논문은 온라인 강화학습 기반 이미지 편집의 '주의 붕괴' 문제를 해결하기 위해 명시적인 공간 추론을 통해 정밀한 검증이 가능한 새로운 보상 모델 'SpatialReward'를 제안하고, 이를 통해 이미지 편집 모델의 성능을 획기적으로 향상시켰음을 보여줍니다.

Yancheng Long, Yankai Yang, Hongyang Wei, Wei Chen, Tianke Zhang, Haonan fan, Changyi Liu, Kaiyu Jiang, Jiankang Chen, Kaiyu Tang, Bin Wen, Fan Yang, Tingting Gao, Han Li, Shuo Yang2026-03-09💻 cs

(MGS)2^2-Net: Unifying Micro-Geometric Scale and Macro-Geometric Structure for Cross-View Geo-Localization

이 논문은 UAV 의 지리 위치 추정에서 oblique aerial view 와 orthographic satellite view 간의 기하학적 불일치를 해결하기 위해, 수직 파사드 노이즈를 필터링하는 매크로 기하 구조 필터링과 깊이 기반의 미세 기하 스케일 적응 모듈을 통합한 (MGS)2^2-Net 을 제안하여 University-1652 와 SUES-200 데이터셋에서 최첨단 성능을 달성함을 보여줍니다.

Minglei Li, Mengfan He, Chunyu Li, Chao Chen, Xingyu Shao, Ziyang Meng2026-03-09💻 cs

MiDAS: A Multimodal Data Acquisition System and Dataset for Robot-Assisted Minimally Invasive Surgery

이 논문은 독점 로봇 인터페이스 없이도 시간 동기화된 다중 모달 데이터를 수집할 수 있는 오픈소스 시스템 'MiDAS'와 이를 통해 구축된 로봇 보조 최소 침습 수술용 데이터셋을 소개하며, 비침습적 센서 기반의 동작 인식 성능이 독점 텔레메트리와 유사함을 입증했습니다.

Keshara Weerasinghe (MD), Seyed Hamid Reza Roodabeh (MD), Andrew Hawkins (MD), Zhaomeng Zhang, Zachary Schrader, Homa Alemzadeh2026-03-09🤖 cs.LG

Robust Self-Supervised Cross-Modal Super-Resolution against Real-World Misaligned Observations

이 논문은 실제 환경에서 발생하는 복잡한 공간적 불일치를 가진 교차 모달 초해상도 문제를 해결하기 위해, 정렬 인식 특징 변환기와 콘텐츠 인식 참조 필터를 온라인으로 공동 최적화하는 자기지도 학습 모델 'RobSelf'를 제안하며, 기존 방법들을 능가하는 성능과 효율성을 입증합니다.

Xiaoyu Dong, Jiahuan Li, Ziteng Cui, Naoto Yokoya2026-03-09💻 cs

UrbanAlign: Post-hoc Semantic Calibration for VLM-Human Preference Alignment

이 논문은 가중치 수정 없이 고정된 비전 - 언어 모델 (VLM) 의 개념 추출 능력을 활용하여 해석 가능한 평가 차원을 자동 발굴하고, 관찰자 - 논객 - 심사자 체인을 통해 점수를 추출한 뒤 로컬 가중 릿지 회귀로 인간 선호도를 보정하는 'UrbanAlign'이라는 3 단계 사후 정렬 파이프라인을 제안하여 도시 장면 인식 작업에서 기존 방법론보다 뛰어난 성능과 해석 가능성을 달성했습니다.

Yecheng Zhang, Rong Zhao, Zhizhou Sha, Yong Li, Lei Wang, Ce Hou, Wen Ji, Hao Huang, Yunshan Wan, Jian Yu, Junhao Xia, Yuru Zhang, Chunlei Shi2026-03-09💻 cs

Denoising as Path Planning: Training-Free Acceleration of Diffusion Models with DPCache

이 논문은 확산 모델의 추론 속도를 높이기 위해 기존 캐싱 방법의 한계를 극복하고, 경로 의존적 오차를 정량화한 비용 텐서를 동적 계획법을 통해 최적화하는 'DPCache'라는 새로운 훈련 없는 가속 프레임워크를 제안합니다.

Bowen Cui, Yuanbin Wang, Huajiang Xu, Biaolong Chen, Aixi Zhang, Hao Jiang, Zhengzheng Jin, Xu Liu, Pipei Huang2026-03-09💻 cs

Synthetic Visual Genome 2: Extracting Large-scale Spatio-Temporal Scene Graphs from Videos

이 논문은 자동화 파이프라인을 통해 대규모 시공간 장면 그래프 데이터셋인 'Synthetic Visual Genome 2(SVG2)'를 구축하고, 이를 기반으로 비디오를 단일 순전파로 장면 그래프로 변환하는 TRaSER 모델을 제안하여 기존 모델 대비 객체 및 관계 예측 성능을 획기적으로 향상시키고 비디오 질문 응답 정확도를 높였음을 보여줍니다.

Ziqi Gao, Jieyu Zhang, Wisdom Oluchi Ikezogwo, Jae Sung Park, Tario G. You, Daniel Ogbu, Chenhao Zheng, Weikai Huang, Yinuo Yang, Winson Han, Quan Kong, Rajat Saini, Ranjay Krishna2026-03-09💻 cs

Cross-Scale Pansharpening via ScaleFormer and the PanScale Benchmark

이 논문은 다양한 해상도에서의 일반화 능력을 향상시키기 위해 대규모 교차 스케일 데이터셋 'PanScale'과 벤치마크를 제안하고, 이미지 토큰화 길이를 스케일과 연계하여 설계된 새로운 아키텍처 'ScaleFormer'를 통해 기존 방법론의 한계를 극복한 범용 팬샤프닝 솔루션을 제시합니다.

Ke Cao, Xuanhua He, Xueheng Li, Lingting Zhu, Yingying Wang, Ao Ma, Zhanjie Zhang, Man Zhou, Chengjun Xie, Jie Zhang2026-03-09💻 cs