cs.CV 편의 논문 | Gist.Science

Robust Sparse Signal Recovery with Outliers: A Hard Thresholding Pursuit Approach Based on LAD

이 논문은 사전적인 희소성 (sparsity) 정보 없이도 거대 이상치 (gross outliers) 가 포함된 측정값에서 희소 신호를 정확하게 복원할 수 있는 새로운 알고리즘인 GFHTP $_1$ 을 제안하고, 이론적 수렴 보장과 실험적 우수성을 입증합니다.

Jiao Xu, Peng Li, Bing Zheng2026-03-09🔢 math

SpatialMem: Metric-Aligned Long-Horizon Video Memory for Language Grounding and QA

이 논문은 메트릭 3D 구조를 해석 가능한 인덱싱 기반으로 활용하여, 특수 센서 없이도 일상적인 1 차원 RGB 영상으로부터 장기적 공간 기억을 구축하고 언어 기반 검색 및 질의응답을 가능하게 하는 'SpatialMem' 시스템을 제안합니다.

Xinyi Zheng, Yunze Liu, Chi-Hao Wu, Fan Zhang, Hao Zheng, Wenqi Zhou, Walterio W. Mayol-Cuevas, Junxiao Shen2026-03-09🤖 cs.AI

OnlineSI: Taming Large Language Model for Online 3D Understanding and Grounding

이 논문은 비디오 스트림을 통해 주변 공간 이해를 지속적으로 향상시키기 위해 유한한 공간 기억과 3D 점군 정보를 통합하여 실제 환경의 embodied 시스템에 배포 가능한 'OnlineSI' 프레임워크를 제안합니다.

Zixian Liu, Zhaoxi Chen, Liang Pan, Ziwei Liu2026-03-09💻 cs

SRA 2: Variational Autoencoder Self-Representation Alignment for Efficient Diffusion Training

이 논문은 외부 인코더나 이중 모델 없이 사전 훈련된 VAE 의 특성을 활용하여 확산 트랜스포머의 학습 효율성과 생성 품질을 동시에 향상시키는 경량화 프레임워크인 SRA 2 를 제안합니다.

Mengmeng Wang, Dengyang Jiang, Liuzhuozheng Li, Yucheng Lin, Guojiang Shen, Xiangjie Kong, Yong Liu, Guang Dai, Jingdong Wang2026-03-09💻 cs

FARTrack: Fast Autoregressive Visual Tracking with High Performance

FARTrack 는 작업별 자기 증류와 프레임 간 자동회귀 희소화 기법을 도입하여 리소스 제약 환경에서도 실시간으로 고품질 시각적 추적을 가능하게 하는 고속 자동회귀 추적 프레임워크입니다.

Guijie Wang, Tong Lin, Yifan Bai, Anjia Cao, Shiyi Liang, Wangbo Zhao, Xing Wei2026-03-09💻 cs

SpatialReward: Bridging the Perception Gap in Online RL for Image Editing via Explicit Spatial Reasoning

이 논문은 온라인 강화학습 기반 이미지 편집의 '주의 붕괴' 문제를 해결하기 위해 명시적인 공간 추론을 통해 정밀한 검증이 가능한 새로운 보상 모델 'SpatialReward'를 제안하고, 이를 통해 이미지 편집 모델의 성능을 획기적으로 향상시켰음을 보여줍니다.

Yancheng Long, Yankai Yang, Hongyang Wei, Wei Chen, Tianke Zhang, Haonan fan, Changyi Liu, Kaiyu Jiang, Jiankang Chen, Kaiyu Tang, Bin Wen, Fan Yang, Tingting Gao, Han Li, Shuo Yang2026-03-09💻 cs

(MGS) $^2$ -Net: Unifying Micro-Geometric Scale and Macro-Geometric Structure for Cross-View Geo-Localization

이 논문은 UAV 의 지리 위치 추정에서 oblique aerial view 와 orthographic satellite view 간의 기하학적 불일치를 해결하기 위해, 수직 파사드 노이즈를 필터링하는 매크로 기하 구조 필터링과 깊이 기반의 미세 기하 스케일 적응 모듈을 통합한 (MGS) $^2$ -Net 을 제안하여 University-1652 와 SUES-200 데이터셋에서 최첨단 성능을 달성함을 보여줍니다.

Minglei Li, Mengfan He, Chunyu Li, Chao Chen, Xingyu Shao, Ziyang Meng2026-03-09💻 cs

MiDAS: A Multimodal Data Acquisition System and Dataset for Robot-Assisted Minimally Invasive Surgery

이 논문은 독점 로봇 인터페이스 없이도 시간 동기화된 다중 모달 데이터를 수집할 수 있는 오픈소스 시스템 'MiDAS'와 이를 통해 구축된 로봇 보조 최소 침습 수술용 데이터셋을 소개하며, 비침습적 센서 기반의 동작 인식 성능이 독점 텔레메트리와 유사함을 입증했습니다.

Keshara Weerasinghe (MD), Seyed Hamid Reza Roodabeh (MD), Andrew Hawkins (MD), Zhaomeng Zhang, Zachary Schrader, Homa Alemzadeh2026-03-09🤖 cs.LG

DAV-GSWT: Diffusion-Active-View Sampling for Data-Efficient Gaussian Splatting Wang Tiles

이 논문은 확산 모델과 능동적 뷰 샘플링을 활용하여 최소한의 입력 데이터로도 고품질의 3D 가우스 스플래팅 왕 타일을 생성하여 대규모 가상 환경을 위한 데이터 효율성을 획기적으로 개선하는 DAV-GSWT 프레임워크를 제안합니다.

Rong Fu, Jiekai Wu, Haiyun Wei, Yee Tan Jia, Yang Li, Xiaowen Ma, Wangyu Wu, Simon Fong2026-03-09💻 cs

Robust Self-Supervised Cross-Modal Super-Resolution against Real-World Misaligned Observations

이 논문은 실제 환경에서 발생하는 복잡한 공간적 불일치를 가진 교차 모달 초해상도 문제를 해결하기 위해, 정렬 인식 특징 변환기와 콘텐츠 인식 참조 필터를 온라인으로 공동 최적화하는 자기지도 학습 모델 'RobSelf'를 제안하며, 기존 방법들을 능가하는 성능과 효율성을 입증합니다.

Xiaoyu Dong, Jiahuan Li, Ziteng Cui, Naoto Yokoya2026-03-09💻 cs

UrbanAlign: Post-hoc Semantic Calibration for VLM-Human Preference Alignment

이 논문은 가중치 수정 없이 고정된 비전 - 언어 모델 (VLM) 의 개념 추출 능력을 활용하여 해석 가능한 평가 차원을 자동 발굴하고, 관찰자 - 논객 - 심사자 체인을 통해 점수를 추출한 뒤 로컬 가중 릿지 회귀로 인간 선호도를 보정하는 'UrbanAlign'이라는 3 단계 사후 정렬 파이프라인을 제안하여 도시 장면 인식 작업에서 기존 방법론보다 뛰어난 성능과 해석 가능성을 달성했습니다.

Yecheng Zhang, Rong Zhao, Zhizhou Sha, Yong Li, Lei Wang, Ce Hou, Wen Ji, Hao Huang, Yunshan Wan, Jian Yu, Junhao Xia, Yuru Zhang, Chunlei Shi2026-03-09💻 cs

Probing and Bridging Geometry-Interaction Cues for Affordance Reasoning in Vision Foundation Models

이 논문은 비전 기초 모델에서 기하학적 구조 인식과 상호작용 인식이 각각 독립적으로 인코딩되어 있음을 규명하고, 이를 결합하여 학습 없이 제로샷 방식으로 affordance(행동 가능성) 추론을 수행하는 새로운 방법을 제시합니다.

Qing Zhang, Xuesong Li, Jing Zhang2026-03-09💻 cs

StoryTailor:A Zero-Shot Pipeline for Action-Rich Multi-Subject Visual Narratives

이 논문은 단일 RTX 4090 GPU 환경에서 파인튜닝 없이 긴 내러티브 프롬프트와 참조 이미지를 바탕으로 행동 충실도, 대상 정체성, 배경 연속성을 모두 충족하는 일관된 시각적 서사를 생성하는 제로샷 파이프라인 'StoryTailor'를 제안합니다.

Jinghao Hu, Yuhe Zhang, GuoHua Geng, Kang Li, Han Zhang2026-03-09💻 cs

UniVBench: Towards Unified Evaluation for Video Foundation Models

이 논문은 비디오 이해, 생성, 편집 및 재구성을 포함한 비디오 기반 모델의 통합 능력을 평가하기 위해 고화질 다중 샷 비디오와 인간 중심의 평가 시스템 (UniV-Eval) 을 갖춘 새로운 벤치마크인 UniVBench 를 제안합니다.

Jianhui Wei, Xiaotian Zhang, Yichen Li, Yuan Wang, Yan Zhang, Ziyi Chen, Zhihang Tang, Wei Xu, Zuozhu Liu2026-03-09💻 cs

Protein Graph Neural Networks for Heterogeneous Cryo-EM Reconstruction

이 논문은 단백질 골격을 그래프로 표현하고 기하학적 정보를 활용한 그래프 신경망 (GNN) 을 도입하여, 단일 입자 Cryo-EM 데이터에서 원자 수준의 이질적인 3D 구조를 더 정확하게 재구성하는 새로운 방법을 제안합니다.

Jonathan Krook, Axel Janson, Joakim Andén + 2 more2026-03-09💻 cs

Denoising as Path Planning: Training-Free Acceleration of Diffusion Models with DPCache

이 논문은 확산 모델의 추론 속도를 높이기 위해 기존 캐싱 방법의 한계를 극복하고, 경로 의존적 오차를 정량화한 비용 텐서를 동적 계획법을 통해 최적화하는 'DPCache'라는 새로운 훈련 없는 가속 프레임워크를 제안합니다.

Bowen Cui, Yuanbin Wang, Huajiang Xu, Biaolong Chen, Aixi Zhang, Hao Jiang, Zhengzheng Jin, Xu Liu, Pipei Huang2026-03-09💻 cs

Synthetic Visual Genome 2: Extracting Large-scale Spatio-Temporal Scene Graphs from Videos

이 논문은 자동화 파이프라인을 통해 대규모 시공간 장면 그래프 데이터셋인 'Synthetic Visual Genome 2(SVG2)'를 구축하고, 이를 기반으로 비디오를 단일 순전파로 장면 그래프로 변환하는 TRaSER 모델을 제안하여 기존 모델 대비 객체 및 관계 예측 성능을 획기적으로 향상시키고 비디오 질문 응답 정확도를 높였음을 보여줍니다.

Ziqi Gao, Jieyu Zhang, Wisdom Oluchi Ikezogwo, Jae Sung Park, Tario G. You, Daniel Ogbu, Chenhao Zheng, Weikai Huang, Yinuo Yang, Winson Han, Quan Kong, Rajat Saini, Ranjay Krishna2026-03-09💻 cs

Adaptive Dynamic Dehazing via Instruction-Driven and Task-Feedback Closed-Loop Optimization for Diverse Downstream Task Adaptation

이 논문은 다양한 하류 작업의 성능 피드백과 사용자 텍스트 지시를 실시간으로 반영하여 재학습 없이도 적응적으로 이미지를 dehazing 하는 새로운 폐루프 최적화 프레임워크를 제안합니다.

Yafei Zhang, Shuaitian Song, Huafeng Li, Shujuan Wang, Yu Liu2026-03-09💻 cs

Cross-Scale Pansharpening via ScaleFormer and the PanScale Benchmark

이 논문은 다양한 해상도에서의 일반화 능력을 향상시키기 위해 대규모 교차 스케일 데이터셋 'PanScale'과 벤치마크를 제안하고, 이미지 토큰화 길이를 스케일과 연계하여 설계된 새로운 아키텍처 'ScaleFormer'를 통해 기존 방법론의 한계를 극복한 범용 팬샤프닝 솔루션을 제시합니다.

Ke Cao, Xuanhua He, Xueheng Li, Lingting Zhu, Yingying Wang, Ao Ma, Zhanjie Zhang, Man Zhou, Chengjun Xie, Jie Zhang2026-03-09💻 cs

Mobile-VTON: High-Fidelity On-Device Virtual Try-On

이 논문은 개인 정보 보호를 위해 클라우드 의존 없이 단일 사용자 이미지와 의류 이미지만으로 고성능 모바일 기기에서 오프라인 가상 의류 입기 (VTON) 를 가능하게 하는 'Mobile-VTON' 프레임워크를 제안합니다.

Zhenchen Wan, Ce Chen, Runqi Lin, Jiaxin Huang, Tianxi Chen, Yanwu Xu, Tongliang Liu, Mingming Gong2026-03-09💻 cs

← 이전 다음 →

cs.CV