cs.CV 편의 논문 | Gist.Science

Learning Latent Transmission and Glare Maps for Lens Veiling Glare Removal

이 논문은 스테이블 디퓨전 기반의 사전 지식을 활용해 렌즈 베일링 글레어의 전파 및 글레어 맵을 비지도 방식으로 학습하는 생성 모델 'VeilGen'과 이를 활용한 복원 네트워크 'DeVeiler'를 제안하여, 기존 시뮬레이션의 한계를 극복하고 단순화된 광학 시스템에서 우수한 복원 품질과 물리적 충실도를 달성함을 보여줍니다.

Xiaolong Qian, Qi Jiang, Lei Sun, Zongxi Yu, Kailun Yang, Peixuan Wu, Jiacheng Zhou, Yao Gao, Yaoguang Ma, Ming-Hsuan Yang, Kaiwei Wang2026-03-09🔬 physics.optics

UAM: A Unified Attention-Mamba Backbone of Multimodal Framework for Tumor Cell Classification

이 논문은 어텐션과 Mamba 아키텍처를 유연하게 통합한 새로운 UAM 백본을 제안하여 세포 분류 및 종양 분할 작업에서 기존 최첨단 모델들을 능가하는 성능을 달성한 다중 모달 프레임워크를 소개합니다.

Taixi Chen, Jingyun Chen, Nancy Guo2026-03-09💻 cs

EgoCogNav: Cognition-aware Human Egocentric Navigation

이 논문은 인간의 인지적 요인을 고려한 새로운 다중 모달 내비게이션 프레임워크 'EgoCogNav'와 실제 세계 데이터셋 'CEN'을 제안하여, 인간의 내비게이션 행동과 관련된 지각된 불확실성을 예측하고 이를 통해 인간과 유사한 행동 패턴을 학습하는 것을 목표로 합니다.

Zhiwen Qiu, Ziang Liu, Wenqian Niu, Tapomayukh Bhattacharjee, Saleh Kalantari2026-03-09🤖 cs.LG

SyncMV4D: Synchronized Multi-view Joint Diffusion of Appearance and Motion for Hand-Object Interaction Synthesis

이 논문은 2D 외관과 4D 동역학을 밀접하게 결합하여 단일 뷰의 한계를 극복하고, 시각적 사실성과 운동의 타당성, 다중 뷰 일관성을 모두 갖춘 손 - 물체 상호작용 (HOI) 을 생성하는 최초의 동기화된 다중 뷰 4D 생성 모델인 'SyncMV4D'를 제안합니다.

Lingwei Dang, Zonghan Li, Juntong Li, Hongwen Zhang, Liang An, Yebin Liu, Qingyao Wu2026-03-09💻 cs

Reversible Inversion for Training-Free Exemplar-guided Image Editing

이 논문은 기존 역전환 (inversion) 기법의 한계를 극복하고 대규모 사전 학습 없이도 고품질의 예시 기반 이미지 편집을 가능하게 하는 '가역적 역전환 (ReInversion)'과 마스크 기반 선택적 탈잡음 (MSD) 전략을 제안합니다.

Yuke Li, Lianli Gao, Ji Zhang, Pengpeng Zeng, Lichuan Xiang, Hongkai Wen, Heng Tao Shen, Jingkuan Song2026-03-09💻 cs

A method for tissue-mask supported whole-body image registration in the UK Biobank

이 논문은 VIBESegmentator 에서 추출한 피하 지방 및 근육 마스크를 활용하여 UK Biobank 의 전신 MRI 이미지를 정렬하는 새로운 방법을 제안하고, 기존 방법들보다 우수한 정합 정확도와 노이즈가 감소된 연령 상관관계 분석 결과를 입증했습니다.

Yasemin Utkueri, Elin Lundström, Håkan Ahlström, Johan Öfverstedt, Joel Kullberg2026-03-09💻 cs

UniTS: Unified Spatio-Temporal Generative Model for Remote Sensing

이 논문은 유동 매칭 (flow matching) 생성 패러다임과 적응형 조건 주입기 (ACor) 및 시공간 인식 변조기 (STM) 를 활용한 'UniTS'라는 통합 시공간 생성 모델을 제안하여, 기존에 분리되어 있던 시계열 재구성, 구름 제거, 변화 탐지, 예측 등 다양한 원격 탐사 작업을 단일 프레임워크로 통합하고 우수한 성능을 달성했습니다.

Yuxiang Zhang, Shunlin Liang, Wenyuan Li, Han Ma, Jianglei Xu, Yichuan Ma, Jiangwei Xie, Wei Li, Mengmeng Zhang, Ran Tao, Xiang-Gen Xia2026-03-09💻 cs

Exploiting Spatiotemporal Properties for Efficient Event-Driven Human Pose Estimation

이 논문은 이벤트 카메라의 시공간적 특성을 활용하기 위해 점구름 기반 프레임워크에 이벤트 시간 슬라이스 합성곱 모듈과 엣지 강화 표현을 도입하여, 기존 밀집 프레임 변환 방식의 계산 과부하를 줄이면서도 인간 포즈 추정 성능을 향상시키는 방법을 제안합니다.

Haoxian Zhou, Chuanzhi Xu, Langyi Chen, Pengfei Ye, Haodong Chen, Yuk Ying Chung, Qiang Qu2026-03-09🤖 cs.AI

DFIR-DETR: Frequency-Domain Iterative Refinement and Dynamic Feature Aggregation for Small Object Detection

이 논문은 복잡한 장면에서의 소형 객체 검출 문제를 해결하기 위해, 구조적으로 복잡한 영역에 집중하는 동적 콘텐츠 - 특징 집계 (DCFA), 노름 보존 업샘플링을 통한 공간 세부 정보 복원, 그리고 주파수 도메인에서 고주파 경계 성분을 직접 보존하는 반복적 정제 모듈 (FIRC3) 을 통합한 DFIR-DETR 을 제안합니다.

Bo Gao, Jingcheng Tong, Xingsheng Chen, Han Yu, Zichen Li2026-03-09🤖 cs.LG

Fast-BEV++: Fast by Algorithm, Deployable by Design

이 논문은 커스텀 커널 의존성을 제거하고 하드웨어 친화적인 설계 원칙을 적용하여 추론 속도를 3 배 이상 향상시키면서도 nuScenes 벤치마크에서 0.488 NDS 의 최고 성능을 달성하는 비전 기반 BEV 감지 프레임워크 'Fast-BEV++'를 제안합니다.

Yuanpeng Chen, Hui Song, Sheng Yang, Wei Tao, Shanhui Mo, Shuang Zhang, Xiao Hua, Tiankun Zhao2026-03-09💻 cs

Uncertainty-Aware Subset Selection for Robust Visual Explainability under Distribution Shifts

이 논문은 기존 부분집합 선택 기반 시각 설명 방법이 분포 외 (OOD) 환경에서 신뢰도가 떨어진다는 문제를 지적하고, 추가 학습 없이 불확실성 추정을 서브모듈러 최적화와 결합하여 OOD 상황뿐만 아니라 분포 내 (ID) 환경에서도 견고하고 정확한 설명을 제공하는 새로운 프레임워크를 제안합니다.

Madhav Gupta, Vishak Prasad C, Ganesh Ramakrishnan2026-03-09🤖 cs.LG

Photo3D: Advancing Photorealistic 3D Generation through Structure-Aligned Detail Enhancement

이 논문은 GPT-4o-Image 가 생성한 이미지를 기반으로 구조 정렬 다중 뷰 합성 파이프라인과 지각적 특징 적응을 활용한 세부 사항 향상 기법을 도입하여, 3D 기하학적 구조를 보존하면서도 사실적인 외관을 구현하는 새로운 3D 생성 프레임워크인 Photo3D 를 제안합니다.

Xinyue Liang, Zhinyuan Ma, Lingchen Sun, Yanjun Guo, Lei Zhang2026-03-09💻 cs

Modular Neural Image Signal Processing

이 논문은 중간 렌더링 단계를 완전히 제어할 수 있는 모듈형 신경 이미지 신호 처리 (ISP) 프레임워크를 제안하여, 높은 렌더링 정확도와 확장성을 보장하면서도 다양한 사용자 스타일과 편집 작업을 지원하는 유연한 시스템을 구현합니다.

Mahmoud Afifi, Zhongling Wang, Ran Zhang, Michael S. Brown2026-03-09💻 cs

A Novel Patch-Based TDA Approach for Computed Tomography Imaging

이 논문은 고해상도 CT 영상의 계산 비용과 성능 한계를 극복하기 위해 패치 기반의 지속적 호몰로지 (Persistent Homology) 접근법을 제안하고, 기존 3D 큐빅 복합체 방법 및 방사선학적 특징보다 우수한 분류 성능과 계산 효율성을 입증했습니다.

Dashti A. Ali, Aras T. Asaad, Jacob J. Peoples, Mohammad Hamghalam, Natalie Gangai, Richard K. G. Do, Alice C. Wei, Amber L. Simpson2026-03-09🤖 cs.LG

Towards Scalable Pre-training of Visual Tokenizers for Generation

이 논문은 기존 시각 토크나이저의 전처리 확장 한계를 해결하기 위해 이미지 - 텍스트 대비, 자기지도, 재구성 손실을 통합한 'VTP' 프레임워크를 제안하며, 고수준 의미 이해를 통해 생성 모델의 성능이 컴퓨팅 자원에 비례하여 효과적으로 확장됨을 입증합니다.

Jingfeng Yao, Yuda Song, Yucong Zhou, Xinggang Wang2026-03-09💻 cs

CASA: Cross-Attention over Self-Attention for Efficient Vision-Language Fusion

이 논문은 기존 토큰 삽입 방식보다 메모리 및 연산 효율성이 뛰어나면서도 성능이 경쟁력 있는 크로스 어텐션 기반 비전 - 언어 모델 (CASA) 의 효과성을 재검토하고, 실시간 비디오 캡셔닝과 같은 실제 응용에서의 실용적 이점을 입증합니다.

Moritz Böhle, Amélie Royer, Juliette Marrie, Edouard Grave, Patrick Pérez2026-03-09🤖 cs.AI

Pretraining Frame Preservation for Lightweight Autoregressive Video History Embedding

이 논문은 제한된 컴퓨팅 환경에서도 긴 비디오 히스토리를 효율적으로 인코딩하여 자동회귀 비디오 생성의 일관성을 보장하기 위해, 프레임 쿼리 목적을 통해 사전 훈련된 경량 히스토리 인코더를 제안합니다.

Lvmin Zhang, Shengqu Cai, Muyang Li, Chong Zeng, Beijia Lu, Anyi Rao, Song Han, Gordon Wetzstein, Maneesh Agrawala2026-03-09💻 cs

Spatial4D-Bench: A Versatile 4D Spatial Intelligence Benchmark

이 논문은 MLLM 의 4 차원 공간 지능 능력을 종합적으로 평가하기 위해 18 가지 과제로 구성된 대규모 벤치마크 'Spatial4D-Bench'를 제안하고, 현재 최첨단 모델들이 경로 계획 및 물리적 타당성 추론 등 다양한 4 차원 공간 추론 분야에서 인간 수준의 능력을 달성하지 못함을 규명합니다.

Pan Wang, Yang Liu, Guile Wu, Eduardo R. Corral-Soto, Chengjie Huang, Binbin Xu, Dongfeng Bai, Xu Yan, Yuan Ren, Xingxin Chen, Yizhe Wu, Tao Huang, Wenjun Wan, Xin Wu, Pei Zhou, Xuyang Dai, Kangbo Lv, Hongbo Zhang, Yosef Fried, Aixue Ye, Bailan Feng, Zhenyu Chen, Zhen Li, Yingcong Chen, Yiyi Liao, Bingbing Liu2026-03-09💻 cs

Bayesian Monocular Depth Refinement via Neural Radiance Fields

이 논문은 신경 방사선장 (NeRF) 의 불확실성을 베이지안 방식으로 융합하여 단안 깊이 추정에서 글로벌 구조를 유지하면서도 고주파 세부 기하 정보를 개선하는 반복적 프레임워크인 MDENeRF 를 제안합니다.

Arun Muthukkumar2026-03-09🤖 cs.LG

FlyPose: Towards Robust Human Pose Estimation From Aerial Views

이 논문은 드론의 저해상도 및 급격한 시야각과 같은 어려운 조건에서도 실시간으로 인간 포즈를 정확하게 추정할 수 있도록 다중 데이터셋 학습을 통해 성능을 대폭 향상시킨 경량화 탑다운 포즈 추정 파이프라인 'FlyPose'와 새로운 데이터셋 'FlyPose-104'를 제안합니다.

Hassaan Farooq, Marvin Brenner, Peter Stütz2026-03-09💻 cs

← 이전 다음 →