cs.CV 편의 논문 | Gist.Science

SRNeRV: A Scale-wise Recursive Framework for Neural Video Representation

이 논문은 기존 다중 스케일 INR 생성기의 파라미터 중복 문제를 해결하기 위해 공간 혼합 모듈과 채널 혼합 모듈을 분리하고, 파라미터의 대부분을 차지하는 채널 혼합 모듈을 모든 스케일에 재귀적으로 공유하는 'SRNeRV'라는 새로운 프레임워크를 제안하여 압축 효율과 성능을 동시에 향상시켰습니다.

Jia Wang, Jun Zhu, Xinfeng Zhang2026-03-10💻 cs

GarmentPainter: Efficient 3D Garment Texture Synthesis with Character-Guided Diffusion Model

이 논문은 2D 참조 이미지와 3D 메쉬 간의 정렬 없이도 UV 공간에서 3D 일관성을 보장하는 고품질 의류 텍스처를 효율적으로 합성하기 위해 UV 위치 지도와 캐릭터 가이드 확산 모델을 활용한 'GarmentPainter' 프레임워크를 제안합니다.

Jinbo Wu, Xiaobo Gao, Xing Liu, Chen Zhao, Jialun Liu2026-03-10💻 cs

Exploring Deep Learning and Ultra-Widefield Imaging for Diabetic Retinopathy and Macular Edema

이 논문은 MICCAI 2024 에서 공개된 UWF4DR 챌린지 데이터를 활용하여 초광시야 (UWF) 영상 기반의 당뇨망막병증 및 당뇨황반부종 검출을 위해 최신 딥러닝 모델과 주파수 도메인 분석, 특징 융합 기법의 성능을 평가하고 설명 가능성을 검증했습니다.

Pablo Jimenez-Lizcano, Sergio Romero-Tapiador, Ruben Tolosana, Aythami Morales, Guillermo González de Rivera, Ruben Vera-Rodriguez, Julian Fierrez2026-03-10💻 cs

SiMO: Single-Modality-Operable Multimodal Collaborative Perception

이 논문은 센서 고장 시에도 단일 모드만으로 작동할 수 있도록 길이 적응형 멀티모달 융합 (LAMMA) 과 'Pretrain-Align-Fuse-RD'학습 전략을 도입하여 협업 인식의 성능을 유지하는 SiMO 를 제안합니다.

Jiageng Wen, Shengjie Zhao, Bing Li, Jiafeng Huang, Kenan Ye, Hao Deng2026-03-10💻 cs

Topologically Stable Hough Transform

이 논문은 이산적 투표 방식을 연속적인 점수 함수로 대체하고 지속적 호몰로지의 지속적 특징을 활용하여 점군에서 선을 탐지하는 새로운 형태의 호프 변환을 제안하고, 이를 효율적으로 계산하는 알고리즘을 구현했습니다.

Stefan Huber, Kristóf Huszár, Michael Kerber, Martin Uray2026-03-10💻 cs

DynamicVGGT: Learning Dynamic Point Maps for 4D Scene Reconstruction in Autonomous Driving

이 논문은 자율주행 환경의 복잡한 동적 변화를 효과적으로 포착하기 위해 VGGT 를 확장하여 점의 운동을 시계열적으로 일관되게 예측하고 3D 가우시안 스플래팅을 통해 동적 4D 장면을 재구성하는 통합 피드포워드 프레임워크인 DynamicVGGT 를 제안합니다.

Zhuolin He, Jing Li, Guanghao Li, Xiaolei Chen, Jiacheng Tang, Siyang Zhang, Zhounan Jin, Feipeng Cai, Bin Li, Jian Pu, Jia Cai, Xiangyang Xue2026-03-10💻 cs

WaDi: Weight Direction-aware Distillation for One-step Image Synthesis

이 논문은 다단계 확산 모델의 가중치 변화가 주로 크기보다 방향에서 발생한다는 통찰을 바탕으로, 가중치 방향을 저랭크 회전 행렬로 모델링하는 LoRaD 어댑터를 제안하여 적은 학습 파라미터로 한 단계 이미지 합성에서 최첨단 성능을 달성하는 WaDi 프레임워크를 개발했습니다.

Lei Wang, Yang Cheng, Senmao Li, Ge Wu, Yaxing Wang, Jian Yang2026-03-10💻 cs

Event-based Motion & Appearance Fusion for 6D Object Pose Tracking

이 논문은 고속 환경에서 모션 블러와 프레임 속도 제한을 극복하기 위해 이벤트 카메라의 높은 시간 해상도를 활용하여 6D 객체 포즈 추적을 위한 학습 없는 융합 방법을 제안하고, 이벤트 기반 광류로 포즈를 예측한 후 템플릿 기반 보정으로 정밀도를 높여 기존 최첨단 알고리즘보다 우수한 성능을 입증합니다.

Zhichao Li, Chiara Bartolozzi, Lorenzo Natale, Arren Glover2026-03-10💻 cs

Prototype-Guided Concept Erasure in Diffusion Models

이 논문은 기존 방법으로는 제거하기 어려운 광범위한 개념을 효과적으로 삭제하기 위해, 모델의 잠재 임베딩 기하학을 분석하여 개념 프로토타입을 추출하고 이를 부정적 조건 신호로 활용하는 새로운 접근법을 제안합니다.

Yuze Cai, Jiahao Lu, Hongxiang Shi, Yichao Zhou, Hong Lu2026-03-10💻 cs

OSCAR: Occupancy-based Shape Completion via Acoustic Neural Implicit Representations

이 논문은 음향 신경 암시적 표현을 활용한 'OSCAR' 방법을 제안하여, 라벨 없이 초음파의 음향 신호 전달을 추적함으로써 척추 해부학의 가려진 영역을 정확하게 3D 로 완성하고 기존 최첨단 방법보다 HD95 점수를 80% 개선함을 보여줍니다.

Magdalena Wysocki, Kadir Burak Buldu, Miruna-Alexandra Gafencu, Mohammad Farid Azampour, Nassir Navab2026-03-10💻 cs

Novel Semantic Prompting for Zero-Shot Action Recognition

이 논문은 비전-언어 모델의 시각 인코더를 수정하거나 추가 파라미터를 학습하지 않고도, 행동의 의도·운동·객체 상호작용 등 다양한 추상화 수준의 구조화된 의미 프롬프트를 도입하여 제로샷 행동 인식 성능을 크게 향상시킨 경량 프레임워크 'SP-CLIP'을 제안합니다.

Salman Iqbal, Waheed Rehman2026-03-10💻 cs

Retrieval-Augmented Anatomical Guidance for Text-to-CT Generation

이 논문은 3D 비전 - 언어 인코더를 활용해 리포트를 기반으로 유사 임상 사례의 해부학적 주석을 검색하여 ControlNet 을 통해 주입함으로써, 텍스트 기반 CT 생성 모델의 해부학적 일관성과 공간 제어 능력을 동시에 향상시키는 검색 증강 방식을 제안합니다.

Daniele Molino, Camillo Maria Caruso, Paolo Soda, Valerio Guarrasi2026-03-10💻 cs

Concept-Guided Fine-Tuning: Steering ViTs away from Spurious Correlations to Improve Robustness

이 논문은 LLM 과 VLM 을 활용해 자동 생성된 개념 기반 마스크를 사용하여 비전 트랜스포머 (ViT) 의 내부 관련성 지도를 정렬함으로써, 배경과 같은 허위 상관관계에 의존하는 문제를 해결하고 분포 변화에 대한 강건성을 향상시키는 새로운 파인튜닝 프레임워크를 제안합니다.

Yehonatan Elisha, Oren Barkan, Noam Koenigstein2026-03-10🤖 cs.LG

HDR-NSFF: High Dynamic Range Neural Scene Flow Fields

이 논문은 2D 픽셀 정합의 한계를 극복하고 4D 시공간 모델링을 통해 동적 HDR 장면을 물리적으로 타당하게 재구성하는 새로운 프레임워크 HDR-NSFF 와 이를 평가하기 위한 실세계 HDR-GoPro 데이터셋을 제안합니다.

Shin Dong-Yeon, Kim Jun-Seong, Kwon Byung-Ki, Tae-Hyun Oh2026-03-10💻 cs

SlowBA: An efficiency backdoor attack towards VLM-based GUI agents

이 논문은 VLM 기반 GUI 에이전트의 응답 효율성을 저해하는 새로운 백도어 공격 'SlowBA'를 제안하며, 특정 트리거 패턴 하에서 과도한 추론 체인을 유도하여 응답 지연을 발생시키는 메커니즘과 이를 위한 강화학습 기반의 이단계 주입 전략을 소개합니다.

Junxian Li, Tu Lan, Haozhen Tan, Yan Meng, Haojin Zhu2026-03-10💬 cs.CL

Human-AI Divergence in Ego-centric Action Recognition under Spatial and Spatiotemporal Manipulations

이 논문은 3,000 명 이상의 인간 참가자와 AI 모델을 비교하여, 인간이 손 - 물체 상호작용과 같은 희소하고 의미 있는 시각적 단서에 의존하는 반면 AI 는 맥락 및 저수준 특징에 더 의존하며 시간적 교란에 덜 민감하다는 인간과 AI 의 이기중심 행동 인식 성능 차이를 규명합니다.

Sadegh Rahmaniboldaji, Filip Rybansky, Quoc C. Vuong, Anya C. Hurlbert, Frank Guerin, Andrew Gilbert2026-03-10💻 cs

Beyond Attention Heatmaps: How to Get Better Explanations for Multiple Instance Learning Models in Histopathology

이 논문은 디지털 병리학에서 다중 인스턴스 학습 (MIL) 모델의 주석 열지도 (heatmap) 의 유효성을 검증하기 위한 새로운 평가 프레임워크를 제시하고, 기존 주의 메커니즘 기반 방법보다 교란 (perturbation) 및 계층별 관련성 전파 (LRP) 같은 기법이 모델 의사결정 메커니즘을 더 정확하게 반영하여 생물학적 통찰력을 제공할 수 있음을 대규모 벤치마크 실험을 통해 입증했습니다.

Mina Jamshidi Idaji, Julius Hense, Tom Neuhäuser, Augustin Krause, Yanqing Luo, Oliver Eberle, Thomas Schnake, Laure Ciernik, Farnoush Rezaei Jafari, Reza Vahidimajd, Jonas Dippel, Christoph Walz, Frederick Klauschen, Andreas Mock, Klaus-Robert Müller2026-03-10🤖 cs.LG

← 이전 다음 →

cs.CV

SRNeRV: A Scale-wise Recursive Framework for Neural Video Representation

GarmentPainter: Efficient 3D Garment Texture Synthesis with Character-Guided Diffusion Model

Exploring Deep Learning and Ultra-Widefield Imaging for Diabetic Retinopathy and Macular Edema

SiMO: Single-Modality-Operable Multimodal Collaborative Perception

Topologically Stable Hough Transform

DynamicVGGT: Learning Dynamic Point Maps for 4D Scene Reconstruction in Autonomous Driving

WaDi: Weight Direction-aware Distillation for One-step Image Synthesis

Event-based Motion & Appearance Fusion for 6D Object Pose Tracking

Prototype-Guided Concept Erasure in Diffusion Models

OSCAR: Occupancy-based Shape Completion via Acoustic Neural Implicit Representations

Novel Semantic Prompting for Zero-Shot Action Recognition

Retrieval-Augmented Anatomical Guidance for Text-to-CT Generation

Concept-Guided Fine-Tuning: Steering ViTs away from Spurious Correlations to Improve Robustness

HDR-NSFF: High Dynamic Range Neural Scene Flow Fields

SlowBA: An efficiency backdoor attack towards VLM-based GUI agents

Human-AI Divergence in Ego-centric Action Recognition under Spatial and Spatiotemporal Manipulations

Beyond Attention Heatmaps: How to Get Better Explanations for Multiple Instance Learning Models in Histopathology

Local-Global Prompt Learning via Sparse Optimal Transport

$\Delta$ VLA: Prior-Guided Vision-Language-Action Models via World Knowledge Variation

Diffusion-Based Data Augmentation for Image Recognition: A Systematic Analysis and Evaluation

cs.CV

SRNeRV: A Scale-wise Recursive Framework for Neural Video Representation

GarmentPainter: Efficient 3D Garment Texture Synthesis with Character-Guided Diffusion Model

Exploring Deep Learning and Ultra-Widefield Imaging for Diabetic Retinopathy and Macular Edema

SiMO: Single-Modality-Operable Multimodal Collaborative Perception

Topologically Stable Hough Transform

DynamicVGGT: Learning Dynamic Point Maps for 4D Scene Reconstruction in Autonomous Driving

WaDi: Weight Direction-aware Distillation for One-step Image Synthesis

Event-based Motion & Appearance Fusion for 6D Object Pose Tracking

Prototype-Guided Concept Erasure in Diffusion Models

OSCAR: Occupancy-based Shape Completion via Acoustic Neural Implicit Representations

Novel Semantic Prompting for Zero-Shot Action Recognition

Retrieval-Augmented Anatomical Guidance for Text-to-CT Generation

Concept-Guided Fine-Tuning: Steering ViTs away from Spurious Correlations to Improve Robustness

HDR-NSFF: High Dynamic Range Neural Scene Flow Fields

SlowBA: An efficiency backdoor attack towards VLM-based GUI agents

Human-AI Divergence in Ego-centric Action Recognition under Spatial and Spatiotemporal Manipulations

Beyond Attention Heatmaps: How to Get Better Explanations for Multiple Instance Learning Models in Histopathology

Local-Global Prompt Learning via Sparse Optimal Transport

Δ\DeltaΔVLA: Prior-Guided Vision-Language-Action Models via World Knowledge Variation

Diffusion-Based Data Augmentation for Image Recognition: A Systematic Analysis and Evaluation

$\Delta$ VLA: Prior-Guided Vision-Language-Action Models via World Knowledge Variation