cs.CV 편의 논문 | Gist.Science

Bidirectional Temporal Dynamics Modeling for EEG-based Driving Fatigue Recognition

이 논문은 EEG 신호의 비정상성과 비대칭적 신경 역학을 해결하기 위해 양방향 델타 모듈과 게이트된 시간 컨볼루션을 결합한 'DeltaGateNet'을 제안하여, 다양한 데이터셋에서 기존 방법보다 우수한 운전 피로 인식 성능을 입증했습니다.

Yip Tin Po, Jianming Wang, Yutao Miao + 5 more2026-03-06💻 cs

EA-Swin: An Embedding-Agnostic Swin Transformer for AI-Generated Video Detection

이 논문은 최신 AI 생성 영상 탐지의 한계를 극복하기 위해 사전 학습된 임베딩을 직접 모델링하는 'EA-Swin'과 대규모 벤치마크 'EA-Video'를 제안하여, 기존 최첨단 방법론보다 정확도와 일반화 성능을 획기적으로 향상시켰음을 보여줍니다.

Hung Mai, Loi Dinh, Duc Hai Nguyen + 6 more2026-03-06💻 cs

CityGuard: Graph-Aware Private Descriptors for Bias-Resilient Identity Search Across Urban Cameras

이 논문은 도시 전역의 분산된 카메라 네트워크에서 사생활 보호를 준수하면서도 시점, 가림, 도메인 변화에 강인한 개인 식별을 가능하게 하는 'CityGuard'라는 위상 인식 트랜스포머 기반의 프라이버시 보존 프레임워크를 제안합니다.

Rong Fu, Yibo Meng, Jia Yee Tan + 5 more2026-03-06💻 cs

CARE: A Molecular-Guided Foundation Model with Adaptive Region Modeling for Whole Slide Image Analysis

이 논문은 자연 이미지 백본의 한계를 극복하고 RNA 및 단백질 프로파일과 같은 분자 정보를 활용하여 적응형 영역을 자동으로 분할하는 새로운 파운데이션 모델 'CARE'를 제안하며, 기존 모델보다 적은 데이터로 다양한 병리학적 태스크에서 우수한 성능을 입증합니다.

Di Zhang, Zhangpeng Gong, Xiaobo Pang + 14 more2026-03-06💻 cs

When LoRA Betrays: Backdooring Text-to-Image Models by Masquerading as Benign Adapters

이 논문은 오픈소스 플랫폼에서 널리 사용되는 LoRA(저랭크 적응) 모듈을 악용해 텍스트-이미지 생성 모델에 은밀한 백도어를 주입하는 'MasqLoRA'라는 새로운 공격 프레임워크를 제안하고, 이를 통해 AI 공급망에 존재하는 심각한 보안 위협을 규명합니다.

Liangwei Lyu, Jiaqi Xu, Jianwei Ding + 1 more2026-03-06💻 cs

RobustVisRAG: Causality-Aware Vision-Based Retrieval-Augmented Generation under Visual Degradations

이 논문은 시각적 왜곡으로 인한 성능 저하를 해결하기 위해 인과성 기반의 이중 경로 프레임워크 'RobustVisRAG'와 새로운 벤치마크 'Distortion-VisRAG'를 제안하여, 의미와 왜곡 요소를 분리함으로써 시각적 열악한 환경에서도 견고한 검색 및 생성 성능을 달성함을 보여줍니다.

I-Hsiang Chen, Yu-Wei Liu, Tse-Yu Wu + 3 more2026-03-06💻 cs

Learning to Drive is a Free Gift: Large-Scale Label-Free Autonomy Pretraining from Unposed In-The-Wild Videos

이 논문은 포즈나 라벨 없이 유튜브의 자연스러운 주행 영상만으로 학습된 'LFG'라는 라벨 없는 교사 유도 프레임워크를 제안하여, 단일 모노큘러 카메라만으로도 기존 다중 카메라 및 라이다 기반 방법보다 우수한 자율 주행 계획 및 다양한 3D 인식 성능을 달성하는 통합 비디오 중심 기초 모델을 개발했습니다.

Matthew Strong, Wei-Jer Chang, Quentin Herau + 4 more2026-03-06💻 cs

Diffusion Probe: Generated Image Result Prediction Using CNN Probes

이 논문은 초기 확산 단계의 교차 주의 (cross-attention) 분포와 최종 이미지 품질 간의 강한 상관관계를 규명하고, 이를 기반으로 생성 완료 전에 이미지 품질을 정확히 예측하여 불필요한 연산을 줄이고 효율성을 극대화하는 경량 프레임워크인 'Diffusion Probe'를 제안합니다.

Benlei Cui, Bukun Huang, Zhizeng Ye + 7 more2026-03-06💻 cs

DiffusionHarmonizer: Bridging Neural Reconstruction and Photorealistic Simulation with Online Diffusion Enhancer

이 논문은 NeRF 및 3D 가우스 스플래팅과 같은 신경 재구성 기법의 아티팩트와 동적 객체 통합의 한계를 극복하기 위해, 사전 훈련된 확산 모델을 기반으로 실시간 시뮬레이션 환경에서 단일 GPU 로 작동하는 온디바이스 생성 향상 프레임워크인 DiffusionHarmonizer 를 제안합니다.

Yuxuan Zhang, Katarína Tóthová, Zian Wang + 7 more2026-03-06💻 cs

UFO-4D: Unposed Feedforward 4D Reconstruction from Two Images

UFO-4D 는 두 장의 카메라 포즈가 알려지지 않은 이미지로부터 3D 기하학, 3D 운동, 카메라 포즈를 동시에 추정하는 단일 피드포워드 프레임워크를 제안하여, 동적 3D 가우시안 스플래팅을 활용하여 기존 방법보다 3 배까지 성능을 향상시키고 고충실도 4D 보간을 가능하게 합니다.

Junhwa Hur, Charles Herrmann, Songyou Peng + 4 more2026-03-06💻 cs

Dr. Seg: Revisiting GRPO Training for Visual Large Language Models through Perception-Oriented Design

이 논문은 비전 기반 대형 언어 모델 (VLLM) 의 GRPO 학습에서 추론 중심 접근법의 한계를 지적하고, 더 넓은 출력 공간과 미세한 보상 안정성을 고려한 'Dr. Seg'라는 새로운 프레임워크를 제안하여 복잡한 시각 시나리오에서의 성능을 향상시켰음을 보여줍니다.

Haoxiang Sun, Tao Wang, Chenwei Tang + 2 more2026-03-06💻 cs

AlignVAR: Towards Globally Consistent Visual Autoregression for Image Super-Resolution

이 논문은 국소성 편향과 잔차 기반 학습의 한계를 해결하여 전역적 일관성을 확보하고, 기존 확산 기반 모델 대비 10 배 빠른 추론 속도와 50% 적은 파라미터로 이미지 초해상도 성능을 혁신적으로 개선한 'AlignVAR' 프레임워크를 제안합니다.

Cencen Liu, Dongyang Zhang, Wen Yin + 6 more2026-03-06💻 cs

Improving Text-to-Image Generation with Intrinsic Self-Confidence Rewards

이 논문은 외부 보상 감독 없이 모델이 자체적으로 생성한 노이즈 복구 정확도를 기반으로 한 'SOLACE'라는 자기 신뢰 보상 프레임워크를 제안하여 텍스트 - 이미지 생성 모델의 구성, 텍스트 렌더링 및 정렬 능력을 향상시키고 외부 보상과 결합 시 보상 해킹을 완화함을 보여줍니다.

Seungwook Kim, Minsu Cho2026-03-06💻 cs

Dr.Occ: Depth- and Region-Guided 3D Occupancy from Surround-View Cameras for Autonomous Driving

이 논문은 모호한 깊이 정보와 공간적 불균형 문제를 해결하기 위해 MoGe-2 기반의 깊이 안내 2D-to-3D 뷰 변환기와 혼합 전문가 (MoE) 에서 영감을 받은 지역 안내 전문가 변환기를 도입한 'Dr. Occ' 프레임워크를 제안하여, 순전히 카메라 입력만으로 3D 점유율 예측의 정확도를 획기적으로 향상시킵니다.

Xubo Zhu, Haoyang Zhang, Fei He + 4 more2026-03-06💻 cs

FreeAct: Freeing Activations for LLM Quantization

이 논문은 LLM 양자화 시 정적인 변환 제약에서 벗어나 토큰별 동적 특성을 반영한 변환 행렬을 도입하여 확산 및 멀티모달 LLM 의 성능을 획기적으로 개선하는 'FreeAct' 프레임워크를 제안합니다.

Xiaohao Liu, Xiaobo Xia, Manyi Zhang + 6 more2026-03-06💻 cs

Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

이 논문은 이미지 생성 모델을 활용한 확장 가능한 데이터 생성 파이프라인을 통해 대규모 데이터셋 RefVIE 와 평가 벤치마크를 구축하고, 참조 지시를 통합한 새로운 아키텍처 'Kiwi-Edit'를 제안함으로써 지시 기반 비디오 편집의 정밀도와 제어 가능성을 획기적으로 향상시켰습니다.

Yiqi Lin, Guoqiang Liang, Ziyun Zeng + 3 more2026-03-06💻 cs

Track4World: Feedforward World-centric Dense 3D Tracking of All Pixels

이 논문은 VGGT 스타일의 비전 트랜스포머와 새로운 3D 상관관계 기법을 활용하여 단일 영상에서 모든 픽셀의 2D 및 3D 밀집 흐름을 실시간으로 추정하고 전 세계 좌표계에서 효율적인 3D 추적을 가능하게 하는 'Track4World'라는 피드포워드 모델을 제안합니다.

Jiahao Lu, Jiayi Xu, Wenbo Hu + 5 more2026-03-06💻 cs

Gated Differential Linear Attention: A Linear-Time Decoder for High-Fidelity Medical Segmentation

이 논문은 의료 영상 분할에서 선형 시간 복잡도를 유지하면서도 정밀한 해부학적 경계를 복원하기 위해, 공통 모드 노이즈를 제거하고 관련 맥락을 증폭하는 게이트 차분 선형 어텐션 (GDLA) 메커니즘을 도입한 PVT-GDLA 디코더를 제안합니다.

Hongbo Zheng, Afshin Bozorgpour, Dorit Merhof + 1 more2026-03-06💻 cs

MultiShadow: Multi-Object Shadow Generation for Image Compositing via Diffusion Model

이 논문은 사전 학습된 텍스트 - 이미지 확산 모델의 멀티모달 능력을 활용하여 이미지 합성 시 여러 객체에 대해 기하학적 일관성과 물리적 타당성을 갖춘 그림자를 생성하는 'MultiShadow' 방법을 제안하고, 이를 통해 단일 및 다중 객체 그림자 생성 분야에서 최첨단 성능을 달성함을 보여줍니다.

Waqas Ahmed, Dean Diepeveen, Ferdous Sohel2026-03-06💻 cs

IoUCert: Robustness Verification for Anchor-based Object Detectors

이 논문은 복잡한 비선형 좌표 변환과 IoU(교집합 비율) 지표를 극복하기 위해 IoUCert라는 새로운 형식적 검증 프레임워크를 제안하여, SSD 및 YOLOv2/v3 와 같은 앵커 기반 객체 탐지 모델의 강건성을 최초로 검증할 수 있음을 보여줍니다.

Benedikt Brückner, Alejandro J. Mercado, Yanghao Zhang, Panagiotis Kouvaros, Alessio Lomuscio2026-03-06🔒 cs.CR

← 이전 다음 →