cs.CV 편의 논문 | Gist.Science

Object-Centric World Models from Few-Shot Annotations for Sample-Efficient Reinforcement Learning

이 논문은 사전 학습된 분할 네트워크를 활용하여 소수의 주석만으로 객체 중심 표현을 학습함으로써 복잡한 시각 환경에서 샘플 효율성을 극대화하는 새로운 모델 기반 강화학습 프레임워크인 OC-STORM 을 제안하고, Atari 100k 와 Hollow Knight 벤치마크에서 기존 기법들을 압도하는 성능을 입증합니다.

Weipu Zhang, Adam Jelley, Trevor McInroe + 2 more2026-02-26🤖 cs.LG

VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning

이 논문은 시각적 유추 추론 능력을 평가하기 위해 VOILA 라는 새로운 벤치마크를 제안하고, 현재 MLLM 들이 이미지 간 관계 이해와 고수준 추론에서 인간에 비해 현저히 낮은 성능을 보이지만 단계적 프롬핑 전략을 통해 일부 개선될 수 있음을 규명했습니다.

Nilay Yilmaz, Maitreya Patel, Yiran Lawrence Luo + 4 more2026-02-26💬 cs.CL

PD-VLA: Accelerating Vision-Language-Action Model Integrated with Action Chunking via Parallel Decoding

이 논문은 액션 청킹을 통합한 비전 - 언어 - 행동 (VLA) 모델의 추론 효율성을 저하시키는 문제를 해결하기 위해, 모델 구조 변경 없이 훈련 없이도 추론 속도를 획기적으로 높이는 최초의 병렬 디코딩 프레임워크인 PD-VLA 를 제안하고 그 유효성을 실증합니다.

Wenxuan Song, Jiayi Chen, Pengxiang Ding + 9 more2026-02-26💻 cs

Unified Reward Model for Multimodal Understanding and Generation

이 논문은 이미지 및 비디오 생성과 이해를 아우르는 대규모 인간 선호도 데이터셋을 기반으로 구축된 최초의 통합 보상 모델 'UnifiedReward'를 제안하여, 다양한 시각 작업 간의 시너지 효과를 통해 인간 선호도에 부합하는 멀티모달 모델 정렬을 달성함을 보여줍니다.

Yibin Wang, Yuhang Zang, Hao Li + 2 more2026-02-26💻 cs

TRACE: Your Diffusion Model is Secretly an Instance Edge Detector

이 논문은 텍스트-이미지 확산 모델이 숨겨진 인스턴스 경계 정보를 내포하고 있음을 규명하여, 주석 없이도 경계를 추출하는 'TRACE' 방법을 제안함으로써 기존 방식보다 81 배 빠른 추론 속도와 높은 성능을 달성했다고 주장합니다.

Sanghyun Jo, Ziseok Lee, Wooyeol Lee + 3 more2026-02-26💻 cs

Any Image Restoration via Efficient Spatial-Frequency Degradation Adaptation

이 논문은 대규모 언어 모델이나 추가 모듈 없이 단일 모델로 다양한 이미지 열화를 효율적으로 복원하기 위해 잠재 공간의 가중 재할당과 공간 - 주파수 병렬 융합 전략을 제안하는 'AnyIR'을 소개하며, 기존 방법 대비 매개변수와 연산량을 대폭 줄이면서도 최상의 성능을 달성함을 보여줍니다.

Bin Ren, Eduard Zamfir, Zongwei Wu + 7 more2026-02-26💻 cs

Twin Co-Adaptive Dialogue for Progressive Image Generation

이 논문은 사용자의 피드백과 동기화된 대화 에이전트를 통해 이미지 생성을 점진적으로 정제하고 모호성을 해소하는 'Twin-Co' 프레임워크를 제안하여 사용자 경험과 생성 품질을 동시에 향상시키는 방법을 제시합니다.

Jianhui Wang, Yangfan He, Yan Zhong + 12 more2026-02-26💻 cs

Identifying Memorization of Diffusion Models through $p$ -Laplace Analysis: Estimators, Bounds and Applications

본 논문은 확산 모델이 학습한 스코어 함수를 기반으로 $p$ -라플라시안 연산자를 수치적으로 근사하고 이론적 오차 한계를 증명하여, 조건부 텍스트가 없는 상황에서도 훈련 데이터의 암기를 효과적으로 식별할 수 있음을 보여줍니다.

Jonathan Brokman, Itay Gershon, Amit Giloni + 4 more2026-02-26🔢 math

Transformer-based cardiac substructure segmentation from contrast and non-contrast computed tomography for radiotherapy planning

본 연구는 사전 학습된 트랜스포머 기반의 SMIT 모델을 균형 있는 커리큘럼 학습으로 미세 조정하여, 라벨이 지정된 훈련 데이터의 양을 크게 줄이면서도 다양한 환자 및 영상 조건에 걸쳐 방사선 치료 계획에 필요한 심장 하부 구조 분할의 정확도와 견고성을 유지할 수 있음을 입증했습니다.

Aneesh Rangnekar, Nikhil Mankuzhy, Jonas Willmann + 5 more2026-02-26⚡ eess

JailBound: Jailbreaking Internal Safety Boundaries of Vision-Language Models

이 논문은 비전 - 언어 모델 (VLM) 의 잠재 공간 내 안전 결정 경계를 탐지하고 교차하는 새로운 'JailBound' 프레임워크를 제안하여, 기존 방법론의 한계를 극복하고 다양한 모델에서 기존 최첨단 기법보다 높은 성공률로 안전 장벽을 우회하는 공격을 가능하게 함을 보여줍니다.

Jiaxin Song, Yixu Wang, Jie Li + 4 more2026-02-26💻 cs

Learning What Matters: Prioritized Concept Learning via Relative Error-driven Sample Selection

이 논문은 대규모 데이터와 계산 자원이 없이도 비전 - 언어 모델이 학습 중 자신의 필요에 따라 가장 유익한 샘플을 동적으로 선택하여 효율적으로 학습할 수 있도록 하는 'PROGRESS'라는 새로운 프레임워크를 제안하고 그 우수성을 입증합니다.

Shivam Chandhok, Qian Yang, Oscar Manas + 3 more2026-02-26🤖 cs.AI

LoRA-Edit: Controllable First-Frame-Guided Video Editing via Mask-Aware LoRA Fine-Tuning

이 논문은 스페이셜 - 타임 마스크를 활용하여 LoRA 미세 조정을 수행함으로써, 소스 비디오의 내용 보존과 새로운 콘텐츠 생성을 동시에 제어하고 사용자 지정 참조 프레임을 통해 시간적 일관성을 갖춘 정교한 비디오 편집을 가능하게 하는 'LoRA-Edit' 방법을 제안합니다.

Chenjian Gao, Lihe Ding, Xin Cai + 3 more2026-02-26💻 cs

Capturing Stable HDR Videos Using a Dual-Camera System

이 논문은 단일 카메라의 교차 노출 방식이 가진 시간적 깜빡임 문제를 해결하기 위해, 노출 제어가 독립적인 비동기 듀얼 카메라 시스템과 노출 적응형 퓨전 네트워크 (EAFNet) 를 도입하여 안정적이고 고화질의 HDR 비디오를 생성하는 새로운 학습 기반 방법을 제안합니다.

Qianyu Zhang, Bolun Zheng, Lingyu Zhu + 4 more2026-02-26⚡ eess

Training-free Mixed-Resolution Latent Upsampling for Spatially Accelerated Diffusion Transformers

이 논문은 고해상도 생성을 위한 Diffusion Transformer 의 계산 효율성을 높이기 위해, 아티팩트 없이 공간적 가속을 가능하게 하는 훈련 불필요의 혼합 해상도 잠재 업샘플링 프레임워크인 RALU 를 제안합니다.

Wongi Jeong, Kyungryeol Lee, Hoigi Seo + 1 more2026-02-26⚡ eess

PRISM: Programmatic Reasoning with Image Sequence Manipulation for LVLM Jailbreaking

이 논문은 소프트웨어 보안의 ROP 기법을 차용하여 해로운 지시를 개별적으로 안전해 보이는 시각적 요소들의 시퀀스로 분해하고 이를 프로그래밍적으로 조작함으로써 대형 시각 - 언어 모델의 안전 장치를 우회하는 'PRISM'이라는 새로운 자일브레이크 프레임워크를 제안하고, 이를 통해 기존 방법들보다 월등히 높은 공격 성공률을 달성함을 입증합니다.

Quanchen Zou, Zonghao Ying, Moyang Chen + 7 more2026-02-26💻 cs

LLaDA-MedV: Exploring Large Language Diffusion Models for Biomedical Image Understanding

이 논문은 생체의학 이미지 이해를 위해 비 autoregressive 인 대규모 언어 확산 모델인 LLaDA-MedV 를 처음 제안하여, 오픈형 대화 및 폐쇄형 VQA 벤치마크에서 기존 최첨단 모델들을 능가하는 성능을 입증하고 학습 및 추론 과정에 대한 심층 분석을 제공합니다.

Xuanzhao Dong, Wenhui Zhu, Xiwen Chen + 5 more2026-02-26💻 cs

Lang2Lift: A Language-Guided Autonomous Forklift System for Outdoor Industrial Pallet Handling

이 논문은 비정형적인 야외 환경에서 자연어 명령을 통해 목표 팔레트를 식별하고 6D 포즈를 추정하여 자율 포크리프트가 팔레트 적재 작업을 수행할 수 있도록 하는 'Lang2Lift' 시스템을 제안하고 실증합니다.

Huy Hoang Nguyen, Johannes Huemer, Markus Murschitz + 3 more2026-02-26💻 cs

Voxel Densification for Serialized 3D Object Detection: Mitigating Sparsity via Pre-serialization Expansion

이 논문은 시리얼라이제이션 기반 3D 객체 감지 프레임워크의 희소성 한계를 극복하기 위해, 희소 3D 합성곱을 활용한 전처리 공간 확장 모듈인 Voxel Densification Module(VDM) 을 제안하여 Waymo 및 nuScenes 등 주요 벤치마크에서 기존 모델 대비 감지 정확도를 획기적으로 향상시켰습니다.

Qifeng Liu, Dawei Zhao, Yabo Dong + 6 more2026-02-26💻 cs

Variation-aware Vision Token Dropping for Faster Large Vision-Language Models

이 논문은 기존 토큰 압축 방법의 한계를 극복하고 LLM 내 시각 토큰의 변이 특성을 활용하여 동적으로 토큰을 제거하는 V²Drop 을 제안함으로써, 성능 저하 없이 이미지 및 비디오 이해 작업의 추론 지연을 각각 31.5% 와 74.2% 획기적으로 단축합니다.

Junjie Chen, Xuyang Liu, Zichen Wen + 3 more2026-02-26💻 cs

MedicalPatchNet: A Patch-Based Self-Explainable AI Architecture for Chest X-ray Classification

이 논문은 CheXpert 데이터셋에서 EfficientNetV2-S 와 유사한 분류 성능을 유지하면서도 사후 해석 기법 없이 이미지 패치 기반의 명확한 진단 근거를 제공하여 임상 신뢰도를 높이는 'MedicalPatchNet'이라는 새로운 자기 설명형 AI 아키텍처를 제안합니다.

Patrick Wienholt, Christiane Kuhl, Jakob Nikolas Kather + 2 more2026-02-26🤖 cs.LG

← 이전 다음 →

cs.CV