cs.CV 편의 논문 | Gist.Science

Learning What Matters: Prioritized Concept Learning via Relative Error-driven Sample Selection

이 논문은 대규모 데이터와 계산 자원이 없이도 비전 - 언어 모델이 학습 중 자신의 필요에 따라 가장 유익한 샘플을 동적으로 선택하여 효율적으로 학습할 수 있도록 하는 'PROGRESS'라는 새로운 프레임워크를 제안하고 그 우수성을 입증합니다.

Shivam Chandhok, Qian Yang, Oscar Manas + 3 more2026-02-26🤖 cs.AI

LoRA-Edit: Controllable First-Frame-Guided Video Editing via Mask-Aware LoRA Fine-Tuning

이 논문은 스페이셜 - 타임 마스크를 활용하여 LoRA 미세 조정을 수행함으로써, 소스 비디오의 내용 보존과 새로운 콘텐츠 생성을 동시에 제어하고 사용자 지정 참조 프레임을 통해 시간적 일관성을 갖춘 정교한 비디오 편집을 가능하게 하는 'LoRA-Edit' 방법을 제안합니다.

Chenjian Gao, Lihe Ding, Xin Cai + 3 more2026-02-26💻 cs

Capturing Stable HDR Videos Using a Dual-Camera System

이 논문은 단일 카메라의 교차 노출 방식이 가진 시간적 깜빡임 문제를 해결하기 위해, 노출 제어가 독립적인 비동기 듀얼 카메라 시스템과 노출 적응형 퓨전 네트워크 (EAFNet) 를 도입하여 안정적이고 고화질의 HDR 비디오를 생성하는 새로운 학습 기반 방법을 제안합니다.

Qianyu Zhang, Bolun Zheng, Lingyu Zhu + 4 more2026-02-26⚡ eess

Training-free Mixed-Resolution Latent Upsampling for Spatially Accelerated Diffusion Transformers

이 논문은 고해상도 생성을 위한 Diffusion Transformer 의 계산 효율성을 높이기 위해, 아티팩트 없이 공간적 가속을 가능하게 하는 훈련 불필요의 혼합 해상도 잠재 업샘플링 프레임워크인 RALU 를 제안합니다.

Wongi Jeong, Kyungryeol Lee, Hoigi Seo + 1 more2026-02-26⚡ eess

PRISM: Programmatic Reasoning with Image Sequence Manipulation for LVLM Jailbreaking

이 논문은 소프트웨어 보안의 ROP 기법을 차용하여 해로운 지시를 개별적으로 안전해 보이는 시각적 요소들의 시퀀스로 분해하고 이를 프로그래밍적으로 조작함으로써 대형 시각 - 언어 모델의 안전 장치를 우회하는 'PRISM'이라는 새로운 자일브레이크 프레임워크를 제안하고, 이를 통해 기존 방법들보다 월등히 높은 공격 성공률을 달성함을 입증합니다.

Quanchen Zou, Zonghao Ying, Moyang Chen + 7 more2026-02-26💻 cs

LLaDA-MedV: Exploring Large Language Diffusion Models for Biomedical Image Understanding

이 논문은 생체의학 이미지 이해를 위해 비 autoregressive 인 대규모 언어 확산 모델인 LLaDA-MedV 를 처음 제안하여, 오픈형 대화 및 폐쇄형 VQA 벤치마크에서 기존 최첨단 모델들을 능가하는 성능을 입증하고 학습 및 추론 과정에 대한 심층 분석을 제공합니다.

Xuanzhao Dong, Wenhui Zhu, Xiwen Chen + 5 more2026-02-26💻 cs

Lang2Lift: A Language-Guided Autonomous Forklift System for Outdoor Industrial Pallet Handling

이 논문은 비정형적인 야외 환경에서 자연어 명령을 통해 목표 팔레트를 식별하고 6D 포즈를 추정하여 자율 포크리프트가 팔레트 적재 작업을 수행할 수 있도록 하는 'Lang2Lift' 시스템을 제안하고 실증합니다.

Huy Hoang Nguyen, Johannes Huemer, Markus Murschitz + 3 more2026-02-26💻 cs

Voxel Densification for Serialized 3D Object Detection: Mitigating Sparsity via Pre-serialization Expansion

이 논문은 시리얼라이제이션 기반 3D 객체 감지 프레임워크의 희소성 한계를 극복하기 위해, 희소 3D 합성곱을 활용한 전처리 공간 확장 모듈인 Voxel Densification Module(VDM) 을 제안하여 Waymo 및 nuScenes 등 주요 벤치마크에서 기존 모델 대비 감지 정확도를 획기적으로 향상시켰습니다.

Qifeng Liu, Dawei Zhao, Yabo Dong + 6 more2026-02-26💻 cs

Variation-aware Vision Token Dropping for Faster Large Vision-Language Models

이 논문은 기존 토큰 압축 방법의 한계를 극복하고 LLM 내 시각 토큰의 변이 특성을 활용하여 동적으로 토큰을 제거하는 V²Drop 을 제안함으로써, 성능 저하 없이 이미지 및 비디오 이해 작업의 추론 지연을 각각 31.5% 와 74.2% 획기적으로 단축합니다.

Junjie Chen, Xuyang Liu, Zichen Wen + 3 more2026-02-26💻 cs

MedicalPatchNet: A Patch-Based Self-Explainable AI Architecture for Chest X-ray Classification

이 논문은 CheXpert 데이터셋에서 EfficientNetV2-S 와 유사한 분류 성능을 유지하면서도 사후 해석 기법 없이 이미지 패치 기반의 명확한 진단 근거를 제공하여 임상 신뢰도를 높이는 'MedicalPatchNet'이라는 새로운 자기 설명형 AI 아키텍처를 제안합니다.

Patrick Wienholt, Christiane Kuhl, Jakob Nikolas Kather + 2 more2026-02-26🤖 cs.LG

JanusVLN: Decoupling Semantics and Spatiality with Dual Implicit Memory for Vision-Language Navigation

이 논문은 인간의 좌우뇌 기능을 모방하여 공간 기하학적 정보와 시각적 의미 정보를 각각의 고정 크기 암시적 신경 메모리로 분리·모델링함으로써 기존 방법들의 공간 정보 손실 및 계산 비효율성을 해결하고, Vision-Language Navigation 분야에서 최첨단 성능을 달성한 'JanusVLN' 프레임워크를 제안합니다.

Shuang Zeng, Dekang Qi, Xinyuan Chang + 7 more2026-02-26💻 cs

Uncovering Grounding IDs: How External Cues Shape Multimodal Binding

이 논문은 외부 시각적 단어가 생성하는 잠재적 식별자 'Grounding IDs'를 통해 멀티모달 바인딩이 강화되고 환각이 감소하는 메커니즘을 규명하여, 외부 단서가 어떻게 구조적 추론을 개선하는지 설명합니다.

Hosein Hasani, Amirmohammad Izadi, Fatemeh Askari + 4 more2026-02-26🤖 cs.AI

Hallucination Filtering in Radiology Vision-Language Models Using Discrete Semantic Entropy

이 연구는 방사선 이미지 기반 시각적 질문 응답 (VQA) 에서 이산적 의미 엔트로피 (DSE) 를 활용하여 환각을 필터링함으로써 블랙박스 비전 - 언어 모델의 진단 정확도를 유의미하게 향상시킬 수 있음을 입증했습니다.

Patrick Wienholt, Sophie Caselitz, Robert Siepmann + 6 more2026-02-26💻 cs

ImpMIA: Leveraging Implicit Bias for Membership Inference Attack

이 논문은 기존 블랙박스 공격의 비현실적인 가정을 극복하고, 참조 모델 학습 없이 신경망의 암묵적 편향과 KKT 조건을 활용하여 모델 가중치와 학습 데이터의 부분집합만으로도 최첨단 성능의 멤버십 추론 공격 (ImpMIA) 을 제안합니다.

Yuval Golbari, Navve Wasserman, Gal Vardi + 1 more2026-02-26🤖 cs.LG

Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark

이 논문은 시각 이해와 생성 능력을 분리하지 않고 상호 연계된 8 가지 학문 분야에 걸쳐 양방향 시너지를 평가하는 포괄적인 벤치마크인 'Uni-MMMU'를 제안하며, 이를 통해 통합 멀티모달 모델의 성능 격차와 상호 의존성을 규명합니다.

Kai Zou, Ziqi Huang, Yuhao Dong + 7 more2026-02-26💻 cs

Caption-Driven Explainability: Probing CNNs for Bias via CLIP

이 논문은 CLIP 모델과 네트워크 수술 기법을 결합하여 이미지의 예측에 가장 크게 기여하는 주요 개념을 캡션 기반으로 식별함으로써, CNN 모델의 편향을 탐지하고 강건성을 향상시키는 새로운 설명 가능한 인공지능 (XAI) 방법을 제안합니다.

Patrick Koller, Amil V. Dravid, Guido M. Schuster + 1 more2026-02-26⚡ eess

World Simulation with Video Foundation Models for Physical AI

이 논문은 물리 AI 를 위한 차세대 월드 파운데이션 모델인 Cosmos-Predict2.5 와 Cosmos-Transfer2.5 를 소개하며, 단일 모델에서 텍스트·이미지·비디오 기반 세계 생성과 제어를 통합하고 강화학습을 통해 비디오 품질과 지시 준수를 대폭 개선하여 로봇 및 자율 시스템용 합성 데이터 생성 및 시뮬레이션의 신뢰성을 높였음을 보여줍니다.

NVIDIA, :, Arslan Ali + 87 more2026-02-26🤖 cs.AI

Compression then Matching: An Efficient Pre-training Paradigm for Multimodal Embedding

이 논문은 MLLM 을 효율적이고 효과적인 멀티모달 임베딩 모델로 변환하기 위해, 입력의 포괄적 이해를 위한 '압축 (Compression)' 단계와 차별적 특징 학습을 위한 '매칭 (Matching)' 단계를 분리하여 새로운 SOTA 성능을 달성한 CoMa 라는 새로운 사전 학습 패러다임을 제안합니다.

Da Li, Yuxiao Luo, Keping Bi + 7 more2026-02-26💻 cs

Seeing the Forest and the Trees: Query-Aware Tokenizer for Long-Video Multimodal Language Models

이 논문은 텍스트 쿼리에 따라 중요한 시각 토큰을 동적으로 선택하여 긴 비디오 처리 시 계산 비용을 대폭 줄이면서도 정확도를 유지하거나 향상시키는 경량 모듈인 'QTSplus'를 제안합니다.

Siyou Li, Huanan Wu, Juexi Shao + 10 more2026-02-26💻 cs

RobustGait: Robustness Analysis for Appearance Based Gait Recognition

이 논문은 실제 환경의 왜곡과 실루엣 추출 방법의 편향에 대한 강건성을 평가하기 위해 CASIA-B, CCPG, SUSTech1K 등 다양한 데이터셋과 15 가지 손상 유형을 포함하는 'RobustGait' 프레임워크를 제안하고, 이를 통해 강건성 향상 전략을 제시합니다.

Reeshoon Sayera, Akash Kumar, Sirshapan Mitra + 2 more2026-02-26💻 cs

← 이전 다음 →