cs.CV 편의 논문 | Gist.Science

DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning

이 논문은 사전 수집된 추론 데이터 없이 강화학습만으로 모델이 시각 정보를 전략적으로 활용하는 '이미지 기반 사고' 능력을 자연스럽게 습득하도록 한 DeepEyes 를 제안하며, 이를 통해 일반적 추론 및 시각적 착시 감소 등 다양한 성능 향상을 달성했음을 보여줍니다.

Ziwei Zheng, Michael Yang, Jack Hong + 5 more2026-03-03💻 cs

GradPCA: Leveraging NTK Alignment for Reliable Out-of-Distribution Detection

이 논문은 신경망 그라디언트의 NTK 정렬로 인한 저랭크 구조를 활용하여 주성분 분석 (PCA) 을 적용한 새로운 OOD 검출 방법인 GradPCA 를 제안하고, 이를 이론적으로 뒷받침하며 다양한 벤치마크에서 기존 방법보다 일관된 성능을 입증합니다.

Mariia Seleznova, Hung-Hsu Chou, Claudio Mayrink Verdun + 1 more2026-03-03🤖 cs.LG

Dynamic Token Reweighting for Robust Vision-Language Models

이 논문은 커널-값 (KV) 캐시를 최적화하여 시각적 토큰 가중치를 동적으로 재조정함으로써, 별도의 안전 데이터나 이미지 - 텍스트 변환 없이도 멀티모달 재키브 공격을 효과적으로 방어하는 새로운 추론 시 방어 기법인 DTR 을 제안합니다.

Tanqiu Jiang, Jiacheng Liang, Rongyi Zhu + 3 more2026-03-03💬 cs.CL

Seek-CAD: A Self-refined Generative Modeling for 3D Parametric CAD Using Local Inference via DeepSeek

이 논문은 오픈소스 LLM 인 DeepSeek-R1 과 비전 언어 모델을 활용하여 시각적 피드백과 사고 연쇄 (CoT) 를 결합한 자기 정제 메커니즘을 통해 훈련 없이 3D 파라메트릭 CAD 모델을 생성하는 'Seek-CAD' 프레임워크와 산업 적용에 적합한 새로운 데이터셋을 제안하고 그 유효성을 입증합니다.

Xueyang Li, Jiahao Li, Yu Song + 2 more2026-03-03🤖 cs.AI

Probabilistic Kernel Function for Fast Angle Testing

이 논문은 고차원 유클리드 공간에서 각도 비교 및 임계값 판정을 위한 새로운 확률적 커널 함수를 제안하여, 기존 가우시안 분포 기반 접근법보다 이론적·실험적으로 우수하며 HNSW 대비 2.5~3 배 높은 처리량을 달성하는 근사 최인접 이웃 검색 (ANNS) 성능을 입증합니다.

Kejing Lu, Chuan Xiao, Yoshiharu Ishikawa2026-03-03🤖 cs.AI

Point-MoE: Large-Scale Multi-Dataset Training with Mixture-of-Experts for 3D Semantic Segmentation

이 논문은 다양한 3D 데이터셋의 이질성을 해결하고 데이터셋 레이블 없이 대규모 통합 학습을 가능하게 하기 위해 희소 활성화 전문가 MLP 와 경량 라우터를 활용한 'Point-MoE' 아키텍처를 제안하여 3D 시맨틱 분할 성능을 획기적으로 개선한 연구입니다.

Xuweiyi Chen, Wentao Zhou, Aruni RoyChowdhury + 1 more2026-03-03💻 cs

SenseFlow: Scaling Distribution Matching for Flow-based Text-to-Image Distillation

이 논문은 대규모 흐름 기반 텍스트 - 이미지 모델 (SD 3.5, FLUX.1 등) 에서의 분포 매칭 증류 (DMD) 한계를 해결하기 위해 암시적 분포 정렬 (IDA) 과 내부 세그먼트 가이드 (ISG) 를 제안하여, 증류된 모델 'SenseFlow'가 기존 확산 및 흐름 매칭 모델 모두에서 우수한 성능을 달성함을 보여줍니다.

Xingtong Ge, Xin Zhang, Tongda Xu + 4 more2026-03-03💻 cs

Harnessing Chain-of-Thought Reasoning in Multimodal Large Language Models for Face Anti-Spoofing

이 논문은 다양한 스푸핑 공격 유형을 포괄하는 대규모 시각 - 언어 질문 답변 데이터셋 'FaceCoT'와 강화학습 기반 캡션 모델 및 CoT 기반 점진적 학습 전략을 도입하여, 기존 단일 모달리티 기반의 한계를 극복하고 얼굴 생체 인증 위조 탐지 (FAS) 의 일반화 성능과 해석 가능성을 획기적으로 향상시켰습니다.

Honglu Zhang, Zhiqin Fang, Ningning Zhao + 4 more2026-03-03💻 cs

OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

이 논문은 인지심리학에 기반하여 동적 추론, 복잡한 공간 논리, 공간 상호작용, 시점 전환 등 50 개의 세부 범주로 구성된 포괄적인 벤치마크 'OmniSpatial'을 제안하고, 현재 시각 - 언어 모델들의 공간 추론 한계를 규명하며 이를 개선하기 위한 두 가지 전략을 제시합니다.

Mengdi Jia, Zekun Qi, Shaochen Zhang + 5 more2026-03-03💬 cs.CL

UniCUE: Unified Recognition and Generation Framework for Chinese Cued Speech Video-to-Speech Generation

이 논문은 중간 텍스트를 거치지 않고 수어 비디오에서 직접 음성을 생성하는 최초의 통합 프레임워크인 UniCUE 와 대규모 중국어 수어 데이터셋 UniCUE-HI 를 제안하여 청각 장애인을 위한 수어-음성 변환의 성능을 획기적으로 개선했습니다.

Jinting Wang, Shan Yang, Chenxing Li + 2 more2026-03-03⚡ eess

Improving Wildlife Out-of-Distribution Detection: Africas Big Five

이 논문은 폐쇄적 가정을 가진 기존 모델의 한계를 극복하고 아프리카 빅파이브 야생동물의 분포 외 (OOD) 검출 성능을 향상시키기 위해 사전 학습된 특징을 활용한 NCM 과 대비 학습 기반 접근법의 우수성을 입증했습니다.

Mufhumudzi Muthivhi, Jiahao Huo, Fredrik Gustafsson + 1 more2026-03-03🤖 cs.AI

Meta-Adaptive Prompt Distillation for Few-Shot Visual Question Answering

이 논문은 대규모 멀티모달 모델의 소수 샷 시각적 질문 응답 (VQA) 성능을 향상시키기 위해, 태스크 관련 시각적 특징에서 추출된 소프트 프롬프트를 메타 학습 방식으로 증류하고 테스트 시 적응하는 '메타 적응형 프롬프트 증류' 방법을 제안하며, 이를 통해 기존 인-컨텍스트 학습 및 파라미터 효율적 파인튜닝 기법보다 우수한 성능을 입증했습니다.

Akash Gupta, Amos Storkey, Mirella Lapata2026-03-03💬 cs.CL

BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation

이 논문은 엣지 로봇 플랫폼에서 메모리 사용량을 11 배, 지연 시간을 4.4 배 줄이면서도 풀 정밀도 모델과 유사한 성능을 내기 위해 1 비트 가중치를 사용하는 'BitVLA'라는 새로운 비전 - 언어 - 행동 모델을 제안합니다.

Hongyu Wang, Chuyan Xiong, Ruiping Wang + 1 more2026-03-03💻 cs

PD $^{2}$ GS: Part-Level Decoupling and Continuous Deformation of Articulated Objects via Gaussian Splatting

이 논문은 자기지도 학습을 통해 관절형 물체의 기하학적 구조와 운동학을 동시에 인코딩하는 새로운 프레임워크 PD $^{2}$ GS 를 제안하고, 이를 통해 매끄러운 연속 제어와 정밀한 부분 단위 분리가 가능하며, 이를 검증하기 위해 실사 - 시뮬레이션 RGB-D 데이터셋 RS-Art 을 공개한 연구입니다.

Haowen Wang, Xiaoping Yuan, Zhao Jin + 6 more2026-03-03💻 cs

VITA: Zero-Shot Value Functions via Test-Time Adaptation of Vision-Language Models

이 논문은 테스트 시간 적응을 통해 비전 - 언어 모델의 일반화 및 시간적 추론 능력을 향상시킨 제로샷 가치 함수 학습 방법인 VITA 를 제안하고, 이를 통해 다양한 과업과 환경에서 기존 최첨단 기법보다 우수한 성능을 입증합니다.

Christos Ziakas, Alessandra Russo2026-03-03🤖 cs.AI

VINCIE: Unlocking In-context Image Editing from Video

이 논문은 비디오 데이터를 활용하여 컨텍스트 기반 이미지 편집을 직접 학습할 수 있는 확장 가능한 방법론인 VINCIE 를 제안하고, 블록-인과적 확산 트랜스포머와 새로운 벤치마크를 통해 기존 전문가 모델에 의존하지 않는 최첨단 성능을 입증합니다.

Leigang Qu, Feng Cheng, Ziyan Yang + 7 more2026-03-03💬 cs.CL

NIC-RobustBench: A Comprehensive Open-Source Toolkit for Neural Image Compression and Robustness Analysis

이 논문은 기존 벤치마크가 간과해 온 신경망 이미지 압축 (NIC) 의 적대적 취약성을 평가하기 위해 다양한 공격과 방어 전략, 그리고 하류 작업 영향 분석을 포함하는 오픈소스 프레임워크인 'NIC-RobustBench'를 제안하고 이를 활용한 포괄적인 실증 연구를 수행했습니다.

Georgii Bychkov, Khaled Abud, Egor Kovalev + 4 more2026-03-03⚡ eess

Consistency-Driven Calibration and Matching for Few-Shot Class-Incremental Learning

이 논문은 기존 Few-Shot Class-Incremental Learning 의 지식 충돌 문제를 해결하기 위해 해마의 연관 기억에서 영감을 받아 특징과 구조의 이중 일관성을 기반으로 한 ConCM 프레임워크를 제안하고, 이를 통해 대규모 벤치마크에서 최첨단 성능을 달성함을 보여줍니다.

Qinzhe Wang, Zixuan Chen, Keke Huang + 3 more2026-03-03🤖 cs.LG

Rethinking Visual Token Reduction in LVLMs Under Cross-Modal Misalignment

이 논문은 텍스트 신호에 의존하는 기존 시각 토큰 축소 방식의 한계를 지적하고, 시각적 주의 메커니즘만을 활용하여 학습 없이도 계산 효율성을 크게 높이면서도 성능을 유지하는 'VisionDrop' 프레임워크를 제안합니다.

Rui Xu, Yunke Wang, Yong Luo + 1 more2026-03-03💻 cs

EchoMimicV3: 1.3B Parameters are All You Need for Unified Multi-Modal and Multi-Task Human Animation

이 논문은 13 억 개의 파라미터만으로도 다양한 작업과 모달리티를 통합적으로 처리하면서도 추론 속도와 계산 비용을 획기적으로 개선한 효율적인 인간 애니메이션 프레임워크 'EchoMimicV3'를 제안합니다.

Rang Meng, Yan Wang, Weipeng Wu + 3 more2026-03-03💻 cs

← 이전 다음 →

cs.CV