cs.CV 편의 논문 | Gist.Science

Harnessing Chain-of-Thought Reasoning in Multimodal Large Language Models for Face Anti-Spoofing

이 논문은 다양한 스푸핑 공격 유형을 포괄하는 대규모 시각 - 언어 질문 답변 데이터셋 'FaceCoT'와 강화학습 기반 캡션 모델 및 CoT 기반 점진적 학습 전략을 도입하여, 기존 단일 모달리티 기반의 한계를 극복하고 얼굴 생체 인증 위조 탐지 (FAS) 의 일반화 성능과 해석 가능성을 획기적으로 향상시켰습니다.

Honglu Zhang, Zhiqin Fang, Ningning Zhao + 4 more2026-03-03💻 cs

OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

이 논문은 인지심리학에 기반하여 동적 추론, 복잡한 공간 논리, 공간 상호작용, 시점 전환 등 50 개의 세부 범주로 구성된 포괄적인 벤치마크 'OmniSpatial'을 제안하고, 현재 시각 - 언어 모델들의 공간 추론 한계를 규명하며 이를 개선하기 위한 두 가지 전략을 제시합니다.

Mengdi Jia, Zekun Qi, Shaochen Zhang + 5 more2026-03-03💬 cs.CL

UniCUE: Unified Recognition and Generation Framework for Chinese Cued Speech Video-to-Speech Generation

이 논문은 중간 텍스트를 거치지 않고 수어 비디오에서 직접 음성을 생성하는 최초의 통합 프레임워크인 UniCUE 와 대규모 중국어 수어 데이터셋 UniCUE-HI 를 제안하여 청각 장애인을 위한 수어-음성 변환의 성능을 획기적으로 개선했습니다.

Jinting Wang, Shan Yang, Chenxing Li + 2 more2026-03-03⚡ eess

Improving Wildlife Out-of-Distribution Detection: Africas Big Five

이 논문은 폐쇄적 가정을 가진 기존 모델의 한계를 극복하고 아프리카 빅파이브 야생동물의 분포 외 (OOD) 검출 성능을 향상시키기 위해 사전 학습된 특징을 활용한 NCM 과 대비 학습 기반 접근법의 우수성을 입증했습니다.

Mufhumudzi Muthivhi, Jiahao Huo, Fredrik Gustafsson + 1 more2026-03-03🤖 cs.AI

Meta-Adaptive Prompt Distillation for Few-Shot Visual Question Answering

이 논문은 대규모 멀티모달 모델의 소수 샷 시각적 질문 응답 (VQA) 성능을 향상시키기 위해, 태스크 관련 시각적 특징에서 추출된 소프트 프롬프트를 메타 학습 방식으로 증류하고 테스트 시 적응하는 '메타 적응형 프롬프트 증류' 방법을 제안하며, 이를 통해 기존 인-컨텍스트 학습 및 파라미터 효율적 파인튜닝 기법보다 우수한 성능을 입증했습니다.

Akash Gupta, Amos Storkey, Mirella Lapata2026-03-03💬 cs.CL

BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation

이 논문은 엣지 로봇 플랫폼에서 메모리 사용량을 11 배, 지연 시간을 4.4 배 줄이면서도 풀 정밀도 모델과 유사한 성능을 내기 위해 1 비트 가중치를 사용하는 'BitVLA'라는 새로운 비전 - 언어 - 행동 모델을 제안합니다.

Hongyu Wang, Chuyan Xiong, Ruiping Wang + 1 more2026-03-03💻 cs

PD $^{2}$ GS: Part-Level Decoupling and Continuous Deformation of Articulated Objects via Gaussian Splatting

이 논문은 자기지도 학습을 통해 관절형 물체의 기하학적 구조와 운동학을 동시에 인코딩하는 새로운 프레임워크 PD $^{2}$ GS 를 제안하고, 이를 통해 매끄러운 연속 제어와 정밀한 부분 단위 분리가 가능하며, 이를 검증하기 위해 실사 - 시뮬레이션 RGB-D 데이터셋 RS-Art 을 공개한 연구입니다.

Haowen Wang, Xiaoping Yuan, Zhao Jin + 6 more2026-03-03💻 cs

VITA: Zero-Shot Value Functions via Test-Time Adaptation of Vision-Language Models

이 논문은 테스트 시간 적응을 통해 비전 - 언어 모델의 일반화 및 시간적 추론 능력을 향상시킨 제로샷 가치 함수 학습 방법인 VITA 를 제안하고, 이를 통해 다양한 과업과 환경에서 기존 최첨단 기법보다 우수한 성능을 입증합니다.

Christos Ziakas, Alessandra Russo2026-03-03🤖 cs.AI

VINCIE: Unlocking In-context Image Editing from Video

이 논문은 비디오 데이터를 활용하여 컨텍스트 기반 이미지 편집을 직접 학습할 수 있는 확장 가능한 방법론인 VINCIE 를 제안하고, 블록-인과적 확산 트랜스포머와 새로운 벤치마크를 통해 기존 전문가 모델에 의존하지 않는 최첨단 성능을 입증합니다.

Leigang Qu, Feng Cheng, Ziyan Yang + 7 more2026-03-03💬 cs.CL

NIC-RobustBench: A Comprehensive Open-Source Toolkit for Neural Image Compression and Robustness Analysis

이 논문은 기존 벤치마크가 간과해 온 신경망 이미지 압축 (NIC) 의 적대적 취약성을 평가하기 위해 다양한 공격과 방어 전략, 그리고 하류 작업 영향 분석을 포함하는 오픈소스 프레임워크인 'NIC-RobustBench'를 제안하고 이를 활용한 포괄적인 실증 연구를 수행했습니다.

Georgii Bychkov, Khaled Abud, Egor Kovalev + 4 more2026-03-03⚡ eess

Consistency-Driven Calibration and Matching for Few-Shot Class-Incremental Learning

이 논문은 기존 Few-Shot Class-Incremental Learning 의 지식 충돌 문제를 해결하기 위해 해마의 연관 기억에서 영감을 받아 특징과 구조의 이중 일관성을 기반으로 한 ConCM 프레임워크를 제안하고, 이를 통해 대규모 벤치마크에서 최첨단 성능을 달성함을 보여줍니다.

Qinzhe Wang, Zixuan Chen, Keke Huang + 3 more2026-03-03🤖 cs.LG

Rethinking Visual Token Reduction in LVLMs Under Cross-Modal Misalignment

이 논문은 텍스트 신호에 의존하는 기존 시각 토큰 축소 방식의 한계를 지적하고, 시각적 주의 메커니즘만을 활용하여 학습 없이도 계산 효율성을 크게 높이면서도 성능을 유지하는 'VisionDrop' 프레임워크를 제안합니다.

Rui Xu, Yunke Wang, Yong Luo + 1 more2026-03-03💻 cs

EchoMimicV3: 1.3B Parameters are All You Need for Unified Multi-Modal and Multi-Task Human Animation

이 논문은 13 억 개의 파라미터만으로도 다양한 작업과 모달리티를 통합적으로 처리하면서도 추론 속도와 계산 비용을 획기적으로 개선한 효율적인 인간 애니메이션 프레임워크 'EchoMimicV3'를 제안합니다.

Rang Meng, Yan Wang, Weipeng Wu + 3 more2026-03-03💻 cs

CLiFT: Compressive Light-Field Tokens for Compute-Efficient and Adaptive Neural Rendering

이 논문은 압축된 광장 tokens(CLiFTs) 을 사용하여 장면의 기하학적 및 외관 정보를 유지하면서도 연산 예산에 따라 토큰 수를 동적으로 조절하여 효율적이고 적응적인 신경 렌더링을 가능하게 하는 새로운 방법을 제안합니다.

Zhengqing Wang, Yuefan Wu, Jiacheng Chen + 2 more2026-03-03💻 cs

Advancing Complex Video Object Segmentation via Progressive Concept Construction

이 논문은 대규모 비전 - 언어 모델을 활용하여 새로운 장면이 등장할 때만 개념적 특징을 주입하는 '세그먼트 컨셉 (SeC)' 프레임워크와 이를 평가하기 위한 'SeCVOS' 벤치마크를 제안함으로써, 기존 방법론보다 복잡한 비디오 객체 분할 성능을 획기적으로 향상시켰음을 보여줍니다.

Zhixiong Zhang, Shuangrui Ding, Xiaoyi Dong + 7 more2026-03-03🤖 cs.AI

Digital and Robotic Twinning for Validation of Proximity Operations and Formation Flying

이 논문은 스탠포드 대학의 로봇 테스트베드를 활용한 하이브리드 디지털 및 로봇 트윈 프레임워크를 제시하여, 궤도 근접 임무 및 형성 비행의 안전성 필수 GNC 시스템을 소프트웨어 및 하드웨어-in-the-루프 테스트를 통해 통합적으로 검증하고 그 일관성을 입증했습니다.

Z. Ahmed, E. Bates, P. Francesch Huc + 5 more2026-03-03💻 cs

MonoFusion: Sparse-View 4D Reconstruction via Monocular Fusion

이 논문은 제한된 수의 희소 뷰 카메라로 동적 장면을 재구성하기 위해 각 카메라의 독립적인 단안 재구성을 정밀하게 정렬하여 시간 및 뷰 일관성을 확보하는 'MonoFusion'을 제안하며, 기존 다중 뷰 방법보다 높은 품질의 재구성과 새로운 뷰 렌더링 성능을 입증합니다.

Zihan Wang, Jeff Tan, Tarasha Khurana + 2 more2026-03-03💻 cs

HGTS-Former: Hierarchical HyperGraph Transformer for Multivariate Time Series Analysis

이 논문은 다변량 시계열 데이터의 복잡한 상호작용을 해결하기 위해 계층적 초그래프와 트랜스포머를 결합한 HGTS-Former 모델을 제안하고, 핵융합 에지 국소화 모드 (ELM) 인식 등 다양한 태스크에서 최첨단 성능을 입증했습니다.

Hao Si, Xiao Wang, Fan Zhang + 5 more2026-03-03🤖 cs.AI

Fast Magnetic Resonance Simulation Using Combined Update with Grouped Isochromats

이 논문은 개별 등자이로트 (isochromats) 를 그룹화하여 시뮬레이션 과정을 공유함으로써 기존 MR 시뮬레이션 방법보다 3 배에서 72 배까지 속도를 획기적으로 단축한 새로운 '결합 업데이트 기반 그룹화 등자이로트' 기법을 제안합니다.

Hidenori Takeshima2026-03-03⚡ eess

Learning Robust Intervention Representations with Delta Embeddings

이 논문은 시각적 장면과 무관하고 인과 변수에 대해 희소한 '인과 델타 임베딩 (Causal Delta Embedding)'을 제안하여 개입 표현을 학습함으로써 분포 외 (OOD) 환경에서의 모델 강건성을 크게 향상시키는 방법을 제시합니다.

Panagiotis Alimisis, Christos Diou2026-03-03🤖 cs.AI

← 이전 다음 →

cs.CV