cs.CV 편의 논문 | Gist.Science

Thinking Beyond Labels: Vocabulary-Free Fine-Grained Recognition using Reasoning-Augmented LMMs

이 논문은 고정된 어휘 집합 없이 시각적으로 유사한 하위 범위를 식별하는 문제를 해결하기 위해 추론 기능을 강화한 대규모 멀티모달 모델을 활용한 'FiNDR' 프레임워크를 제안하며, 기존 방법론보다 뛰어난 성능을 입증하고 인간이 정의한 어휘가 성능의 상한선이 아니라는 것을 보여줍니다.

Dmitry Demidov, Zaigham Zaheer, Zongyan Han + 2 more2026-02-27💻 cs

Beyond Pixel Simulation: Pathology Image Generation via Diagnostic Semantic Tokens and Prototype Control

이 논문은 데이터 부족과 의미적 제어의 한계를 해결하기 위해 진단적 의미 토큰과 프로토타입 제어를 활용하여 병리 이미지 생성의 새로운 표준을 제시하는 'UniPath' 프레임워크를 소개합니다.

Minghao Han, Yichen Liu, Yizhou Liu + 5 more2026-02-27💻 cs

WebGym: Scaling Training Environments for Visual Web Agents with Realistic Tasks

이 논문은 실제 웹사이트 기반의 대규모 작업 환경 'WebGym'과 효율적인 병렬 롤아웃 시스템을 통해 강화학습을 수행함으로써, 기존 독점 모델들을 능가하는 성능을 보이는 시각적 웹 에이전트를 개발한 연구 결과를 제시합니다.

Hao Bai, Alexey Taymanov, Tong Zhang + 2 more2026-02-27🤖 cs.LG

ThinkRL-Edit: Thinking in Reinforcement Learning for Reasoning-Centric Image Editing

이 논문은 시각적 추론과 이미지 합성을 분리하고, 생성 전 CoT 기반의 계획 및 반성 단계를 도입하며, 편향 없는 선호도 그룹화와 이진 체크리스트 보상 체계를 통해 추론 중심 이미지 편집의 성능을 획기적으로 개선하는 'ThinkRL-Edit' 프레임워크를 제안합니다.

Hengjia Li, Liming Jiang, Qing Yan + 6 more2026-02-27💻 cs

MERGETUNE: Continued Fine-Tuning of Vision-Language Models

이 논문은 선형 모드 연결성 (LMC) 을 기반으로 사전 학습된 지식의 손실 없이 기존 비전 - 언어 모델을 계속 미세 조정하여 일반화 성능을 향상시키는 새로운 패러다임인 'MERGETUNE'을 제안합니다.

Wenqing Wang, Da Li, Xiatian Zhu + 1 more2026-02-27💻 cs

Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

이 논문은 폐쇄형 VLM 에 의존하지 않고 7 개의 새로운 비디오 데이터셋과 2 개의 멀티이미지 데이터셋, 그리고 효율적인 학습 레시피를 통해 공개된 가중치 및 데이터 중 최첨단 성능을 달성하고 비디오 이해 및 정밀한 지시 (grounding) 능력을 혁신적으로 향상시킨 'Molmo2'모델을 소개합니다.

Christopher Clark, Jieyu Zhang, Zixian Ma + 18 more2026-02-27🤖 cs.AI

A Pragmatic VLA Foundation Model

이 논문은 9 가지 이중 암 로봇 구성에서 수집된 약 2 만 시간의 실세계 데이터를 기반으로 한 'LingBot-VLA'모델을 제안하여, 다양한 작업과 플랫폼에 걸쳐 뛰어난 일반화 성능과 효율적인 학습 속도를 입증하고 코드, 모델, 벤치마크 데이터를 공개합니다.

Wei Wu, Fan Lu, Yunnan Wang + 22 more2026-02-27💻 cs

Visible Light Positioning With Lamé Curve LEDs: A Generic Approach for Camera Pose Estimation

이 논문은 다양한 LED 모양을 통합적으로 표현하는 라메 곡선을 기반으로 하여 이질적인 LED 환경에서도 카메라 포즈를 정확하게 추정할 수 있는 범용 비가시광선 위치 결정 (LC-VLP) 알고리즘을 제안하고, 시뮬레이션 및 실험을 통해 기존 방법 대비 위치 및 회전 오차를 크게 감소시키고 평균 위치 정확도 4cm 미만의 성능을 입증했습니다.

Wenxuan Pan, Yang Yang, Dong Wei + 4 more2026-02-27⚡ eess

VQ-Style: Disentangling Style and Content in Motion with Residual Quantized Representations

이 논문은 잔여 벡터 양자화 VAE 와 대비 학습을 결합하여 동작의 내용과 스타일을 효과적으로 분리하고, 미세 조정 없이도 다양한 스타일 전환 및 혼합이 가능한 '양자화 코드 스와핑' 기법을 제안합니다.

Fatemeh Zargarbashi, Dhruv Agrawal, Jakob Buhmann + 3 more2026-02-27🤖 cs.AI

OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence

이 논문은 비디오 코덱의 정보 이론적 원리 (예측 잔차에 기반한 희소성) 를 시각 아키텍처에 적용하여 효율성과 정확성을 동시에 극대화하는 'OneVision-Encoder'를 제안하고, 이를 통해 다양한 멀티모달 벤치마크에서 기존 최첨단 모델들을 능가하는 성능을 입증했습니다.

Feilong Tang, Xiang An, Yunyao Yan + 16 more2026-02-27💻 cs

HLGFA: High-Low Resolution Guided Feature Alignment for Unsupervised Anomaly Detection

이 논문은 고해상도와 저해상도 특징 간의 일관성을 모델링하여 픽셀 단위 재구성에 의존하지 않는 비지도 산업 이상 탐지 프레임워크인 HLGFA 를 제안하고, MVTec AD 데이터셋에서 기존 방법들을 능가하는 성능을 입증합니다.

Han Zhou, Yuxuan Gao, Yinchao Du + 1 more2026-02-27💻 cs

GigaBrain-0.5M*: a VLA That Learns From World Model-Based Reinforcement Learning

이 논문은 웹 규모의 비디오로 사전 학습된 세계 모델을 기반으로 한 강화학습 기법인 RAMP 를 도입하여, 복잡한 장기 작업 수행 능력과 과제 간 적응력을 크게 향상시킨 새로운 비전 - 언어 - 행동 (VLA) 모델 'GigaBrain-0.5M*'을 제안하고 그 유효성을 실증합니다.

GigaBrain Team, Boyuan Wang, Bohan Li + 23 more2026-02-27💻 cs

PCReg-Net: Progressive Contrast-Guided Registration for Cross-Domain Image Alignment

이 논문은 이종 도메인 간의 이미지 정합 문제를 해결하기 위해 4 개의 경량 모듈을 통해 점진적인 대비 기반 정렬을 수행하는 PCReg-Net 을 제안하고, FIRE-Reg-256 및 현미경 벤치마크에서 기존 방법보다 우수한 성능과 실시간 추론 속도를 입증합니다.

Jiahao Qin2026-02-27🤖 cs.AI

Benchmarking Video Foundation Models for Remote Parkinson's Disease Screening

이 논문은 1,888 명의 참가자로부터 수집된 대규모 비디오 데이터를 활용하여 다양한 비디오 기반 모델 (VFM) 을 파킨슨병 원격 선별 작업에 체계적으로 평가하고, 모델별 성능 차이를 분석하여 임상적 적용을 위한 기준과 로드맵을 제시합니다.

Md Saiful Islam, Ekram Hossain, Abdelrahman Abdelkader + 11 more2026-02-27💻 cs

Index Light, Reason Deep: Deferred Visual Ingestion for Visual-Dense Document Question Answering

이 논문은 시각적으로 밀집된 공학 문서의 질문 응답 정확도를 획기적으로 향상시키기 위해, 전처리 단계에서 비주얼 언어 모델 (VLM) 호출을 지연시키고 문서 구조 정보와 HDNC 알고리즘을 활용한 계층적 색인화 및 BM25 기반 검색을 통해 원본 이미지를 VLM 에게 직접 전달하는 '지연 시각 섭취 (DVI)' 프레임워크를 제안합니다.

Tao Xu2026-02-27💬 cs.CL

Depth from Defocus via Direct Optimization

이 논문은 현대적인 최적화 기법과 번갈아 수행되는 최소화 (alternating minimization) 방식을 활용하여, 기존 딥러닝 방법보다 더 높은 해상도에서 깊이 정보를 효과적으로 복원하는 '초점 흐림을 통한 깊이 추정 (Depth from Defocus)'의 전역 최적화 접근법을 제안하고 그 유효성을 입증합니다.

Holly Jackson, Caleb Adams, Ignacio Lopez-Francos + 1 more2026-02-27💻 cs

Compact Hadamard Latent Codes for Efficient Spectral Rendering

이 논문은 RGB 렌더링 연산을 활용하여 스펙트럼 렌더링의 계산 비용을 획기적으로 줄이면서도 높은 정확도를 유지하는 '해다마드 스펙트럼 코드'라는 새로운 잠재 표현 기법을 제안합니다.

Jiaqi Yu, Dar'ya Guarnera, Giuseppe Claudio Guarnera2026-02-27💻 cs

Automated Disentangling Analysis of Skin Colour for Lesion Images

이 논문은 다양한 피부색과 촬영 조건에서 피부 병변 이미지의 분류 성능을 향상시키고 공정한 진단을 가능하게 하기 위해, 환경적 및 내재적 요인을 분리하여 다양한 피부색으로의 사실적인 이미지 변환과 데이터 증강을 가능하게 하는 자동화된 피부색 분해 분석 프레임워크를 제안합니다.

Wenbo Yang, Eman Rezk, Walaa M. Moursi + 1 more2026-02-27⚡ eess

FUSAR-GPT : A Spatiotemporal Feature-Embedded and Two-Stage Decoupled Visual Language Model for SAR Imagery

이 논문은 SAR 이미지의 복잡한 특성과 텍스트 코퍼스 부족 문제를 해결하기 위해 시공간적 특징이 내장된 2 단계 해리형 비전 언어 모델인 FUSAR-GPT 와 최초의 SAR 이미지 - 텍스트 - 알파어스 특징 삼중체 데이터셋을 제안하여 기존 베이스라인 대비 12% 이상 뛰어난 성능을 달성한 연구입니다.

Xiaokun Zhang, Yi Yang, Ziqi Ye + 6 more2026-02-27🤖 cs.AI

DICArt: Advancing Category-level Articulated Object Pose Estimation in Discrete State-Spaces

이 논문은 연속 공간의 한계를 극복하고 내재된 운동학적 제약을 효과적으로 반영하기 위해 이산 확산 과정, 유연한 흐름 결정기, 그리고 계층적 운동학적 결합 전략을 도입한 새로운 카테고리 수준 관절 객체 포즈 추정 프레임워크인 DICArt 를 제안합니다.

Li Zhang, Mingyu Mei, Ailing Wang + 7 more2026-02-27🤖 cs.AI

← 이전 다음 →