Thinking Beyond Labels: Vocabulary-Free Fine-Grained Recognition using Reasoning-Augmented LMMs

이 논문은 고정된 어휘 집합 없이 시각적으로 유사한 하위 범위를 식별하는 문제를 해결하기 위해 추론 기능을 강화한 대규모 멀티모달 모델을 활용한 'FiNDR' 프레임워크를 제안하며, 기존 방법론보다 뛰어난 성능을 입증하고 인간이 정의한 어휘가 성능의 상한선이 아니라는 것을 보여줍니다.

Dmitry Demidov, Zaigham Zaheer, Zongyan Han + 2 more2026-02-27💻 cs

Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding

이 논문은 폐쇄형 VLM 에 의존하지 않고 7 개의 새로운 비디오 데이터셋과 2 개의 멀티이미지 데이터셋, 그리고 효율적인 학습 레시피를 통해 공개된 가중치 및 데이터 중 최첨단 성능을 달성하고 비디오 이해 및 정밀한 지시 (grounding) 능력을 혁신적으로 향상시킨 'Molmo2'모델을 소개합니다.

Christopher Clark, Jieyu Zhang, Zixian Ma + 18 more2026-02-27🤖 cs.AI

Visible Light Positioning With Lamé Curve LEDs: A Generic Approach for Camera Pose Estimation

이 논문은 다양한 LED 모양을 통합적으로 표현하는 라메 곡선을 기반으로 하여 이질적인 LED 환경에서도 카메라 포즈를 정확하게 추정할 수 있는 범용 비가시광선 위치 결정 (LC-VLP) 알고리즘을 제안하고, 시뮬레이션 및 실험을 통해 기존 방법 대비 위치 및 회전 오차를 크게 감소시키고 평균 위치 정확도 4cm 미만의 성능을 입증했습니다.

Wenxuan Pan, Yang Yang, Dong Wei + 4 more2026-02-27⚡ eess

OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence

이 논문은 비디오 코덱의 정보 이론적 원리 (예측 잔차에 기반한 희소성) 를 시각 아키텍처에 적용하여 효율성과 정확성을 동시에 극대화하는 'OneVision-Encoder'를 제안하고, 이를 통해 다양한 멀티모달 벤치마크에서 기존 최첨단 모델들을 능가하는 성능을 입증했습니다.

Feilong Tang, Xiang An, Yunyao Yan + 16 more2026-02-27💻 cs

Index Light, Reason Deep: Deferred Visual Ingestion for Visual-Dense Document Question Answering

이 논문은 시각적으로 밀집된 공학 문서의 질문 응답 정확도를 획기적으로 향상시키기 위해, 전처리 단계에서 비주얼 언어 모델 (VLM) 호출을 지연시키고 문서 구조 정보와 HDNC 알고리즘을 활용한 계층적 색인화 및 BM25 기반 검색을 통해 원본 이미지를 VLM 에게 직접 전달하는 '지연 시각 섭취 (DVI)' 프레임워크를 제안합니다.

Tao Xu2026-02-27💬 cs.CL

Automated Disentangling Analysis of Skin Colour for Lesion Images

이 논문은 다양한 피부색과 촬영 조건에서 피부 병변 이미지의 분류 성능을 향상시키고 공정한 진단을 가능하게 하기 위해, 환경적 및 내재적 요인을 분리하여 다양한 피부색으로의 사실적인 이미지 변환과 데이터 증강을 가능하게 하는 자동화된 피부색 분해 분석 프레임워크를 제안합니다.

Wenbo Yang, Eman Rezk, Walaa M. Moursi + 1 more2026-02-27⚡ eess

FUSAR-GPT : A Spatiotemporal Feature-Embedded and Two-Stage Decoupled Visual Language Model for SAR Imagery

이 논문은 SAR 이미지의 복잡한 특성과 텍스트 코퍼스 부족 문제를 해결하기 위해 시공간적 특징이 내장된 2 단계 해리형 비전 언어 모델인 FUSAR-GPT 와 최초의 SAR 이미지 - 텍스트 - 알파어스 특징 삼중체 데이터셋을 제안하여 기존 베이스라인 대비 12% 이상 뛰어난 성능을 달성한 연구입니다.

Xiaokun Zhang, Yi Yang, Ziqi Ye + 6 more2026-02-27🤖 cs.AI