LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning

이 논문은 기존 모델이 직면한 긍정 및 부정 쌍의 유사도 분포 중첩 문제를 해결하기 위해 난이도 가중 대비 학습을 도입한 LLaVE 프레임워크를 제안하고, 이를 통해 7B 모델 대비 2B 모델로도 최첨단 성능을 달성하며 텍스트 - 비디오 검색 등 다양한 작업으로의 제로샷 일반화 능력을 입증했습니다.

Zhibin Lan, Liqiang Niu, Fandong Meng + 2 more2026-03-03💬 cs.CL

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

이 논문은 기존 MLLM 과 DeepSeek-R1 을 활용해 인간 주석 없이 고품질 다중 모달 CoT 데이터를 구축하고, 점진적 사고 억제 훈련 (PTST) 과 GRPO 를 적용하여 다중 모달 추론 능력을 강화한 'Vision-R1'모델을 제안하며, 이를 통해 MathVista 벤치마크에서 OpenAI O1 과 유사한 성능을 달성했음을 보여줍니다.

Wenxuan Huang, Bohan Jia, Zijie Zhai + 7 more2026-03-03💬 cs.CL

SemHiTok: A Unified Image Tokenizer via Semantic-Guided Hierarchical Codebook for Multimodal Understanding and Generation

이 논문은 의미 기반 계층적 코드북을 통해 고수준 의미 이해와 저수준 픽셀 생성 간의 균형을 달성한 통합 이미지 토크나이저 'SemHiTok'을 제안하며, 이를 통해 이미지 재구성 및 다중 모달 이해·생성 성능을 동시에 향상시켰음을 보여줍니다.

Zisheng Chen, Chunwei Wang, Runhui Huang + 6 more2026-03-03🤖 cs.AI

OSDM-MReg: Multimodal Image Registration based One Step Diffusion Model

이 논문은 SAR 와 광학 이미지 간의 큰 비선형 방사계 차이 문제를 해결하기 위해, 역변환 목적 함수를 도입하여 단일 단계로 이미지 변환을 수행하는 UTGOS-CDM 모델과 다중 스케일 정합 네트워크 (MM-Reg) 를 결합한 OSDM-MReg 프레임워크를 제안하여 기존 방법보다 뛰어난 정합 정확도를 달성함을 보여줍니다.

Xiaochen Wei, Weiwei Guo, Wenxian Yu + 2 more2026-03-03⚡ eess

VR-FuseNet: A Fusion of Heterogeneous Fundus Data and Explainable Deep Network for Diabetic Retinopathy Classification

이 논문은 불균형 데이터를 해결하기 위해 다섯 개의 공개 데이터셋을 통합하고 SMOTE 및 CLAHE 전처리를 적용한 후, VGG19 와 ResNet50V2 의 장점을 결합한 하이브리드 딥러닝 모델 'VR-FuseNet'을 제안하여 당뇨병성 망막병증 분류 정확도를 91.824% 로 높이고 XAI 기법을 통해 임상적 해석 가능성을 확보한 연구입니다.

Shamim Rahim Refat, Ziyan Shirin Raha, Shuvashis Sarker + 4 more2026-03-03💻 cs

Wasserstein Distances Made Explainable: Insights Into Dataset Shifts and Transport Phenomena

이 논문은 Wasserstein 거리가 데이터 분포 간 차이를 정량화할 수 있지만 그 원인을 설명하기 어렵다는 한계를 극복하기 위해, 설명 가능한 AI 기법을 활용하여 해당 거리를 데이터 하위 그룹, 입력 특성 또는 해석 가능한 부분 공간과 같은 구성 요소에 효율적으로 귀속시키는 새로운 방법을 제안합니다.

Philip Naumann, Jacob Kauffmann, Grégoire Montavon2026-03-03🤖 cs.AI

Dynamic Uncertainty Learning with Noisy Correspondence for Text-Based Person Search

이 논문은 온라인에서 수집된 대규모 텍스트 - 이미지 데이터의 노이즈 문제를 해결하기 위해, 불확실성을 모델링하는 키 특징 선택기 (KFS) 와 부정적 샘플의 난이도를 동적으로 조절하는 새로운 손실 함수 (DSH-Loss) 를 포함한 DURA 프레임워크를 제안하여 텍스트 기반 인물 검색의 성능과 강건성을 향상시켰습니다.

Zequn Xie, Haoming Ji, Chengxuan Li + 1 more2026-03-03💻 cs

Adversarially Pretrained Transformers May Be Universally Robust In-Context Learners

이 논문은 적대적 전처리를 거친 트랜스포머가 추가적인 적대적 훈련 없이도 다양한 다운스트림 작업에 대해 강건하게 적응할 수 있는 보편적 강건 인-컨텍스트 학습자임을 이론적으로 증명하고, 이를 통해 다운스트림 작업에서 '무료'로 강건성을 확보할 수 있음을 시사합니다.

Soichiro Kumano, Hiroshi Kera, Toshihiko Yamasaki2026-03-03📊 stat

Flexible-weighted Chamfer Distance: Enhanced Objective Function for Point Cloud Completion

본 논문은 점구름 완성의 품질을 제한하는 기존 Chamfer Distance 의 한계를 극복하기 위해, 국부 정밀도와 전역 완전성을 분리하여 비대칭 가중치를 적용한 '유연 가중 Chamfer Distance(FCD)'를 제안하고, 이를 통해 점군 응집 현상을 완화하고 전역적 구조 무결성을 크게 향상시킨다는 것을 입증합니다.

Jie Li, Shengwei Tian, Long Yu + 1 more2026-03-03💻 cs