XPoint: A Self-Supervised Visual-State-Space based Architecture for Multispectral Image Registration

이 논문은 다양한 멀티스펙트럼 모달리티 간의 비선형 강도 변화와 뷰포인트 차이로 인한 정합 어려움을 해결하기 위해, 자기지도 학습과 모듈러 아키텍처를 활용하여 VMamba 인코더와 3 개의 디코더 헤드를 결합한 범용 이미지 매칭 프레임워크 'XPoint'를 제안하고, 이를 통해 기존 최첨단 방법들보다 우수한 성능을 입증했습니다.

Ismail Can Yagmur, Hasan F. Ates, Bahadir K. Gunturk2026-03-03💻 cs

Deep generative computed perfusion-deficit mapping of ischaemic stroke

이 논문은 1,393 명의 급성 뇌경색 환자 CT 혈관조영술 데이터를 기반으로 심층 생성 추론을 통해 병변 정보 없이도 뇌 관류 결손 지도를 분석하여 NIHSS 하위 점수의 신경 기질을 국소화하고, 기존 병변 - 결손 관계를 재현함과 동시에 새로운 신경 의존성을 발견하여 초급성기 뇌졸중의 임상적·과학적 가치 있는 표현형 분석을 가능하게 함을 보여줍니다.

Chayanin Tangwiriyasakul, Pedro Borges, Guilherme Pombo + 8 more2026-03-03🧬 q-bio

CLIP Behaves like a Bag-of-Words Model Cross-modally but not Uni-modally

이 논문은 CLIP 이 실제로는 속성 - 객체 결합 정보를 단모달 (텍스트 및 이미지) 임베딩 내에 보유하고 있으나, 교차모달 정렬 과정에서 이를 잃어버리는 'Bag-of-Words'와 같은 행동을 보인다는 것을 규명하고, 단순한 선형 변환을 통해 이 정보를 복원하여 재학습 없이 성능을 향상시킬 수 있음을 제시합니다.

Darina Koishigarina, Arnas Uselis, Seong Joon Oh2026-03-03🤖 cs.LG

Precise Parameter Localization for Textual Generation in Diffusion Models

이 논문은 확산 모델의 텍스트 생성에 관여하는 매개변수가 전체의 1% 미만인 어텐션 레이어에 국한되어 있음을 발견하고, 이를 정밀하게 국소화하여 텍스트 생성 성능 향상, 이미지 내 텍스트 편집, 유해 텍스트 생성 방지 등 다양한 응용 분야를 효율적으로 구현하는 방법을 제시합니다.

Łukasz Staniszewski, Bartosz Cywiński, Franziska Boenisch + 2 more2026-03-03💻 cs

LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning

이 논문은 기존 모델이 직면한 긍정 및 부정 쌍의 유사도 분포 중첩 문제를 해결하기 위해 난이도 가중 대비 학습을 도입한 LLaVE 프레임워크를 제안하고, 이를 통해 7B 모델 대비 2B 모델로도 최첨단 성능을 달성하며 텍스트 - 비디오 검색 등 다양한 작업으로의 제로샷 일반화 능력을 입증했습니다.

Zhibin Lan, Liqiang Niu, Fandong Meng + 2 more2026-03-03💬 cs.CL

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

이 논문은 기존 MLLM 과 DeepSeek-R1 을 활용해 인간 주석 없이 고품질 다중 모달 CoT 데이터를 구축하고, 점진적 사고 억제 훈련 (PTST) 과 GRPO 를 적용하여 다중 모달 추론 능력을 강화한 'Vision-R1'모델을 제안하며, 이를 통해 MathVista 벤치마크에서 OpenAI O1 과 유사한 성능을 달성했음을 보여줍니다.

Wenxuan Huang, Bohan Jia, Zijie Zhai + 7 more2026-03-03💬 cs.CL

SemHiTok: A Unified Image Tokenizer via Semantic-Guided Hierarchical Codebook for Multimodal Understanding and Generation

이 논문은 의미 기반 계층적 코드북을 통해 고수준 의미 이해와 저수준 픽셀 생성 간의 균형을 달성한 통합 이미지 토크나이저 'SemHiTok'을 제안하며, 이를 통해 이미지 재구성 및 다중 모달 이해·생성 성능을 동시에 향상시켰음을 보여줍니다.

Zisheng Chen, Chunwei Wang, Runhui Huang + 6 more2026-03-03🤖 cs.AI