MuViT: Multi-Resolution Vision Transformers for Learning Across Scales in Microscopy

이 논문은 현미경 이미지의 본질적인 다중 해상도 특성을 활용하기 위해 동일한 세계 좌표계에서 다양한 해상도의 관측치를 융합하는 새로운 트랜스포머 아키텍처인 MuViT 를 제안하고, 이를 통해 다양한 현미경 분석 작업에서 기존 모델보다 우수한 성능을 입증합니다.

Albert Dominguez Mantes, Gioele La Manno, Martin Weigert2026-03-02🤖 cs.LG

Enhancing Spatial Understanding in Image Generation via Reward Modeling

이 논문은 8 만 개 이상의 선호도 쌍으로 구성된 SpatialReward-Dataset 과 이를 기반으로 구축된 SpatialScore 보상 모델을 통해 텍스트-이미지 생성 모델의 공간 관계 이해 능력을 강화하고, 이를 온라인 강화 학습에 적용하여 복잡한 공간적 묘사 성능을 획기적으로 개선하는 방법을 제시합니다.

Zhenyu Tang, Chaoran Feng, Yufan Deng + 5 more2026-03-02💻 cs

Histopathology Image Normalization via Latent Manifold Compaction

이 논문은 염색 및 스캐너 기술적 변이로 인한 배치 효과를 해결하기 위해 단일 소스 데이터셋에서 학습된 잠재 매니폴드 압축을 통해 배치 불변 임베딩을 생성하는 비지도 표현 학습 프레임워크인 '잠재 매니폴드 압축 (LMC)'을 제안하며, 이를 통해 다양한 데이터셋 간 분류 및 검출 작업에서 기존 방법보다 우수한 일반화 성능을 입증했습니다.

Xiaolong Zhang, Jianwei Zhang, Selim Sevim + 3 more2026-03-02🤖 cs.LG

Mode Seeking meets Mean Seeking for Fast Long Video Generation

이 논문은 '모드 탐색 (Mode Seeking)'과 '평균 탐색 (Mean Seeking)'을 결합한 새로운 학습 패러다임을 제안하여, 제한된 장시간 데이터를 통한 서사적 일관성 학습과 짧은 영상 교사 모델로부터의 국소적 사실성 계승을 동시에 달성함으로써 고품질의 분 단위 긴 영상을 빠르게 생성하는 방법을 제시합니다.

Shengqu Cai, Weili Nie, Chao Liu + 8 more2026-03-02🤖 cs.LG

From Open Vocabulary to Open World: Teaching Vision Language Models to Detect Novel Objects

이 논문은 오픈 보카불러리 검출 모델이 알려진 클래스와 유사한 근접 분포 외 (NOOD) 객체를 오분류하거나 원거리 분포 외 (FOOD) 객체를 무시하는 한계를 극복하기 위해, 의사 미지 임베딩과 멀티 스케일 대비 앵커 학습을 통해 미지 객체를 식별하고 점진적으로 학습하는 오픈 월드 객체 검출 프레임워크를 제안하여 자율 주행 및 표준 벤치마크에서 최첨단 성능을 달성함을 보여줍니다.

Zizhao Li, Zhengkang Xiang, Joseph West + 1 more2026-02-27🤖 cs.AI

Enhancing Sketch Animation: Text-to-Video Diffusion Models with Temporal Consistency and Rigidity Constraints

이 논문은 텍스트 프롬프트를 기반으로 손으로 그린 스케치를 애니메이션화할 때, SDS 손실 함수를 활용하고 길이 - 면적 정규화와 ARAP 손실을 도입하여 시간적 일관성과 강성 (rigidity) 을 보장함으로써 기존 방법의 한계를 극복하고 최첨단 성능을 달성하는 새로운 접근법을 제시합니다.

Gaurav Rai, Ojaswa Sharma2026-02-27💻 cs