Prune Wisely, Reconstruct Sharply: Compact 3D Gaussian Splatting via Adaptive Pruning and Difference-of-Gaussian Primitives

이 논문은 재구성 품질에 기반한 적응형 가지치기 전략과 양음 밀도를 동시에 모델링하는 3D 차분 가우시안 원리를 도입하여, 3D 가우시안 스플래팅의 모델 크기를 최대 90% 줄이면서도 시각적 품질을 유지하거나 향상시키는 효율적인 방법을 제안합니다.

Haoran Wang, Guoxi Huang, Fan Zhang + 2 more2026-03-02💻 cs

A Mixed Diet Makes DINO An Omnivorous Vision Encoder

이 논문은 DINOv2 와 같은 사전 학습된 비전 인코더의 모달리티 간 정렬 부족 문제를 해결하기 위해, 다양한 모달리티 간의 정렬과 교사 모델 증류를 결합한 '잡식성 비전 인코더 (Omnivorous Vision Encoder)'를 제안하여 모달리티에 구애받지 않는 일관된 특징 표현을 학습하는 방법을 제시합니다.

Rishabh Kabra, Maks Ovsjanikov, Drew A. Hudson + 5 more2026-03-02🤖 cs.AI

A multimodal slice discovery framework for systematic failure detection and explanation in medical image classification

이 논문은 의료 이미지 분류 모델의 숨겨진 체계적 오류를 발견하고 설명하기 위해 단일 모달리티 기반의 한계를 극복하는 최초의 자동화된 멀티모달 슬라이스 발견 프레임워크를 제안하고, MIMIC-CXR-JPG 데이터셋을 통한 실험을 통해 그 유효성을 입증했습니다.

Yixuan Liu, Kanwal K. Bhatia, Ahmed E. Fetit2026-03-02🤖 cs.LG

Uncertainty Quantification for Multimodal Large Language Models with Incoherence-adjusted Semantic Volume

이 논문은 외부 도구나 추가 학습 없이 MLLM 의 내부 모달리티 특징만을 활용하여 샘플 응답의 불일치 조정 시맨틱 볼륨을 계산함으로써 다양한 모달리티와 작업에서 기존 방법보다 우수한 불확실성 정량화 성능을 보이는 새로운 프레임워크인 UMPIRE 를 제안합니다.

Gregory Kang Ruey Lau, Hieu Dao, Nicole Kan Hui Lin + 1 more2026-03-02💬 cs.CL

MuViT: Multi-Resolution Vision Transformers for Learning Across Scales in Microscopy

이 논문은 현미경 이미지의 본질적인 다중 해상도 특성을 활용하기 위해 동일한 세계 좌표계에서 다양한 해상도의 관측치를 융합하는 새로운 트랜스포머 아키텍처인 MuViT 를 제안하고, 이를 통해 다양한 현미경 분석 작업에서 기존 모델보다 우수한 성능을 입증합니다.

Albert Dominguez Mantes, Gioele La Manno, Martin Weigert2026-03-02🤖 cs.LG

Enhancing Spatial Understanding in Image Generation via Reward Modeling

이 논문은 8 만 개 이상의 선호도 쌍으로 구성된 SpatialReward-Dataset 과 이를 기반으로 구축된 SpatialScore 보상 모델을 통해 텍스트-이미지 생성 모델의 공간 관계 이해 능력을 강화하고, 이를 온라인 강화 학습에 적용하여 복잡한 공간적 묘사 성능을 획기적으로 개선하는 방법을 제시합니다.

Zhenyu Tang, Chaoran Feng, Yufan Deng + 5 more2026-03-02💻 cs

Histopathology Image Normalization via Latent Manifold Compaction

이 논문은 염색 및 스캐너 기술적 변이로 인한 배치 효과를 해결하기 위해 단일 소스 데이터셋에서 학습된 잠재 매니폴드 압축을 통해 배치 불변 임베딩을 생성하는 비지도 표현 학습 프레임워크인 '잠재 매니폴드 압축 (LMC)'을 제안하며, 이를 통해 다양한 데이터셋 간 분류 및 검출 작업에서 기존 방법보다 우수한 일반화 성능을 입증했습니다.

Xiaolong Zhang, Jianwei Zhang, Selim Sevim + 3 more2026-03-02🤖 cs.LG

Mode Seeking meets Mean Seeking for Fast Long Video Generation

이 논문은 '모드 탐색 (Mode Seeking)'과 '평균 탐색 (Mean Seeking)'을 결합한 새로운 학습 패러다임을 제안하여, 제한된 장시간 데이터를 통한 서사적 일관성 학습과 짧은 영상 교사 모델로부터의 국소적 사실성 계승을 동시에 달성함으로써 고품질의 분 단위 긴 영상을 빠르게 생성하는 방법을 제시합니다.

Shengqu Cai, Weili Nie, Chao Liu + 8 more2026-03-02🤖 cs.LG