TRACE: Task-Adaptive Reasoning and Representation Learning for Universal Multimodal Retrieval

이 논문은 복잡한 쿼리에 대한 논리적 추론을 위해 생성적 추론과 판별적 표현 학습을 통합하고, 추론 과정을 압축하여 임베딩하는 TRACE 프레임워크와 이를 학습하기 위한 대규모 데이터셋 M-BEIR-CoT 를 제안함으로써 범용 멀티모달 검색의 새로운 최첨단 성능을 달성했다고 요약할 수 있습니다.

Xiangzhao Hao, Shijie Wang, Tianyu Yang + 3 more2026-03-05💻 cs

ProSMA-UNet: Decoder Conditioning for Proximal-Sparse Skip Feature Selection

이 논문은 저대비 의료 영상 분할에서 스킵 연결을 통한 잡음 전파 문제를 해결하기 위해 디코더 조건부 희소성 제약을 도입하여 노이즈가 있는 특징을 명시적으로 제거하는 'ProSMA-UNet'을 제안하고, 이를 통해 다양한 2D 및 3D 벤치마크에서 최첨단 성능을 달성함을 보여줍니다.

Chun-Wun Cheng, Yanqi Cheng, Peiyuan Jing + 4 more2026-03-05💻 cs

Deep Sketch-Based 3D Modeling: A Survey

이 논문은 10 년간 인공지능의 발전으로 등장한 딥 스케치 기반 3D 모델링 (DS-3DM) 의 최신 동향을 IMO 프레임워크를 기반으로 한 새로운 설계 공간 'MORPHEUS'를 통해 종합적으로 조사하고, 컴퓨터 비전·그래픽스·HCI 간 학제간 연구 기회와 사용자 의도에 부합하는 제어 가능성 및 정보 풍부한 출력의 필요성을 제시합니다.

Alberto Tono, Jiajun Wu, Gordon Wetzstein + 4 more2026-03-05💻 cs

mHC-HSI: Clustering-Guided Hyper-Connection Mamba for Hyperspectral Image Classification

이 논문은 DeepSeek 의 매니폴드 제약 하이퍼커넥션 (mHC) 프레임워크를 기반으로 클러스터링 가이드 Mamba 모듈, 해석 가능한 잔여 행렬 구현, 그리고 물리적으로 의미 있는 스펙트럼 그룹화를 통해 초분광 이미지 분류의 정확성과 해석 가능성을 동시에 향상시킨 mHC-HSI 모델을 제안합니다.

Yimin Zhu, Zack Dewis, Quinn Ledingham + 6 more2026-03-05💻 cs

Beyond Accuracy: Evaluating Visual Grounding In Multimodal Medical Reasoning

이 논문은 텍스트만 강화학습한 모델이 다중모달 의료 VQA 에서 정확도는 높일 수 있으나 시각적 근거를 무시하는 '단축기'를 활용한다는 사실을 반사적 평가 프레임워크를 통해 규명하고, 단순 정확도 지표가 아닌 시각 의존성을 측정하는 새로운 평가 프로토콜의 필요성을 강조합니다.

Anas Zafar, Leema Krishna Murali, Ashish Vashist2026-03-05💻 cs

Impact of Localization Errors on Label Quality for Online HD Map Construction

이 논문은 자율주행 차량의 온라인 HD 맵 구축 시 로컬라이제이션 오차 (위치 및 헤딩 각도) 가 생성된 맵 레이블의 품질과 모델 성능에 미치는 부정적 영향을 분석하고, 거리 기반 평가 지표를 제안하여 오차의 영향이 비선형적으로 증가하며 헤딩 각도 오차가 더 치명적임을 규명했습니다.

Alexander Blumberg, Jonas Merkert, Richard Fehler + 4 more2026-03-05💻 cs

Phys4D: Fine-Grained Physics-Consistent 4D Modeling from Video Diffusion

본 논문은 비디오 확산 모델에서 물리적으로 일관된 4D 세계 표현을 학습하기 위해 3 단계 훈련 패러다임 (대규모 의사지도 사전 학습, 시뮬레이션 기반 지도 미세 조정, 시뮬레이션 기반 강화 학습) 을 도입하고, 기존 외관 기반 모델보다 정교한 물리 일관성을 달성하는 'Phys4D'를 제안합니다.

Haoran Lu, Shang Wu, Jianshu Zhang + 9 more2026-03-05🤖 cs.AI

Geographically-Weighted Weakly Supervised Bayesian High-Resolution Transformer for 200m Resolution Pan-Arctic Sea Ice Concentration Mapping and Uncertainty Estimation using Sentinel-1, RCM, and AMSR2 Data

본 논문은 Sentinel-1, RCM, AMSR2 데이터를 융합하고 지리적 가중 약지도 학습 손실 함수와 베이지안 고해상도 트랜스포머를 도입하여 200m 해상도의 전 북극 해빙 농도 지도 작성 및 불확실성 정량화를 수행하는 새로운 접근법을 제시합니다.

Mabel Heffring, Lincoln Linlin Xu2026-03-05🤖 cs.LG

PhyPrompt: RL-based Prompt Refinement for Physically Plausible Text-to-Video Generation

이 논문은 물리 법칙 위반이 모델의 한계가 아닌 프롬프트의 부족에서 기인한다는 점을 규명하고, 강화 학습 기반의 'PhyPrompt'를 통해 자동화된 프롬프트 정제 과정을 도입하여 7B 파라미터 모델로도 대규모 일반 모델보다 뛰어난 물리적으로 타당한 텍스트-비디오 생성 성능을 달성했음을 제시합니다.

Shang Wu, Chenwei Xu, Zhuofan Xia + 6 more2026-03-05🤖 cs.AI

PinCLIP: Large-scale Foundational Multimodal Representation at Pinterest

이 논문은 Pinterest 의 추천 및 검색 성능을 향상시키기 위해 대규모 멀티모달 표현 학습 모델인 PinCLIP 을 제안하고, 이를 통해 오프라인 평가에서 기존 최첨단 모델 대비 20% 높은 성능과 온라인 A/B 테스트에서 신규 콘텐츠 및 광고의 참여율 증가 등 실질적인 비즈니스 성과를 입증했습니다.

Josh Beal, Eric Kim, Jinfeng Rao + 3 more2026-03-05💻 cs