HARP: HARmonizing in-vivo diffusion MRI using Phantom-only training

이 논문은 다중 사이트 간 in-vivo 인간 대상자 데이터 수집 없이도 이동 가능한 팬텀만으로 학습된 딥러닝 기반 HARP 프레임워크를 통해 확산 MRI 데이터의 기기 간 변이성을 효과적으로 조화시키고 대규모 임상 연구의 실용성을 높인다는 점을 제시합니다.

Hwihun Jeong, Qiang Liu, Kathryn E. Keenan, Elisabeth A. Wilde, Walter Schneider, Sudhir Pathak, Anthony Zuccolotto, Lauren J. O'Donnell, Lipeng Ning, Yogesh Rathi2026-03-10💻 cs

Thinking with Gaze: Sequential Eye-Tracking as Visual Reasoning Supervision for Medical VLMs

이 논문은 안구 추적 데이터를 시각적 추론을 위한 지도 신호로 활용하여 의료용 시각 - 언어 모델이 방사선 전문의와 유사한 순차적 증거 수집 방식을 학습하도록 함으로써 진단 성능과 외부 도메인 견고성을 향상시키는 방법을 제안합니다.

Yiwei Li, Zihao Wu, Yanjun Lv, Hanqi Jiang, Weihang You, Zhengliang Liu, Dajiang Zhu, Xiang Li, Quanzheng Li, Tianming Liu, Lin Zhao2026-03-10💻 cs

Multi-label Instance-level Generalised Visual Grounding in Agriculture

이 논문은 정밀 농업 분야에서 언어로 표현된 작물 및 잡초 인스턴스를 국소화하는 새로운 벤치마크 데이터셋인 gRef-CW 와 이를 해결하기 위한 Weed-VG 프레임워크를 제안하여, 기존 시각적 grounding 모델의 한계를 극복하고 농업용 다중 레이블 인스턴스 수준의 일반화된 시각적 grounding 을 가능하게 합니다.

Mohammadreza Haghighat, Alzayat Saleh, Mostafa Rahimi Azghadi2026-03-10💻 cs

SIQA: Toward Reliable Scientific Image Quality Assessment

이 논문은 기존 이미지 품질 평가의 한계를 극복하기 위해 과학적 타당성과 완전성, 인지적 명확성 및 학문적 적합성을 포함하는 새로운 '과학적 이미지 품질 평가 (SIQA)' 프레임워크와 벤치마크를 제안하며, 멀티모달 대규모 언어 모델이 전문가 평가 점수에는 부합하지만 과학적 내용 이해에는 미흡함을 보여줍니다.

Wenzhe Li, Liang Chen, Junying Wang, Yijing Guo, Ye Shen, Farong Wen, Chunyi Li, Zicheng Zhang, Guangtao Zhai2026-03-10💻 cs

On the Generalization Capacities of MLLMs for Spatial Intelligence

이 논문은 RGB 입력만 사용하는 멀티모달 대규모 언어 모델 (MLLM) 의 공간 지능 일반화 한계를 지적하고, 카메라 파라미터를 명시적으로 인식하고 증강하는 '카메라 인식 MLLM' 프레임워크를 제안하여 교차 카메라 환경에서의 공간 추론 성능을 획기적으로 향상시켰음을 보여줍니다.

Gongjie Zhang, Wenhao Li, Quanhao Qian, Jiuniu Wang, Deli Zhao, Shijian Lu, Ran Xu2026-03-10🤖 cs.LG

UWPD: A General Paradigm for Invisible Watermark Detection Agnostic to Embedding Algorithms

이 논문은 특정 알고리즘에 대한 사전 지식 없이도 이미지 내의 보이지 않는 워터마크 존재 여부를 탐지하는 새로운 과제인 범용 워터마크 존재 탐지 (UWPD) 를 제안하고, UniFreq-100K 데이터셋과 적응형 주파수 감지 모듈을 활용한 FSNet 모델을 통해 기존 방법보다 우수한 제로샷 탐지 성능을 입증했습니다.

Xiang Ao, Yiling Du, Zidan Wang, Mengru Chen2026-03-10💻 cs

HERO: Hierarchical Embedding-Refinement for Open-Vocabulary Temporal Sentence Grounding in Videos

이 논문은 기존 폐쇄적 어휘 설정의 한계를 극복하기 위해 오픈 어휘 비디오 문장 타이밍 그라운딩 (OV-TSGV) 태스크와 새로운 벤치마크를 제안하고, 계층적 임베딩 정제 및 다중 모달 정렬을 통해 뛰어난 일반화 성능을 보이는 HERO 프레임워크를 소개합니다.

Tingting Han, Xinsong Tao, Yufei Yin, Min Tan, Sicheng Zhao, Zhou Yu2026-03-10💻 cs

Heterogeneous Decentralized Diffusion Models

이 논문은 서로 다른 학습 목표 (DDPM 및 Flow Matching) 를 가진 전문가들을 동기화 없이 통합하고, 사전 학습된 체크포인트 변환과 효율적인 아키텍처를 통해 기존 분산 확산 모델 대비 연산 및 데이터 요구량을 획기적으로 줄이면서도 더 우수한 생성 품질을 달성하는 이질적 분산 확산 모델 프레임워크를 제안합니다.

Zhiying Jiang, Raihan Seraj, Marcos Villagra, Bidhan Roy2026-03-10🤖 cs.LG

XMACNet: An Explainable Lightweight Attention based CNN with Multi Modal Fusion for Chili Disease Classification

이 논문은 가시광선 이미지와 식생 지수를 융합하고 자기 주의 메커니즘을 도입한 경량 CNN 인 XMACNet 을 제안하여, 생성된 데이터로 학습된 칠리 잎 질병 분류의 정확도를 높이고 Grad-CAM++ 와 SHAP 을 통해 모델의 판단 근거를 설명 가능하게 만들었음을 소개합니다.

Tapon Kumer Ray, Rajkumar Y, Shalini R, Srigayathri K, Jayashree S, Lokeswari P2026-03-10💻 cs

Active View Selection with Perturbed Gaussian Ensemble for Tomographic Reconstruction

이 논문은 X 선 투과 이미징의 고유한 기하학적 모호성과 물리적 감쇠 특성을 고려하여, 불확실성 모델링과 순차적 의사결정을 통합한 'Perturbed Gaussian Ensemble' 프레임워크를 제안함으로써 희소 뷰 CT 재구성 시 가장 유익한 다음 뷰를 선택하여 재구성 정확도를 향상시키는 방법을 제시합니다.

Yulun Wu, Ruyi Zha, Wei Cao, Yingying Li, Yuanhao Cai, Yaoyao Liu2026-03-10💻 cs