Revisiting Integration of Image and Metadata for DICOM Series Classification: Cross-Attention and Dictionary Learning

本文提出了一种端到端的多模态框架,通过结合模态感知编码、双向跨模态注意力机制以及基于可学习特征字典的稀疏缺失感知元数据编码器,有效解决了 DICOM 序列分类中图像内容异质性、序列长度可变及元数据缺失或不一致等挑战,并在多个数据集上展现出优于现有基线的性能与泛化能力。

Tuan Truong, Melanie Dohmen, Sara Lorio + 1 more2026-03-02⚡ eess

Open-Vocabulary Semantic Segmentation in Remote Sensing via Hierarchical Attention Masking and Model Composition

本文提出了无需训练的 ReSeg-CLIP 方法,通过利用 SAM 生成掩码构建分层注意力机制以优化 CLIP 的自交互,并结合基于文本提示评估权重的多模型参数融合策略,在无需额外训练的情况下实现了遥感图像开放词汇语义分割的领先性能。

Mohammadreza Heidarianbaei, Mareike Dorozynski, Hubert Kanyamahanga + 2 more2026-03-02💻 cs