ICHOR: A Robust Representation Learning Approach for ASL CBF Maps with Self-Supervised Masked Autoencoders

本文提出了名为 ICHOR 的自监督预训练方法,利用基于 3D 掩码自编码器的视觉 Transformer 在大规模多中心 ASL CBF 数据集上进行训练,显著提升了在多种下游诊断分类及图像质量预测任务中的表现,有效克服了 ASL 成像中数据标注稀缺和跨站点差异带来的挑战。

Xavier Beltran-Urbano, Yiran Li, Xinglin Zeng + 10 more2026-03-06🔬 physics

Wiki-R1: Incentivizing Multimodal Reasoning for Knowledge-based VQA via Data and Sampling Curriculum

本文提出了 Wiki-R1,一种基于数据生成和课程采样的强化学习框架,通过构建与模型能力演进对齐的训练分布及可控的数据生成策略,有效弥合了预训练多模态大模型与知识型视觉问答任务之间的分布差距,并在 Encyclopedic VQA 和 InfoSeek 基准测试中取得了新的最先进性能。

Shan Ning, Longtian Qiu, Xuming He2026-03-06💻 cs