ProFound: A moderate-sized vision foundation model for multi-task prostate imaging
本文提出了 ProFound,一种基于 5000 名患者超 22000 个 3D 多参数 MRI 体积数据自监督预训练的中规模前列腺专用视觉基础模型,其在癌症检测、分级、定位及分割等 11 项下游临床任务上的表现均优于或媲美现有的专用模型及医学视觉基础模型。
3927 篇论文
本文提出了 ProFound,一种基于 5000 名患者超 22000 个 3D 多参数 MRI 体积数据自监督预训练的中规模前列腺专用视觉基础模型,其在癌症检测、分级、定位及分割等 11 项下游临床任务上的表现均优于或媲美现有的专用模型及医学视觉基础模型。
本文介绍了开源项目 BLOCK,这是一个利用大语言模型生成 3D 预览图并结合微调 FLUX.2 模型进行解码的双阶段管道,通过创新的 EvolveLoRA 渐进式训练策略,实现了从任意角色概念到像素级 Minecraft 皮肤的高效、稳定生成。
本文提出了 UniRain 统一图像去雨框架,通过基于检索增强生成(RAG)的数据集蒸馏技术筛选高质量训练样本,并结合非对称混合专家架构中的多目标重加权优化策略,实现了在复杂真实场景下对雨纹和雨滴等多种退化类型的高效泛化与鲁棒恢复。
本文提出了一种利用视觉基础模型进行自监督预训练的新方法,通过引入结构感知蒸馏损失来解决图像与事件流之间的语义失配问题,从而在无需大量标注的情况下实现了大规模、高密度的事件流表征学习,并显著提升了下游任务的性能。
本文提出了 Dual-Solver,一种通过可学习参数灵活调整预测类型、积分域及残差项的通用 ODE 求解器,旨在利用分类目标在低函数评估次数(NFE)下显著提升扩散模型的采样质量。
本文介绍了 Phi-4-reasoning-vision-15B 这一紧凑型开源多模态推理模型,通过展示其在架构设计、严格数据筛选与合成增强等方面的创新,证明了高质量数据与高效架构能使小模型在科学推理、数学理解及界面识别等任务上实现媲美大模型的卓越性能。
本文提出了 GeoSeg,这是一个无需训练且基于推理的遥感图像分割框架,它通过偏差感知坐标修正和双路线提示机制,有效解决了遥感领域缺乏通用推理分割方案及监督数据稀缺的难题,并配套发布了 GeoSeg-Bench 基准测试集。
本文提出了名为 RIVER 的实时视频交互基准,通过引入回顾记忆、实时感知和主动预测任务来填补现有视频大模型在实时交互方面的空白,并针对长时记忆与未来感知等缺陷提出了通用改进方案。
本文提出了一种基于面孔错觉(pareidolia)的表征级诊断框架,通过评估六类视觉模型在模糊视觉证据下的检测、定位、不确定性与偏差表现,揭示了不同模型架构(如视觉语言模型、纯视觉分类器及检测器)在歧义情境下截然不同的解释机制,表明模型在模糊条件下的行为主要受表征选择而非阈值控制,且低不确定性既可能源于安全抑制也可能源于过度解读。
本文提出了一种名为 SAFE 的两阶段框架,通过结合弱监督、对比学习和基于特征空间的集成推理,在部分临床监督下自动扩展稀疏的糖尿病视网膜病变病灶标注,从而显著提升了下游分类任务的诊断性能。
该论文提出了 DPAD 方法,通过强制模型生成描述性标题并利用其与上下文的语义对比来引入判别性感知,从而解决现有推理分割中推理链冗长且偏离目标的问题,显著提升了定位精度并缩短了推理长度。
本文提出了一种结合基于诊断多样性的数据采样策略与诊断令牌加权策略优化(DiTPO)的新框架,通过优先优化临床关键信息并提升数据质量,在显著减少训练样本需求的同时实现了放射学报告生成的最先进性能。
本文提出了一种名为体积定向扩散(VDD)的新方法,通过将生成轨迹锚定在确定性解剖共识先验上并仅预测 3D 边界残差场,有效解决了医学图像分割中多样性与保真度的权衡难题,从而在保持高精度分割的同时显著提升了不确定性量化能力并生成了符合解剖结构的置信度图。
本文提出了 DQE-CIR 方法,通过引入可学习属性权重以强化文本引导的视觉特征对齐,并结合目标相对负采样策略从“中间地带”筛选高信息量负样本,从而有效解决现有组合图像检索方法中的相关性抑制与语义混淆问题,显著提升了细粒度属性修改场景下的查询判别力与检索精度。
本文针对动态海底环境中长期视觉定位研究缺乏基准数据集和精确真值的问题,首次发布了涵盖多站点及长达六年跨度的海底数据集,提出了一种基于图像足迹的三维真值构建方法,并据此对八种先进视觉位置识别算法进行了基准测试,揭示了现有方法在该场景下的性能局限及传统距离阈值评估法的不足。
本文针对多编码器扩散模型(如 Stable Diffusion 3)中尚未被充分研究的后门攻击问题,提出了 MELT 方法,通过仅微调少于 0.2% 的参数(低秩适配器)并冻结预训练权重,成功实现了高效且有效的轻量级后门攻击。
该研究通过系统评估发现,在细胞级(40x40 像素)小图块病理图像分析中,当训练数据规模充足时,针对小图块优化的任务特定架构(如 CustomViT)在准确性和效率上均优于基础模型,且基础模型并未展现出更强的模糊鲁棒性。
本文提出了 EgoPoseFormer v2,一种结合 Transformer 架构与不确定性感知半监督自动标注系统的 egocentric 人体运动估计方法,通过利用大规模未标注数据及多视图时空优化,显著提升了 AR/VR 场景下的姿态估计精度、时序稳定性及泛化能力。
该论文提出了一种基于 CLIP 嵌入的级别感知多任务回归框架,通过聚合多视角图像并引入文本先验,在 GroMo25 基准测试中显著提升了植物年龄和叶片数量预测的精度与鲁棒性,同时简化了传统双模型流程。
该论文提出了一种利用眼动追踪数据中注视点(代表视觉稳定性)和瞳孔反应(代表新颖性)的双重标准框架,在无需模型推理的情况下高效筛选第一人称视频帧,从而在显著降低存储与能耗的同时保持甚至提升下游任务性能。