FunnyNodules: A Customizable Medical Dataset Tailored for Evaluating Explainable AI
本文介绍了 FunnyNodules,这是一个完全参数化的合成医学图像数据集,通过生成具有可控视觉属性的抽象肺结节形状及明确的决策规则,旨在填补缺乏诊断推理标注的空白,从而为评估和开发能够像放射科医生一样基于正确理由进行推理的可解释人工智能(xAI)模型提供灵活且全面的基准。
2176 篇论文
本文介绍了 FunnyNodules,这是一个完全参数化的合成医学图像数据集,通过生成具有可控视觉属性的抽象肺结节形状及明确的决策规则,旨在填补缺乏诊断推理标注的空白,从而为评估和开发能够像放射科医生一样基于正确理由进行推理的可解释人工智能(xAI)模型提供灵活且全面的基准。
该论文提出了 FireScope 框架及 FireScope-Bench 基准,通过结合视觉监督与强化学习的思维链推理机制,实现了跨大陆的高分辨率野火风险预测,显著提升了模型的泛化能力与可解释性。
该论文提出了 VeilGen 生成模型与 DeVeiler 恢复网络,通过无监督学习潜在透射与眩光图来模拟并去除简化光学系统中的镜头光幕眩光,从而在无需配对数据的情况下实现了高质量的图像复原。
本文提出了一种受 Mamba 架构启发的统一注意力-Mamba(UAM)骨干网络,通过灵活融合注意力与 Mamba 模块消除了手动比例调优的需求,并构建了多模态框架,在肿瘤细胞分类和图像分割任务上均实现了超越现有基础模型的最先进性能。
该论文提出了名为 EgoCogNav 的多模态第一人称导航框架,通过引入感知路径不确定性作为潜在状态来融合场景特征与感官线索,并发布了包含真实世界导航行为的 CEN 数据集,从而实现了对人类扫描、犹豫及回溯等认知行为的高度拟真预测。
本文提出了 SyncMV4D,这是首个通过多视角联合扩散模型与扩散点对齐器,将视觉先验、运动动力学和多视角几何统一起来,从而同步生成多视角手物交互视频与高保真 4D 运动轨迹的模型,有效解决了现有方法在几何失真、运动不真实及泛化能力方面的局限。
本文提出了一种无需训练的“可逆反演”(ReInversion)方法,通过两阶段去噪和掩码引导的选择性去噪策略,在显著降低计算成本的同时实现了基于视觉参考的图像编辑的卓越性能。
该论文提出了一种利用皮下脂肪和肌肉掩膜增强基于强度的图割配准的性别分层方法,显著提升了 UK Biobank 全身体 MRI 图像在 4000 名受试者中的配准精度,并优化了年龄与组织特征的相关性分析。
本文提出了名为 UniTS 的统一时空生成模型,该模型基于流匹配范式,通过自适应条件注入器和时空感知调制器,将遥感领域的时间序列重建、去云、语义变化检测及预测等多个核心任务整合到一个通用框架中,并在各种复杂条件下显著超越了现有的专用模型。
该论文提出了一种基于点云框架的事件驱动人体姿态估计方法,通过设计事件时间切片卷积与序列模块以及边缘增强表示,有效利用事件流的时空特性,在保持计算效率的同时显著提升了在稀疏事件条件下的姿态估计精度。
本文提出了 DFIR-DETR,一种通过动态内容特征聚合(DCFA)、动态特征金字塔网络(DFPN)和频域迭代细化模块(FIRC3)来分别解决注意力分配不均、上采样细节丢失及高频边缘平滑问题的 Transformer 检测器,在 NEU-DET 和 VisDrone 数据集上以轻量级架构实现了显著的小目标检测性能提升。
本文提出了 Fast-BEV++ 框架,通过采用面向硬件的索引 - 收集 - 重塑流水线架构及可学习深度模块,在消除自定义算子依赖的同时实现了 3 倍以上的推理加速,从而在 nuScenes 基准测试中达到 0.488 NDS 的 SOTA 精度并支持超过 134 FPS 的实时部署。
该论文针对现有基于子集选择的视觉解释方法在分布外(OOD)场景下可靠性下降的问题,提出了一种结合子模优化与不确定性估计的无训练框架,通过自适应权重扰动引导子集选择,显著提升了模型在分布偏移下的鲁棒性与解释忠实度。
Photo3D 提出了一种利用 GPT-4o 生成图像并经由结构对齐多视图合成与细节增强方案构建高质量数据集的框架,旨在解决真实世界 3D 资产稀缺难题,从而显著提升各类原生 3D 生成模型的几何结构与纹理细节的逼真度。
该论文提出了一种高度模块化的神经图像信号处理(ISP)框架,通过完全基于学习的方法实现了对渲染过程中间阶段的灵活控制,从而在提升渲染精度、可扩展性及风格适配能力的同时,支持了可无限次重渲染的交互式照片编辑工具。
本文提出了一种针对 CT 影像的新型基于补丁的拓扑数据分析(TDA)方法,通过构建持久同调特征,在分类性能(如准确率、AUC 等指标平均提升 2.7% 至 8.0%)和计算效率上均显著优于传统的 3D 立方复形算法及放射组学特征,并发布了配套的 Python 工具包 Patch-TDA。
该论文提出了 VTP 统一预训练框架,通过联合优化图像 - 文本对比、自监督和重建损失,解决了视觉 Tokenizer 预训练中的扩展性难题,证明了高语义理解能力是提升生成质量的关键,并实现了生成性能随计算资源有效扩展的突破。
该论文通过深入分析并改进交叉注意力机制,证明了其在视觉语言模型中不仅能实现与直接插入图像令牌相当的性能,还能显著降低长序列多图像对话及实时视频处理中的显存与计算开销。
该论文提出了一种轻量级视频历史编码器,通过预训练帧查询目标实现长视频历史的高效压缩,并在微调阶段适配自回归生成任务,从而在有限计算资源下实现了与重型模型相当的内容一致性表现。
本文提出了名为 Spatial4D-Bench 的大规模、多样化 4D 空间智能基准,旨在通过涵盖 18 种任务和 6 个认知类别的约 4 万组问答对,全面评估多模态大语言模型在 4D 空间推理方面的能力并揭示其当前局限性。