Beyond Prompt Degradation: Prototype-guided Dual-pool Prompting for Incremental Object Detection
该论文提出了一种名为 PDP 的提示解耦框架,通过设计包含共享池与私有池的双池提示解耦范式以缓解提示耦合,并引入原型伪标签生成模块以抑制提示漂移,从而在无需回放的情况下显著提升了增量目标检测的性能。
6614 篇论文
该论文提出了一种名为 PDP 的提示解耦框架,通过设计包含共享池与私有池的双池提示解耦范式以缓解提示耦合,并引入原型伪标签生成模块以抑制提示漂移,从而在无需回放的情况下显著提升了增量目标检测的性能。
本文提出了 AutoFFS 框架,利用针对预训练性别分类器的对抗性自由形态变形技术,自动生成具有目标性别特征的颅骨形态,从而为面部女性化手术提供量化且可重复的术前规划指导。
本文针对长尾分布的多标签胸部 X 光分类挑战,在 CXR-LT 2026 基准上系统评估了损失函数、骨干架构及后训练策略,发现 LDAM-DRW 损失与 ConvNeXt-Large 架构结合能显著提升稀有类别识别性能,最终在 68 支参赛队伍中排名第 5。
本文提出了 HAMMER 框架,通过利用多模态大语言模型(MLLM)将图像中的交互意图聚合为接触感知嵌入,并结合分层跨模态融合与多粒度几何提升模块,实现了无需显式属性描述或现成 2D 分割器的意图驱动 3D affordance 定位。
该论文揭示了流匹配与基于分数的扩散模型中中间分布协方差矩阵的病态条件会导致优化偏向高方差方向并陷入次优停滞,进而提出了一种可逆的预条件映射方法,通过改善分布几何结构来消除优化停滞,从而在多个数据集上训练出更优的生成模型。
本文提出了 MERG3R,一种无需训练的“分而治之”框架,通过图像重排序、分区重建及高效全局对齐,使现有的神经视觉几何模型能够突破显存限制,在大规模无序图像集上实现高质量的三维重建。
本文针对现有视频片段检索方法在从描述性查询迁移至搜索性查询时性能下降的问题,揭示了语言不精确性和多片段查询带来的泛化挑战,并通过识别及缓解解码器查询坍缩现象,提出了一种架构改进方案,显著提升了模型在搜索查询及多片段场景下的检索性能。
该论文提出了一种针对膝关节 MRI 的患者特异性放射组特征集检索框架,通过两阶段策略从大规模特征池中筛选出互补且多样化的紧凑特征子集,在保持模型高透明度和可解释性的同时,实现了超越传统边际排名方法并媲美端到端深度学习模型的诊断性能。
该论文针对现有大型视觉语言模型在宗教、国籍和社会经济地位等文化偏见方面研究不足的问题,提出并构建了一个包含近 6 万张合成图像的高质量“文化反事实”数据集,通过将不同人群置于真实文化语境中来精确量化模型的文化偏见。
该论文提出了一种基于 SMPL 公式和新型 KTPolyRigid 变换的可微分体积人体模型,通过解决大尺度关节运动中的李代数歧义问题,实现了胎儿 MRI 图像中无折叠伪影的形变场生成,从而支持稳健的组间配准和高效的胎儿器官分割。
本文揭示了 C2PA 内容溯源与隐形水印两大验证层因缺乏互验而产生的“完整性冲突”漏洞,即同一图像可同时通过人类创作与 AI 生成的双重认证,并提出了通过联合评估元数据与水印状态的跨层审计协议以彻底解决该问题。
本文介绍了 TorchGeo 这一基于 PyTorch 的地球观测机器学习库,并通过代码示例和基于 Sentinel-2 影像的水体分割端到端案例,展示了如何利用该库处理地理空间数据、训练语义分割模型并将预测结果保存为 GeoTIFF 格式。
OpenMarcie 是迄今为止规模最大的面向工业制造环境的多模态动作识别数据集,包含来自 36 名参与者在自行车与 3D 打印机组装任务中采集的超过 37 小时多视角、多模态数据,并针对活动分类、开放词汇描述及跨模态对齐等任务进行了基准测试。
本文提出了量化感知数据集蒸馏(QuADD)框架,通过在固定比特预算下联合优化合成样本数量与量化精度,实现了比现有方法更高效的信息压缩与训练性能。
该论文针对现有数据集缺乏长距离感知能力的不足,推出了专为重型卡车高速自动驾驶设计的"TruckDrive"多模态数据集,并通过实验揭示了当前最先进模型在超过 150 米范围时感知性能显著下降的系统性缺陷。
本文提出了 MIRAGE 框架,通过利用生物医学知识图谱引导跨队列的潜在特征蒸馏,并结合冻结的 3D U-Net 作为结构正则化约束,成功实现了仅基于电子健康记录预测阿尔茨海默病,从而在无需昂贵 MRI 扫描的情况下显著提升了诊断准确率。
ORCA 提出了一种基于多智能体协作的文档视觉问答新框架,通过推理分解、路由调度专用智能体、辩论与裁决机制以及一致性检查,显著提升了复杂文档推理任务的性能。
本文提出了一种基于迁移学习的深度学习框架,通过利用通用野火预训练模型并针对马来西亚泥炭地火灾数据进行微调,有效克服了泥炭火隐蔽性强和数据稀缺的挑战,显著提升了复杂环境下的检测精度与鲁棒性。
该论文提出了名为 STW 的大规模开源数据集(基于 10 阶 MST 肤色标准标注),通过对比传统计算机视觉与深度学习方法的性能,并开发了基于 ViT 的 SkinToneNet 模型,实现了在野外观测条件下的高精度肤色分类与公平性评估。
本文提出了一种名为 E2E-GNet 的端到端几何深度学习网络,通过引入几何变换层和失真感知优化层,在保持判别性几何特征的同时有效降低了骨架动作识别的失真与计算成本,并在多个数据集上取得了优于现有方法的性能。