Unsupervised Domain Adaptation with Target-Only Margin Disparity Discrepancy
该论文提出了一种基于改进的 Margin Disparity Discrepancy(MDD)的无监督域自适应框架,利用大量标注 CT 数据与未标注介入性 CBCT 数据,有效解决了介入放射学中肝脏分割任务因数据稀缺和模态差异带来的挑战,并实现了最先进的性能。
1863 篇论文
该论文提出了一种基于改进的 Margin Disparity Discrepancy(MDD)的无监督域自适应框架,利用大量标注 CT 数据与未标注介入性 CBCT 数据,有效解决了介入放射学中肝脏分割任务因数据稀缺和模态差异带来的挑战,并实现了最先进的性能。
该论文提出了名为 k-MTR 的 k 空间多任务表示学习框架,通过在大规模模拟数据上构建 k 空间与全采样图像的共享语义流形,实现了从欠采样 k 空间数据直接进行心脏 MRI 的连续表型回归、疾病分类和解剖分割,从而突破了传统“先重建后分析”范式的局限。
该论文提出了一种基于专家与非专家病理学家诊断分歧的“全切片难度”(WSD)概念,并通过多任务学习和加权分类损失两种方法将其融入前列腺癌 Gleason 分级任务中,实验结果表明该方法能显著提升不同特征编码器和多实例学习模型的性能,尤其改善了对高 Gleason 分级(即更严重病情)的分类效果。
该论文提出了 C2FMAE,一种通过语义、实例和像素三级粒度协同学习及渐进式掩码策略来解决自监督视觉预训练中全局语义与局部细节矛盾的新型分层掩码自编码器,并在大规模多粒度数据集上验证了其在多种视觉任务中的卓越性能。
本文提出了 BEACON 方法,通过结合多视角 RGB-D 观测与视觉语言模型,在包含遮挡区域的局部鸟瞰图空间中预测语言条件导航的可行度热力图,从而显著提升了机器人在遮挡场景下的目标定位精度。
ReCoSplat 提出了一种利用“渲染 - 比较”模块来补偿姿态误差的自回归前馈高斯泼溅模型,并结合混合 KV 缓存压缩策略,实现了在有无相机位姿及内参条件下对长序列视频的高效在线新视图合成。
该论文通过引入“词袋超叠加”(BOWS)实验环境,揭示了在真实数据中特征相关性可使干扰变为建设性,从而促使模型将特征按共激活模式排列以形成语义聚类和循环结构,弥补了传统超叠加理论仅关注稀疏无相关特征的不足。
该论文提出了名为“可微显微镜”()的自上而下设计框架,通过数据驱动方法成功优化了全光学相位检索系统,并在多个数据集及实验验证中证明了其优于现有方法的性能。
该论文针对混合目标域适应中类别分布偏移和伪标签生成困难的问题,提出了一种通过不确定性引导的类别判别器显式对齐 并利用低层特征增强以校正 的互条件对齐机制,从而在不依赖域标签的情况下显著提升了模型性能。
本文介绍了 altiro3D,这是一个开源扩展库,它利用单张 RGB 图像或平面视频,结合 MiDaS 深度估计、OpenCV 与 Telea 图像修复技术以及快速投影算法,生成多视角光场图像或视频,从而实现逼真的 3D 自由视角体验。
本文提出了包含 15 类物体及多种异常模式的 PD-REAL 大规模 RGB-D 异常检测数据集,并引入了一种利用多尺度教师 - 学生框架与分层蒸馏技术的多模态异常检测方法,有效克服了单尺度方法的局限并显著提升了检测精度。
该论文针对相机变化导致 Jaccard 距离在行人重识别中可靠性下降的问题,提出了一种利用相机信息构建相机感知 k-互逆近邻(CKRNNs)和相机感知局部查询扩展(CLQE)的 CA-Jaccard 距离方法,从而显著提升了邻居样本的可靠性与重识别性能。
本文提出了一种名为 DivCon 的“分而治之”方法,通过将布局预测分解为推理与规划、将图像生成按难易程度分步合成,有效解决了现有文生图模型在复杂数值与空间关系下的可扩展性难题,并在 HRS 和 NSR-1K 基准测试中显著提升了多物体生成的质量与准确性。
本文全面综述了深度伪造生成与检测领域的最新进展,统一了任务定义、数据集与评估指标,系统分析了换脸、表情重演、说话人脸生成、面部属性编辑及伪造检测等四个代表性方向,并通过基准测试评估了主流方法,最后探讨了该领域面临的挑战与未来研究方向。
该论文指出当前人脸识别测试集存在瓶颈,并提出了三个高质量、无需人工降质的挑战性测试集(Hadrian、Eclipse 和 ND-Twins),旨在通过考察属性差异、相似面孔及严格的“金发姑娘”平衡规则,揭示现有算法在识别具有显著属性差异的同一身份、属性相似的不同身份以及相似面孔(如双胞胎)时的弱点。
该论文揭示了扩散模型在少样本微调过程中存在的“腐蚀阶段”现象,并通过引入贝叶斯神经网络扩展学习分布,有效缓解了该问题并提升了生成图像的质量与多样性。
本文提出了一种名为 RDM 的循环扩散模型,它利用归一化流显式地以前序噪声帧为条件来生成人体运动,从而在避免完全去噪开销的同时实现了长序列生成并显著降低了推理成本。
该论文提出了一种名为 PiVOT 的新型视觉提示机制,通过利用预训练基础模型(CLIP)在线自动生成并优化视觉提示,引导跟踪器生成实例感知特征图以有效抑制干扰物,从而提升通用目标跟踪的性能。
本文提出了一种名为 Pose Prior Learner (PPL) 的无监督方法,通过分层记忆学习物体类别的通用姿态先验,从而在无需人工标注的情况下显著提升了包括遮挡场景在内的人体及动物姿态估计精度。
本文提出了 ExpGest 框架,这是一种基于扩散模型的首创性全肢体手势生成方法,通过融合音频与文本信息、引入噪声情感分类器及潜在空间对齐技术,有效解决了现有方法在情感表达、语义一致性和全身运动自然度方面的不足,实现了更具表现力和可控性的演讲者动作生成。