RayD3D: Distilling Depth Knowledge Along the Ray for Robust Multi-View 3D Object Detection
本文提出了 RayD3D 方法,通过沿相机到物体真实位置的射线进行对比蒸馏和加权蒸馏,有效转移深度知识并抑制激光雷达中无关信息的干扰,从而在无需增加推理成本的情况下显著提升了多视角 3D 目标检测模型在多种数据损坏场景下的鲁棒性。
1994 篇论文
本文提出了 RayD3D 方法,通过沿相机到物体真实位置的射线进行对比蒸馏和加权蒸馏,有效转移深度知识并抑制激光雷达中无关信息的干扰,从而在无需增加推理成本的情况下显著提升了多视角 3D 目标检测模型在多种数据损坏场景下的鲁棒性。
本文提出了 DocCogito 框架,通过整合全局布局感知与基于区域的确定性视觉 - 语义链推理,并采用渐进式训练策略及细粒度置信度奖励机制,显著提升了多模态大语言模型在文档理解任务中的证据导向推理能力与泛化性能。
本文针对古汉字识别中非平稳的持续学习挑战,提出了 AMR-CCR 锚定模块化检索框架,通过共享多模态空间中的基于嵌入的字典匹配、脚本条件注入模块及多原型字典,实现了可扩展的增量学习与风格多样性建模,并构建了包含六个阶段的 EvoCON 基准数据集以支持系统评估。
该论文提出了一种结合可微骨架化模块与神经隐式场的骨骼潜在扩散框架,并构建了大规模 MedSDF 数据集,以解决医学解剖结构几何复杂与拓扑多变带来的生成挑战,实现了高效且高保真的医学形状生成。
本文通过利用 Tweedie 公式,精确揭示了漂移模型(Drifting)与基于分数的扩散模型之间的内在联系,证明了高斯核漂移等价于在平滑分布上进行分数匹配,并进一步推导了通用径向核的分解形式及拉普拉斯核在低温和高维情形下的误差界,从而为理解漂移模型与分布匹配蒸馏(DMD)提供了统一的理论视角。
本文提出了 EvolveReason 框架,通过构建人类审计式的思维链数据集、捕捉伪造潜在空间分布以及引入基于强化学习的自进化探索策略,有效解决了现有深度伪造人脸检测方法中缺乏可解释性、易产生幻觉及细节不足的问题,实现了兼具高精度识别与可靠细粒度解释的通用解决方案。
该论文提出了一种名为 SketchGraphNet 的混合图神经网络架构,通过结合局部消息传递与内存高效的全局注意力机制,在无需辅助编码的情况下直接处理大规模手绘草图图结构,并构建了包含 344 万样本的 SketchGraph 基准数据集,实现了高精度识别并显著降低了显存占用与训练时间。
本文提出了名为 ACCURATE 的三维重建框架,通过结合图像分割神经网络与几何约束拓扑遍历及动态规划算法,实现了对导丝、导管等任意形状细长连续体在双视图 X 射线成像下的高精度、抗遮挡重建,在模拟与真实数据集上的平均绝对误差均低于 1.0 毫米。
该论文提出了一种利用语义锚点(小车辆)和解耦立体投影模型从单目无人机图像中恢复绝对度量尺度的几何框架,通过物理约束实现尺度自适应的卫星图像裁剪,从而显著提升了跨视角地理定位在真实场景尺度未知情况下的鲁棒性。
该论文提出了一种名为 UniLongGen 的训练-free 推理策略,通过动态筛选并丢弃干扰性视觉信号来主动“遗忘”历史图像,从而解决统一多模态模型在生成长序列图文内容时因视觉信息累积污染而导致的质量崩溃问题。
本文提出了名为 CONSTANT 的基于扩散模型的单样本手写生成方法,通过引入风格感知量化、对比学习目标以及潜在空间补丁对比增强三大创新,有效解决了从单张参考图像中捕捉复杂手写风格特征并生成高质量、细节逼真手写图像的难题。
DreamSAC 提出了一种结合基于哈密顿量的对称性探索策略与自监督对比学习的框架,通过主动收集符合物理守恒律的数据并从中学习不变性,显著提升了世界模型在物理模拟中面对新物理属性时的外推泛化能力。
ReconDrive 提出了一种基于 VGGT 基础模型改进的快馈前向框架,通过混合高斯预测头和解耦静态动态 4D 组合策略,在 nuScenes 数据集上实现了兼具高保真度与实时性的自动驾驶场景 4D 高斯泼溅重建,有效解决了现有方法在可扩展性与图像质量之间的权衡难题。
该论文提出了一种基于主动推断的微手势识别框架,通过预期自由能量引导的时序采样和不确定性驱动的自适应学习,有效解决了微手势在低样本、噪声及跨主体场景下的识别难题。
PureCC 提出了一种基于解耦学习目标和双分支训练流程的纯学习方法,通过引入自适应引导尺度,在实现高保真文本到图像概念定制的同时,有效保留了原始模型的行为与能力。
本文提出了名为 Brain-WM 的脑胶质母细胞瘤世界模型,该模型通过创新的 Y 形混合 Transformer 架构和共享潜在空间,实现了治疗决策预测与未来 MRI 生成的联合建模,从而有效捕捉肿瘤演化与治疗响应之间的动态互馈关系,为临床治疗优化提供了鲁棒的模拟沙盒。
该论文提出了 SiamGM,一种专为卫星视频设计的实时单目标跟踪网络,它通过空间上的帧间图注意力与纵横比约束标签分配模块,以及时间上的运动矢量引导在线优化策略,有效解决了小目标、背景模糊及遮挡等挑战,在保持极低计算开销的同时实现了 130 FPS 的实时跟踪性能并显著提升了精度。
本文提出了一种名为 GRD-Net 的新型异常检测架构,该架构结合基于残差自编码器的生成对抗网络与区域兴趣(ROI)注意力模块,通过利用正常样本及合成缺陷数据进行训练,实现了无需复杂后处理算法即可精准定位工业表面缺陷(如药瓶铝盖)的异常检测。
该论文提出了一种基于多任务自适应学习和跨维度特征引导的高效 RGB-D 场景理解模型,通过增强融合编码器、归一化焦点通道层及非瓶颈 1D 结构等创新设计,在多个数据集上实现了优于现有方法的分割精度与处理速度。
该论文在 OpenOOD 标准协议下,系统比较了交叉熵、原型、三元组及平均精度四种训练目标在图像分类中的分布外检测性能,发现交叉熵损失在保持分布内精度的同时,能提供最为稳健的近域与远域分布外检测效果。