Topologically Stable Hough Transform
该论文提出了一种基于持续同态的拓扑稳定霍夫变换新框架,通过用连续评分函数替代传统的离散投票机制,从点云中高效检测出候选直线。
2152 篇论文
该论文提出了一种基于持续同态的拓扑稳定霍夫变换新框架,通过用连续评分函数替代传统的离散投票机制,从点云中高效检测出候选直线。
本文提出了 DynamicVGGT,一种将 VGGT 从静态 3D 感知扩展至动态 4D 重建的统一前馈框架,通过联合预测点云、引入运动感知时序注意力机制及动态 3D 高斯泼溅头,实现了自动驾驶场景下鲁棒且高精度的动态场景重建。
该论文提出了一种名为 WaDi 的权重方向感知蒸馏框架,通过引入基于低秩旋转矩阵的 LoRaD 适配器来捕捉并建模蒸馏过程中显著的权重方向变化,从而仅用约 10% 的可训练参数就实现了在 COCO 数据集上达到最先进 FID 分数且具备强泛化能力的一步图像合成。
该论文提出了一种无需学习的基于事件相机的 6D 物体位姿跟踪方法,通过融合事件流光流进行位姿传播与模板局部校正策略,在高速动态场景下实现了媲美甚至超越现有最先进算法的性能。
该论文提出了一种原型引导的概念擦除方法,通过利用扩散模型的内蕴嵌入几何结构聚类生成概念原型,并将其作为负向条件信号,从而在保持图像质量的同时实现了对“性”或“暴力”等宽泛概念更可靠、精准的擦除。
本文提出了 OSCAR 方法,通过利用联合建模空间占据与声学交互的神经隐式表示,在无需解剖标签的情况下,从部分超声观测中准确重建被遮挡的脊椎三维解剖结构,显著提升了脊柱微创手术引导中的形状补全性能。
该论文提出了 SP-CLIP 框架,通过利用描述意图、运动和物体交互等多层级抽象的结构化语义提示,在不修改视觉编码器或增加可学习参数的情况下,显著提升了预训练视觉 - 语言模型在零样本动作识别任务中的性能。
该论文提出了一种检索增强方法,通过利用 3D 视觉 - 语言编码器从放射学报告中检索相关临床案例并提取其解剖结构作为代理,将其注入文本条件的潜在扩散模型中,从而在保持语义灵活性的同时显著提升了文本生成 CT 图像的空间可控性与解剖一致性。
该论文提出了一种概念引导的微调框架,通过利用大语言模型和视觉语言模型自动生成空间定位的概念掩码,引导视觉 Transformer 关注语义特征并抑制虚假背景相关性,从而在无需人工标注的情况下显著提升了模型在分布外场景下的鲁棒性。
本文提出了 HDR-NSFF,一种将动态场景重建从传统 2D 像素对齐范式转变为 4D 时空建模的新方法,通过联合优化 HDR 辐射场、3D 场景流、几何结构及色调映射,并利用 DINO 特征与生成先验增强鲁棒性,实现了在单目交替曝光视频下的高质量动态 HDR 场景流场重建与新颖时空视图合成。
本文提出了名为 SlowBA 的新型后门攻击,通过两阶段奖励级注入策略诱导基于视觉语言模型(VLM)的 GUI 代理在特定触发条件下生成冗长的推理链,从而在保持任务准确性的同时显著增加响应延迟,揭示了此类代理在响应效率方面被忽视的安全漏洞。
本文通过大规模人机对比研究,利用最小可识别裁剪(MIRCs)和 Epic ReduAct 数据集,揭示了人类在 egocentric 动作识别中依赖关键语义线索(如手 - 物交互)且对空间缩减敏感,而 AI 模型则更依赖上下文及中低级特征、对时空扰动表现出不同鲁棒性的根本差异。
该论文提出了一种无需额外标签的通用框架来评估多重实例学习(MIL)热图的质量,并通过大规模基准测试发现扰动法、层相关传播(LRP)和积分梯度(IG)等方法优于传统的注意力热图,从而验证了改进的可解释性对于提升数字病理模型可靠性及获取生物学洞察的重要性。
本文提出了 SOT-GLP 方法,通过共享稀疏补丁支持和平衡最优传输分配,在少样本视觉语言模型适应中实现了全局与局部提示的协同学习,从而在提升分类精度的同时,通过保留原生特征几何结构显著增强了分布外检测性能。
本文提出了VLA 框架,通过构建先验引导的世界知识提取器(PWKE)、基于 VQ-VAE 的潜在世界变化量化(LWVQ)以及条件变化注意力机制(CV-Atten),将动作生成从预测绝对未来状态转变为建模相对于当前先验的世界知识变化,从而在提升机器人操作性能的同时增强了效率。
本文提出了名为 UniDiffDA 的统一分析框架,将基于扩散模型的数据增强方法解构为模型微调、样本生成和样本利用三个核心组件,并在此基础上建立了公平的综合评估协议,通过大规模实验系统分析了不同策略在低数据分类任务中的优劣与适用性。
该论文提出了自适应流形原型(AMP)框架,通过在施蒂费尔流形上利用黎曼优化将类原型表示为正交基,从构造上抑制了神经坍缩导致的原型退化问题,从而在细粒度分类任务中同时实现了高精度与高可解释性。
该研究利用基于整流流的生成模型,结合术前 MRI 和放疗剂量图,实现了 glioma 患者放疗后脑部 MRI 的实时、高保真预测,为自适应治疗规划提供了支持。
该论文提出了一种名为 DDHF 的新颖方法,利用非均匀离散傅里叶变换(NDFT)对事件相机数据进行逐像素频域分析,通过识别无人机旋翼的谐波指纹实现比 YOLO 检测器更精准、低延迟的实时无人机定位。
本文提出了 AULLM++ 框架,通过利用大语言模型进行结构化推理,结合多粒度证据融合、关系感知图神经网络及反事实一致性正则化,有效解决了微表情动作单元检测中视觉信息依赖性强、特征粒度粗糙及动作单元间关联缺失的问题,从而在标准基准和跨域泛化上实现了最先进的性能。