An Extended Topological Model For High-Contrast Optical Flow
本文提出了一种扩展的拓扑模型,利用近似和离散圆丛理论识别出由运动边界附近的高对比度二元阶跃边缘光流补丁构成的三维流形,从而解释了先前光流环面模型难以被直接验证的原因,并揭示了视觉数据推理中拓扑与几何的微妙相互作用。
1877 篇论文
本文提出了一种扩展的拓扑模型,利用近似和离散圆丛理论识别出由运动边界附近的高对比度二元阶跃边缘光流补丁构成的三维流形,从而解释了先前光流环面模型难以被直接验证的原因,并揭示了视觉数据推理中拓扑与几何的微妙相互作用。
本文针对现有动态重建方法难以准确建模结肠镜下复杂蠕动运动的局限,提出了名为 ColonSplat 的动态高斯溅射框架,并构建了含真值点云的 DynamicColon 合成数据集,从而实现了在保持全局几何一致性的同时精确重建结肠蠕动运动。
本文提出了一种名为 IGLU 的新型参数化激活函数,它基于半正态混合分布推导得出,利用具有重尾特性的柯西累积分布函数作为门控机制,在理论上解决了梯度消失问题并实现了从类恒等到类 ReLU 行为的平滑插值,同时通过高效的有理近似版本 IGLU-Approx 在多种视觉和语言模型任务中实现了媲美或超越 ReLU 与 GELU 的性能,且显著降低了计算成本。
本文提出了一种融合环境先验信息与双 Transformer 级联架构的新型硬件高效轨迹预测框架,通过结合工业相机采集的网球飞行数据与场地边界等先验知识,显著提升了复杂场景下飞行轨迹及落点的预测精度。
本文提出了 PICS,一种通过并行组合对象并显式建模空间交互的自监督图像合成范式,利用掩码引导的混合专家交互 Transformer 和自适应融合策略,有效解决了扩散模型在成对或序列编辑中空间关系不一致及内容覆盖的问题,并在虚拟试衣、室内及街景等场景中显著提升了合成质量与稳定性。
本文介绍了利用零样本 SAM 3 模型构建的开源预处理沙眼数据集 OPTED,该数据集通过自动化四步流水线从原始临床图像中提取感兴趣区域,旨在解决撒哈拉以南非洲地区缺乏高质量预训练数据的问题,以推动沙眼自动分类研究。
该论文提出了一种受工业设计启发的新型数据增强范式,通过提示大语言模型结合参考曲面与建模流程生成 CAD 程序,有效提升了生成模型的几何多样性及与工业级设计的相似度。
PaQ-DETR 提出了一种统一框架,通过基于内容条件加权的共享潜在模式动态生成查询,并结合质量感知的多对一分配策略,有效解决了 DETR 系列模型中查询利用不平衡的问题,从而在多个基准测试中显著提升了检测精度。
本文提出了一种名为 DLRMamba 的轻量化模型,通过引入低秩二维选择性状态空间模块(Low-Rank SS2D)和结构感知蒸馏策略,有效解决了现有 Mamba 模型在边缘设备上进行多光谱融合目标检测时的参数冗余与细粒度信息丢失问题,实现了在资源受限硬件上效率与精度的显著平衡。
本文提出了一种名为 ESM-YOLO+ 的轻量级可见光与红外遥感图像融合网络,通过引入掩码增强注意力融合模块和训练时结构表征增强技术,在显著降低模型复杂度的同时,有效解决了复杂背景下小目标检测的难题并实现了高精度性能。
本文提出了 HIERAMP 方法,利用视觉自回归(VAR)模型的由粗到细生成特性,通过在不同尺度注入类令牌来动态识别显著区域并放大语义,从而在无需显式优化全局邻近性的情况下,显著提升了生成式数据集蒸馏的效果。
该研究开发了一套分析流程,利用 nnU-Net 模型从前列腺癌 3D 组织数据中提取与神经周围和淋巴血管侵袭相关的形态学特征,并证明这些 3D 特征在预测生化复发方面的表现优于传统的 2D 特征。
该论文提出了一种名为虚拟术中 CT(viCT)的新方法,通过利用单目内镜视频生成 3D 重建并与其术前 CT 配准,实现了在鼻内镜手术过程中无需额外硬件即可动态更新解剖结构,从而有效解决了传统静态影像无法反映组织切除变化导致手术不彻底的问题。
本文提出了 SurgCUT3R 框架,通过构建基于公开立体数据集的大规模伪真深度数据生成管线、采用混合监督策略以及设计分层推理架构,有效解决了单目内窥镜视频在手术场景下因缺乏监督数据及长序列累积漂移导致的 3D 重建难题,实现了兼具高精度与高效率的手术场景连续理解。
本文提出了条件非平衡最优传输(CUOT)框架,通过引入 Csiszár 散度惩罚来缓解条件分布匹配中的硬约束,从而构建出一种对异常值具有鲁棒性且能保持高采样效率的条件生成模型 CUOTM。
本文提出了 T2SGrid 框架,通过将视频片段内的帧按时间顺序重组为复合网格图像,将视频时序理解转化为空间理解任务,从而有效解决了现有方法在时序建模中面临的计算开销大、注意力稀疏及空间细节丢失等问题,并在视频时序定位基准上取得了优越性能。
该论文提出利用预对齐的多模态编码器(如 OpenShape 与 Point-BERT)结合多模态硬对比学习(HCL),在无需视图合成或目标数据库重训练的情况下,实现了图像到 3D 形状的零样本及监督检索,并在多个数据集上取得了超越现有方法的性能。
该论文提出了一种感知感知的多模态空间推理框架,通过引入视觉参考令牌(VRT)实现对象级 grounding 并构建多模态思维链数据集,仅凭标准监督微调便在 SURDS 基准测试中大幅超越了包括强化学习后训练在内的现有方法,显著提升了单目驾驶场景下的空间理解能力。
本文发布了首个专注于 ADAS 向人工接管过渡的大规模自然驾驶数据集 ADAS-TO,该数据集包含来自 327 名驾驶员的 15,659 个同步视频与 CAN 日志片段,并通过结合运动学筛选与视觉语言模型分析,揭示了关键接管事件中的风险特征及提前 3 秒出现可操作视觉线索的规律,为开发语义感知预警系统提供了重要依据。
本文提出了 MipSLAM,一种通过椭圆自适应抗混叠算法、谱感知位姿图优化及局部频域感知损失,有效解决现有 3D 高斯泼溅 SLAM 系统混叠伪影与轨迹漂移问题,并在多分辨率下实现高保真渲染与鲁棒定位的实时框架。