TAPFormer: Robust Arbitrary Point Tracking via Transient Asynchronous Fusion of Frames and Events
本文提出了 TAPFormer,一种基于 Transformer 的鲁棒任意点跟踪框架,通过创新的瞬态异步融合机制自适应地结合帧与事件流,有效解决了多模态数据在时间对齐和模态失效下的跟踪难题,并在自建数据集及标准基准上取得了显著的性能提升。
3730 篇论文
本文提出了 TAPFormer,一种基于 Transformer 的鲁棒任意点跟踪框架,通过创新的瞬态异步融合机制自适应地结合帧与事件流,有效解决了多模态数据在时间对齐和模态失效下的跟踪难题,并在自建数据集及标准基准上取得了显著的性能提升。
本文提出了名为 MultiGO++ 的新框架,通过构建大规模纹理数据集、引入区域感知形状提取模块及双重建 U-Net 实现几何与纹理的有效协同,从而显著提升了单目 3D 着衣人体重建的质量与泛化能力。
本文提出了名为 Lens2Zernike 的深度学习框架,通过联合优化 Zernike 系数回归、可微物理约束及辅助空间图预测的三重监督策略,从单张模糊图像中盲恢复物理光学参数,从而在移动摄影中实现了比现有方法更稳定且准确的像差校正与细节复原。
本文通过构建涵盖细节、清晰度、语义正确性及整体质量的多维评估体系,对生成式图像修复模型进行了大规模研究,揭示了其从“细节匮乏”向“细节质量与语义控制”的范式转变,并据此训练了更符合人类感知的新图像质量评估模型。
本文提出了 Tell2Adapt,一种基于视觉基础模型(VFM)的统一源自由无监督域自适应框架,通过上下文感知提示正则化(CAPR)和视觉合理性细化(VPR)机制,在涵盖 10 个域适应方向和 22 种解剖目标的广泛医学图像分割任务中实现了最先进的性能。
本文通过构建包含 1,439 个标注样本的新基准数据集 Semap,并提出一种结合程序化数据合成与多尺度整合的分割框架,成功实现了针对风格、尺度及地理范围各异的历史地图集合的通用化语义分割,从而为将海量异构地图档案纳入历史地理研究开辟了新途径。
该论文提出了 IRTTA 方法,通过在测试阶段利用光学相干断层扫描(OCT)重建过程中的中间表示来动态调整冻结下游分割网络的归一化层参数,从而在不修改重建过程或模型架构的前提下,显著提升了分割性能并实现了零成本的语义不确定性估计。
本文提出了 CoIn3D 框架,通过空间感知特征调制(SFM)和免训练动态新视图图像合成(CDA)技术,将焦距、地面深度等空间先验显式融入特征与观测,从而显著提升了多相机 3D 目标检测模型在不同相机配置下的泛化能力与跨配置迁移性能。
本文提出了一种名为 CLIP-PZSL 的新框架,通过利用 CLIP 提取特征、设计语义挖掘模块以及引入渐进式优化的部分零样本损失函数,有效解决了真实场景中标签模糊导致的零样本学习性能下降问题。
该研究利用 ABLDataset 数据集和四目鱼眼相机系统,通过引入颜色注意力机制改进 RT-DETR 模型,实现了在复杂环境下对欧洲应急车辆蓝色警灯的高精度检测与方位估计,旨在增强高级驾驶辅助系统(ADAS)的主动安全性。
本文提出了一种名为 MI-DETR 的生物启发式红外小目标检测基线模型,该模型通过视网膜启发的细胞自动机显式构建运动图,并利用视锥 - 视杆细胞互连机制融合外观与运动特征,在无需额外运动监督或对齐模块的情况下,于多个基准测试中取得了显著优于现有方法的检测性能。
本文提出了首个统一任意到任意交错多模态基准 UniM,包含 31K 个覆盖 7 种模态的高质量实例及评估套件,并引入具备可追溯推理能力的 UniMA 基线模型,旨在推动多模态大模型在复杂交错输入输出场景下的理解与生成能力发展。
MoRe 是一种高效的单目视频前馈 4D 重建 Transformer,它通过注意力强制策略解耦动态运动与静态结构,并结合分组因果注意力机制,在无需额外监督的情况下实现了高质量且实时的动态场景重建。
针对当前 4D 生成因缺乏大规模数据集而受限的问题,本文提出了一种名为 Orster 的新型框架,通过正交时空分布转移机制将 3D 和视频扩散模型中的先验知识解耦并注入到 STD-4D 扩散模型及 ST-HexPlane 中,从而显著提升了 4D 内容生成的质量与时空一致性。
该论文提出了一种基于最优生成流的公理化流形上 Aumann-Shapley 归因理论,通过利用最小化动能的 Wasserstein-2 测地线解决路径歧义,在理论上证明了梯度线积分的唯一性,并在实验中实现了严格的流形一致性与优越的语义对齐。
本文提出了 GEM-TFL 框架,通过 EM 引导的标签分解、无监督时序一致性细化及图结构提案优化,有效解决了弱监督时序伪造定位中训练与推理目标不匹配及监督信号不足的问题,显著缩小了其与全监督方法的性能差距。
本文提出了 Diff-ES,一种通过进化搜索自动优化分阶段稀疏度调度并结合内存高效权重路由的扩散模型结构化剪枝框架,在 DiT 和 SDXL 上实现了显著的推理加速与高质量的生成效果。
本文提出了名为 BLINK 的基于轨迹的循环状态空间模型,该模型通过从部分观测的 NK 细胞 - 肿瘤相互作用序列中学习潜在动态并预测凋亡增量,实现了对 NK 细胞细胞毒性行为的统一量化评估、可解释的潜在表征及未来结果的预测。
本文提出了 UniPAR,一种基于 Transformer 的统一行人属性识别框架,通过统一数据调度、动态分类头及创新的分阶段融合编码器,实现了单一模型对 RGB、视频及事件流等多模态异构数据的协同处理,在保持与专用方法相当性能的同时显著提升了跨域泛化能力与极端环境下的鲁棒性。
本文提出了一种名为 SRasP 的新颖方法,通过利用全局语义引导识别非一致裁剪并重新定向聚合其风格梯度,结合多目标优化函数在保持语义一致性的同时最大化视觉差异,从而解决跨域少样本学习中现有风格扰动方法的梯度不稳定问题,促使模型收敛至更平坦且泛化能力更强的解。