Optimizing Multi-Modality Trackers via Significance-Regularized Tuning
本文提出了一种显著性正则化微调框架,通过结合预训练权重切线空间中的先验显著性与微调阶段的迁移显著性,有效平衡了多模态跟踪器在适应 RGB 数据时的可塑性与稳定性,从而在多个基准测试中超越了现有最先进方法。
2890 篇论文
本文提出了一种显著性正则化微调框架,通过结合预训练权重切线空间中的先验显著性与微调阶段的迁移显著性,有效平衡了多模态跟踪器在适应 RGB 数据时的可塑性与稳定性,从而在多个基准测试中超越了现有最先进方法。
本文提出了一种利用可微分仿真、时间到达图特权信息及偏航对齐损失函数的强化学习方法,使四旋翼无人机能够在包含大型障碍物的复杂环境中高效导航,并在真实户外场景中实现了无碰撞飞行。
本文提出了一种利用多视图三角测量或粒子滤波处理含噪声图像分割序列以进行远距离物体定位的方法,该方法无需专用传感器或复杂三维重建,结合无人机机载计算资源即可实现可靠的无人机野火监测。
本文提出了 BridgeDrive,一种基于锚点引导的扩散桥策略,通过建立前向与反向过程理论一致的轨迹规划框架,在保持实时性的同时显著提升了自动驾驶闭环场景下的规划性能。
该论文提出了 SphereAR,一种通过利用超球面 VAE 将自回归生成过程中的输入输出约束在固定半径超球面上,从而解决潜在变量方差异质性问题并消除方差崩溃的图像生成方法,其在 ImageNet 上实现了超越扩散模型和掩码生成模型的自回归新纪录。
本文提出了一种基于连续 3D 视频傅里叶场(VFF)的新型视频超分辨率方法,通过联合建模时空信息替代传统的显式光流补偿,实现了任意时空位置的灵活采样、无混叠重建,并在多个基准测试中显著提升了重建的清晰度、时间一致性及计算效率。
本文提出了首个面向真实世界第一人称视角噪声观测的轨迹预测基准 EgoTraj-Bench,并设计了结合双流去噪与 EgoAnchor 机制的 BiFlow 模型,显著提升了机器人导航在感知受限环境下的轨迹预测鲁棒性与精度。
本文提出了一种结合光谱特征与多尺度场景级深度网络的弱监督云检测方法(SpecMCD),通过渐进式训练框架及自适应阈值优化,在缺乏精细标注的情况下显著提升了不同云覆盖条件下的像素级云检测精度。
本文提出了 VidGuard-R1,这是首个利用组相对策略优化(GRPO)强化学习框架,通过激励模型探索推理路径并引入物理一致性奖励,从而在零样本设置下实现高精度检测与可解释性归因的 AI 生成视频检测系统。
本文介绍了由临床医生共同设计的 SpineMed 生态系统,其包含首个面向椎体级推理的大规模指令数据集 SpineMed-450k 及临床评估基准 SpineBench,旨在解决脊柱疾病诊断中多模态影像与特定椎体级别推理的缺失问题,并显著提升了大模型在脊柱病理评估与手术规划中的临床实用性。
本文提出了 ExposureEngine,这是一个面向体育转播的端到端系统,通过预测旋转边界框(OBB)实现精准的品牌曝光检测,并结合自然语言智能体层生成可审计的赞助可视性分析报表。
本文提出了 TerraCodec,这是一个基于 Sentinel-2 数据预训练的地球观测数据学习压缩模型族,它通过引入时序 Transformer 和新型可变码率训练方法 Latent Repacking,在实现比传统编码器高 3-10 倍压缩率的同时,还具备零样本云修复能力。
本文提出了首个无需 3D 归纳偏置或显式多视图几何概念的自监督新视角合成模型 XFactor,通过结合成对姿态估计与简单的输入输出增强方案,成功实现了姿态表示在不同场景间的可迁移性,从而确立了可迁移性作为衡量真正新视角合成能力的关键标准。
本文提出了 VIST3A 框架,通过将预训练的文本到视频生成模型与多视图 3D 重建网络进行模型缝合,并利用直接奖励微调技术确保生成潜空间与 3D 解码器的对齐,从而实现了高质量且几何一致的文本到 3D 场景生成。
本文提出了一种名为 DRBD-Mamba 的高效 3D 脑肿瘤分割模型,通过双分辨率双向 Mamba 架构、空间填充曲线映射及门控融合模块,在显著降低计算开销(提升 15 倍效率)的同时,有效解决了肿瘤异质性问题,并在 BraTS2023 数据集的系统性评估中实现了优于现有最先进方法的分割精度与鲁棒性。
本文提出了 MSSR 框架,通过双智能体协作从专家模型中筛选最小充分信息集(MSS),有效解决了视觉语言模型在 3D 空间推理中因 2D 预训练局限和信息冗余导致的瓶颈,从而在多个基准测试中实现了最先进的性能。
本文提出了名为 SceneCOT 的新框架,通过引入 3D 场景中的接地思维链推理方法并构建了首个大规模数据集 SCENECOT-185K,有效解决了 3D 大语言模型在接地问答中的难题,实现了具有高度一致性的分步人类式场景推理。
本文提出了 Grasp Any Region (GAR) 框架,通过引入 RoI 对齐特征回放技术,使多模态大语言模型能够在保留全局上下文的同时实现任意区域的精准感知与多区域交互推理,并构建了 GAR-Bench 基准以验证其在复杂场景理解及视频任务中的卓越性能。
本文提出了 FLoC,一种基于设施选址函数的无训练、模型无关的高效视觉令牌压缩框架,通过结合懒惰贪心算法在严格预算下快速筛选出最具代表性和多样性的令牌子集,显著提升了长视频理解模型的处理效率与性能。
MotionStream 通过自强制分布匹配蒸馏将双向教师模型转化为因果学生模型,并结合滑动窗口因果注意力与 KV 缓存滚动机制,实现了在单 GPU 上以亚秒级延迟和高达 29 FPS 的速度进行无限时长的实时交互式视频生成。