SplatSDF: Boosting SDF-NeRF via Architecture-Level Fusion with Gaussian Splats
本文提出了 SplatSDF,一种通过将 3D 高斯泼溅(3DGS)在架构层面直接融合为 SDF-NeRF 输入的新型方法,利用稀疏融合策略显著加速了收敛速度并提升了几何与渲染质量,从而克服了传统 SDF-NeRF 训练缓慢的瓶颈并推动其在实际机器人系统中的应用。
9150 篇论文
本文提出了 SplatSDF,一种通过将 3D 高斯泼溅(3DGS)在架构层面直接融合为 SDF-NeRF 输入的新型方法,利用稀疏融合策略显著加速了收敛速度并提升了几何与渲染质量,从而克服了传统 SDF-NeRF 训练缓慢的瓶颈并推动其在实际机器人系统中的应用。
本文提出了 DGGS 框架,通过引入场景无关的参考掩码预测与优化模块以及两阶段推理机制,有效解决了跨场景泛化 3D 高斯泼溅中干扰数据导致的训练不稳定和重建伪影问题,实现了在未见场景中的鲁棒前馈推理与高质量重建。
该论文提出了一种结合伪未知嵌入学习与多尺度对比锚点学习的框架,旨在解决开放词汇检测模型在开放世界场景中对未知物体识别与增量学习的局限性,从而在自动驾驶等关键应用中实现更鲁棒的检测性能。
该论文提出了一种结合文本描述驱动的手绘草图动画生成方法,通过利用预训练的文生视频扩散模型,并引入长度 - 面积正则化与保形刚性约束,有效解决了运动平滑性、时序一致性及拓扑结构保持等难题,在定量与定性评估中均超越了现有最先进水平。
本文提出了 PPT 框架,利用由现成检测器和跟踪器自动生成的伪标签轨迹进行预训练,以低成本、可扩展的方式学习鲁棒的运动表示,从而在标注数据稀缺及跨域场景下显著提升自动驾驶运动预测的泛化性能。
本文针对全量微调导致特征空间受限的问题,提出了名为 IV-tuning 的参数高效迁移学习方法,该方法通过仅微调 3% 的骨干网络参数,在显著降低计算成本的同时,有效提升了红外 - 可见光多模态任务中的泛化能力与性能表现。
该论文提出了结合 MomentMix 数据增强策略与长度感知解码器的 LA-DETR 模型,旨在解决现有 DETR 方法在短视频片段定位中特征多样性不足及中心位置与长度预测偏差的问题,从而在 QVHighlights 等多个基准数据集上显著提升了短视频检索的精度与鲁棒性。
本文提出了 JOSH 及其高效变体 JOSH3R,这是一种基于优化的方法,通过利用人机接触约束联合优化场景几何、相机姿态和人体运动,实现了从单目视频中在自然场景下的高质量 4D 人机重建。
本文通过对比扩散与非扩散对抗净化器,揭示了非扩散模型在无需额外数据的情况下,不仅具备优异的防御鲁棒性与泛化能力,甚至能在跨数据集(CIFAR-10 训练、ImageNet 测试)场景下超越专门针对 ImageNet 训练的扩散模型。
本文提出了名为 Dual-IPO 的双迭代偏好优化框架,通过协同迭代优化奖励模型(利用思维链推理等机制)与视频生成模型,在无繁琐人工标注的情况下显著提升了视频生成的主体一致性、运动流畅度及美学质量。
本文提出了 RelaCtrl 框架,通过评估 Diffusion Transformer 各层对控制信息的相关性来优化控制层配置,并引入二维 Shuffle Mixer 替换传统模块,从而在仅使用 PixArt-delta 15% 参数和计算量的情况下实现了高效的可控生成。
该论文提出了一种名为 U-F²-CBM 的无监督、无标签且无需 CLIP 的概念瓶颈模型方法,通过将冻结视觉分类器的分布与文本类名分布对齐,在无需人工标注或 CLIP 模型的情况下成功将任意视觉分类器转化为可解释模型,并在性能上超越了现有的监督式 CLIP 基线。
本文提出了 UniFuture,一种统一的 4D 驾驶世界模型,通过双潜共享和多尺度潜交互机制联合建模 RGB 图像与深度图,实现了从单帧图像生成高保真且几何一致的 4D 场景序列,从而在生成与感知任务上均超越了现有专用模型。
本文从频域视角出发,利用卷积定理系统分析了门控机制对神经网络训练动态的影响,并据此提出了一种能有效利用多频信息、减轻低频偏差的轻量级图像分类模型 GmNet。
本文提出了 ViT-Linearizer 框架,通过激活匹配和掩码预测的跨架构蒸馏技术,将 Vision Transformer 的全局自注意力知识高效迁移至线性时间复杂度的循环模型中,在显著提升高分辨率推理速度的同时,使 Mamba 架构在 ImageNet 等基准测试中达到了具有竞争力的性能。
本文提出了名为 LAMM-ViT 的视觉 Transformer 模型,通过结合区域引导注意力与层感知掩码调制机制,有效捕捉跨生成技术的层级伪造线索,在跨模型泛化测试中显著提升了 AI 合成人脸检测的准确率与平均精度。
本文提出了一种基于反射率预测的知识蒸馏(RPKD)框架,通过在低码率传输中丢弃反射率数据并利用几何预测与跨源蒸馏技术进行重建和知识迁移,显著提升了压缩点云在受限带宽下的 3D 物体检测鲁棒性与精度。
本文提出了 Bridging Geometric and Semantic (BriGeS) 方法,通过引入仅训练少量参数的“桥接门”机制及注意力温度缩放技术,有效融合了几何与语义基础模型的优势,从而在降低资源消耗的同时显著提升了复杂场景下单目深度估计的泛化性能与精度。
本文提出了一种基于随机分组注意力机制的稀疏想象方法,通过减少视觉世界模型前向预测中的 Token 数量,在保持控制精度的同时显著提升了机器人规划任务的推理效率。
本文提出了 LinGuinE 框架,通过结合图像配准与引导分割技术,实现了仅需单次放射科医生提示即可在纵向研究中生成具有病灶对应关系的全时程肿瘤体积分割,并在多个数据集上取得了最先进的性能。