PPT: Pretraining with Pseudo-Labeled Trajectories for Motion Forecasting
本文提出了 PPT 框架,利用由现成检测器和跟踪器自动生成的伪标签轨迹进行预训练,以低成本、可扩展的方式学习鲁棒的运动表示,从而在标注数据稀缺及跨域场景下显著提升自动驾驶运动预测的泛化性能。
8938 篇论文
本文提出了 PPT 框架,利用由现成检测器和跟踪器自动生成的伪标签轨迹进行预训练,以低成本、可扩展的方式学习鲁棒的运动表示,从而在标注数据稀缺及跨域场景下显著提升自动驾驶运动预测的泛化性能。
本文针对全量微调导致特征空间受限的问题,提出了名为 IV-tuning 的参数高效迁移学习方法,该方法通过仅微调 3% 的骨干网络参数,在显著降低计算成本的同时,有效提升了红外 - 可见光多模态任务中的泛化能力与性能表现。
该论文提出了结合 MomentMix 数据增强策略与长度感知解码器的 LA-DETR 模型,旨在解决现有 DETR 方法在短视频片段定位中特征多样性不足及中心位置与长度预测偏差的问题,从而在 QVHighlights 等多个基准数据集上显著提升了短视频检索的精度与鲁棒性。
本文提出了 JOSH 及其高效变体 JOSH3R,这是一种基于优化的方法,通过利用人机接触约束联合优化场景几何、相机姿态和人体运动,实现了从单目视频中在自然场景下的高质量 4D 人机重建。
本文通过对比扩散与非扩散对抗净化器,揭示了非扩散模型在无需额外数据的情况下,不仅具备优异的防御鲁棒性与泛化能力,甚至能在跨数据集(CIFAR-10 训练、ImageNet 测试)场景下超越专门针对 ImageNet 训练的扩散模型。
本文提出了名为 Dual-IPO 的双迭代偏好优化框架,通过协同迭代优化奖励模型(利用思维链推理等机制)与视频生成模型,在无繁琐人工标注的情况下显著提升了视频生成的主体一致性、运动流畅度及美学质量。
本文提出了 RelaCtrl 框架,通过评估 Diffusion Transformer 各层对控制信息的相关性来优化控制层配置,并引入二维 Shuffle Mixer 替换传统模块,从而在仅使用 PixArt-delta 15% 参数和计算量的情况下实现了高效的可控生成。
该论文提出了一种名为 U-F²-CBM 的无监督、无标签且无需 CLIP 的概念瓶颈模型方法,通过将冻结视觉分类器的分布与文本类名分布对齐,在无需人工标注或 CLIP 模型的情况下成功将任意视觉分类器转化为可解释模型,并在性能上超越了现有的监督式 CLIP 基线。
本文提出了 UniFuture,一种统一的 4D 驾驶世界模型,通过双潜共享和多尺度潜交互机制联合建模 RGB 图像与深度图,实现了从单帧图像生成高保真且几何一致的 4D 场景序列,从而在生成与感知任务上均超越了现有专用模型。
本文从频域视角出发,利用卷积定理系统分析了门控机制对神经网络训练动态的影响,并据此提出了一种能有效利用多频信息、减轻低频偏差的轻量级图像分类模型 GmNet。
本文提出了 ViT-Linearizer 框架,通过激活匹配和掩码预测的跨架构蒸馏技术,将 Vision Transformer 的全局自注意力知识高效迁移至线性时间复杂度的循环模型中,在显著提升高分辨率推理速度的同时,使 Mamba 架构在 ImageNet 等基准测试中达到了具有竞争力的性能。
本文提出了名为 LAMM-ViT 的视觉 Transformer 模型,通过结合区域引导注意力与层感知掩码调制机制,有效捕捉跨生成技术的层级伪造线索,在跨模型泛化测试中显著提升了 AI 合成人脸检测的准确率与平均精度。
本文提出了一种基于反射率预测的知识蒸馏(RPKD)框架,通过在低码率传输中丢弃反射率数据并利用几何预测与跨源蒸馏技术进行重建和知识迁移,显著提升了压缩点云在受限带宽下的 3D 物体检测鲁棒性与精度。
本文提出了 Bridging Geometric and Semantic (BriGeS) 方法,通过引入仅训练少量参数的“桥接门”机制及注意力温度缩放技术,有效融合了几何与语义基础模型的优势,从而在降低资源消耗的同时显著提升了复杂场景下单目深度估计的泛化性能与精度。
本文提出了一种基于随机分组注意力机制的稀疏想象方法,通过减少视觉世界模型前向预测中的 Token 数量,在保持控制精度的同时显著提升了机器人规划任务的推理效率。
本文提出了 LinGuinE 框架,通过结合图像配准与引导分割技术,实现了仅需单次放射科医生提示即可在纵向研究中生成具有病灶对应关系的全时程肿瘤体积分割,并在多个数据集上取得了最先进的性能。
本文提出了一种基于薛定谔桥与条件扩散的新型框架,通过整合人类二元反馈和分类器自由引导,在仅需 10 步采样的情况下实现了 CBCT 到 MDCT 的高效转换,有效抑制了阴影伪影并提升了图像保真度与临床偏好一致性。
该论文针对医疗图像分割中的数据稀缺与分布偏移问题,提出了一种基于可交换性假设和因果框架的跨层特征控制方法,通过有效缓解数据合并带来的分布差异,在五种数据集上实现了优于现有基线的分割性能。
本文提出了 LayerT2V 框架,通过利用视频生成骨干网络的高压缩特性将多层表示序列化并联合建模,首次实现了单次推理即可生成包含背景、前景及透明通道且语义一致的可编辑分层视频,并配套发布了首个大规模分层视频数据集 VidLayer。
RAP 提出了一种基于视频扩散变换器的统一框架,通过引入混合注意力机制与静动态训练推理范式,在满足实时延迟和内存约束的同时,实现了高保真且音画同步的音频驱动肖像动画生成。