Modeling and Measuring Redundancy in Multisource Multimodal Data for Autonomous Driving
该论文通过 nuScenes 和 Argoverse 2 数据集建模并量化了自动驾驶多源多模态数据中的冗余性,发现选择性去除冗余标签不仅能显著降低数据量,还能提升 YOLOv8 目标检测任务的性能,从而确立了冗余性作为关键数据质量因素在自动驾驶感知中的重要作用。
3385 篇论文
该论文通过 nuScenes 和 Argoverse 2 数据集建模并量化了自动驾驶多源多模态数据中的冗余性,发现选择性去除冗余标签不仅能显著降低数据量,还能提升 YOLOv8 目标检测任务的性能,从而确立了冗余性作为关键数据质量因素在自动驾驶感知中的重要作用。
本文提出了 EgoReasoner 框架,通过任务自适应的思维模板和奖励机制,使模型能够针对第一人称视频中的不同 4D 推理任务进行结构化思考,从而在仅使用 16K 样本训练的情况下,于 HD-EPIC 基准测试中显著超越了参数量更大的基线模型。
该论文提出了 Penguin-VL,通过利用纯文本大语言模型初始化视觉编码器来替代传统的对比学习预训练,从而在保持轻量级架构的同时,显著提升了紧凑型视觉语言模型在细粒度感知、文档理解及复杂推理等任务上的性能与数据效率。
本文提出了 SUREON,这是一个从手术学术视频中大规模提取专家推理信号构建的视频问答数据集及基准,并基于此训练了具备显式推理能力的手术视觉语言模型,使其在手术推理和感知任务上显著超越了现有的通用大模型。
本文提出了 SCOPE 框架,通过利用基类训练场景中的未标注背景区域构建伪实例原型池,并将其与少样本原型融合以增强表示,从而在无需重训练或增加参数的情况下,有效解决了 3D 点云增量少样本分割中的灾难性遗忘和判别性不足问题,在 ScanNet 和 S3DIS 数据集上取得了最先进性能。
BEVLM 提出了一种将鸟瞰图(BEV)表示与大型语言模型(LLM)相结合的新框架,通过从 LLM 蒸馏语义知识并统一多视角输入,显著提升了自动驾驶在复杂场景下的空间推理能力、跨视图理解精度及端到端闭环驾驶的安全性。
Omni-Diffusion 是首个完全基于掩码离散扩散模型构建的任意模态到任意模态多模态大模型,它通过统一架构实现了文本、语音和图像的理解与生成,并在多项基准测试中展现出超越或媲美现有系统的性能。
该论文指出,多模态大语言模型在图像分类任务中表现出的性能差距主要源于评估协议缺陷和标注噪声,通过修正这些关键问题并优化设计选择,其性能可显著提升并大幅缩小与监督模型的差距,同时证明了其在辅助大规模数据标注方面的潜力。
该论文提出了一种基于视频预测神经网络的生成模型 EIGen 来创造视觉运动错觉,并通过人类实验证实了这些错觉的有效性,从而支持了“错觉运动源于大脑对预测的感知而非原始视觉输入”的假设,同时倡导利用人工智能模仿生物系统的“动机性失败”来推动相关研究。
本文提出了名为 FEP-Nav 的生物启发框架,通过结合自上而下的解码器与自适应归一化机制,在无需梯度更新的情况下实时最小化变分自由能,从而显著提升了机器人在噪声和感官突变环境下的视觉导航鲁棒性。
本文提出了 InstructHumans 框架,通过引入一种能平衡编辑效果与源角色一致性的改进版编辑分数蒸馏采样(SDS-E)方法,实现了基于指令的动画化 3D 人体纹理的高质量编辑。
本文提出了 EasyAnimate,这是一个基于扩散 Transformer 的高性能视频生成框架,通过引入混合窗口注意力机制、奖励反向传播微调、基于 Token 长度的训练策略以及多模态大语言模型文本编码器,在显著提升训练与推理效率的同时实现了视频生成质量与人类偏好对齐的突破,并在 VBench 榜单及人工评估中取得了最先进水平。
该论文提出了一种名为 MAD-Avatar 的新方法,通过结合 3D 感知的人体运动模糊物理模型与 3D 人体运动模型,直接从模糊的多视角视频中联合优化重建出清晰的可动画 3D 高斯人体Avatar。
本文提出了 Track Anything Behind Everything (TABE),这是一种无需预训练类别标签、仅需首帧可见掩码即可实现零样本遮挡视频物体分割的新方法,其通过将遮挡分割建模为基于预训练视频扩散模型的生成式外推,并在测试时进行微调以专门追踪特定物体。
该论文提出了一种无需重训练的模型无关可学习稀疏性框架,通过设计覆盖整个扩散过程的端到端优化目标及时间步梯度检查点技术,在显著降低显存占用的同时,实现了对 SDXL 和 FLUX 等先进扩散模型高达 20% 的参数剪枝且几乎不影响生成质量。
本文提出了一种名为 FGA 的平坦度引导测试时适应框架,通过利用锐度感知提示微调获取的平坦极小值几何线索来指导测试样本选择,从而在不进行昂贵参数更新的情况下,有效统一了视觉语言模型的训练与测试过程并显著提升了跨域性能。
本文提出了一种将 3D 世界建模与策略学习无缝融合的 3D 动力学感知操作框架,通过引入三个自监督学习任务赋予策略模型 3D 预见能力,从而在不牺牲推理速度的前提下显著提升了涉及深度运动的机器人操作性能。
本文提出了 MedFuncta,这是一个针对大规模医学数据集的统一神经场训练框架,它通过共享元学习神经场和 1D 潜在向量实现跨实例泛化,并引入了改进的 SIREN 激活频率调度与稀疏监督策略以提升效率,同时发布了包含超过 50 万个潜在向量的首个大规模医学神经场数据集 MedNF。
本文提出了一种名为 RapidPoseTriangulation 的新算法,能够在毫秒级时间内实现多视角、多人的全身姿态三角测量,具备出色的泛化能力并支持面部及手指等细节的精准捕捉。
本文提出了一种名为 Noise2Ghost 的自监督深度学习鬼成像重建方法,该方法无需清洁参考数据即可在低信噪比条件下实现卓越的图像重建质量,特别适用于微纳尺度 X 射线荧光成像等对剂量敏感的生物及电池样本的在体与原位研究。