AnimateScene: Camera-controllable Animation in Any Scene
本文提出了 AnimateScene 框架,通过自动碰撞避免的精准定位、免训练的风格光照对齐以及结合相机轨迹的联合后重建技术,实现了在任意 3D 场景中生成具有高精度几何细节和强时空一致性的相机可控动态动画。
9473 篇论文
本文提出了 AnimateScene 框架,通过自动碰撞避免的精准定位、免训练的风格光照对齐以及结合相机轨迹的联合后重建技术,实现了在任意 3D 场景中生成具有高精度几何细节和强时空一致性的相机可控动态动画。
该研究提出了一种名为 BeeNet 的深度学习框架,通过模拟带电节肢动物与花朵的静电相互作用,成功利用电场数据逆向重构出多样化的花朵几何形状,揭示了电感受在传递丰富空间细节方面的潜力。
本文提出了一种针对图表理解的新型对比学习范式,通过引入利用图表结构特性的专用损失函数和“困难”样本,显著提升了多模态模型在流程图等结构化视觉领域的图文匹配与视觉问答能力。
本文提出了 Draw-In-Mind (DIM) 框架,通过构建包含长图文对和思维链设计蓝图的大规模数据集,将图像编辑中的“设计”职责明确转移至理解模块,从而在仅 4.6B 参数量的统一多模态模型中实现了超越更大规模模型的 SOTA 图像编辑性能。
本文提出了 MEGS² 框架,通过引入轻量级球面高斯瓣替代球谐函数,并设计统一软剪枝策略联合优化原语数量与参数,在保持渲染质量的同时显著降低了 3D 高斯泼溅的显存占用。
该论文指出激活函数的选择是缓解持续学习中可塑性丧失的关键架构无关因素,并提出了两种新型非线性激活函数(Smooth-Leaky 及其随机化变体),在监督类增量学习和非平稳强化学习场景中证明了其无需额外容量或特定调优即可有效维持模型适应能力的优势。
本文提出了一种无监督可微框架,通过结合语义感知(将网格分割为语义部分并聚合)和可见性感知(利用环境光遮蔽引导接缝至遮挡区域)目标,实现了无需人工干预的 3D 网格参数化,从而显著提升了纹理生成质量并减少了接缝伪影。
本文提出了名为 Max-V1 的新型单阶段端到端自动驾驶框架,通过将轨迹规划重构为基于视觉 - 语言模型(VLM)的下一航点预测问题,利用统计监督策略在 nuScenes 数据集上实现了超越基线 30% 的性能,并展现出卓越的跨域泛化与鲁棒性。
本文提出了通用 Beta 泼溅(UBS)框架,通过将 3D 高斯泼溅推广为 N 维各向异性 Beta 核,实现了无需辅助网络即可在单一表示中统一建模空间、角度和时间依赖关系的显式辐射场渲染,并在保持向后兼容性的同时显著提升了静态、视角依赖及动态场景的渲染性能。
本文提出了一种名为 CLEAR-IR 的新方法,利用基于 DeepMAO 的多尺度感知架构从受主动发射器图案干扰的红外流中重建清晰图像,从而在无需车载照明的极端低光环境下显著提升机器人感知性能,并使其能够直接复用基于 RGB 图像训练的任务模型。
本文指出机器学习算子(MLOs)在零样本设置下无法实现跨分辨率的准确推理(即存在混叠和泛化失败),并提出了一种高效的多分辨率训练协议以解决这一问题。
本文通过稀疏自编码器(SAE)分析 DINOv2,揭示了其任务特异性概念的分工与几何结构,进而提出基于凸组合原型的“闵可夫斯基表示假设”(MRH),以超越传统的线性稀疏性视角来解释视觉 Transformer 的表征机制。
本文提出了 USplat4D,一种通过估计并传播高斯原语的不确定性来构建时空图,从而解决单目 4D 重建中遮挡和极端视角下运动漂移与合成质量下降问题的动态高斯泼溅框架。
该论文提出了一种利用多模态大语言模型生成物体活动与交互文本描述的新框架,通过对比训练与测试阶段的文本描述来实现可解释且高效的半监督视频异常检测,在复杂交互异常及传统基准数据集上均取得了优异性能。
本文综述了从体渲染到 3D 高斯泼溅(3DGS)的理论演进与应用,在介绍其高效光栅化原理及新视角合成优势的同时,深入探讨了其内存占用、光照烘焙及次级光线效应等局限性,并总结了其在表面重建、数字人建模、动画及内容生成等领域的广泛应用。
本文提出了无需训练的“推测性裁决”(Speculative Verdict)框架,通过结合多个轻量级草稿专家生成多样化推理路径并由强模型进行裁决与共识筛选,有效解决了大型视觉语言模型在处理信息密集型图像时的定位困难与多跳推理挑战,在显著提升准确率的同时实现了计算成本的最优化。
本文提出了 TokenCLIP,一种通过最优传输动态将视觉令牌分配至正交文本子空间以实现细粒度对齐的框架,从而显著提升了零样本异常检测的性能。
该论文针对现有单模态数据集的局限,提出了首个完全由多图像样本构成的 MMSD3.0 基准,并设计了具备跨图像推理与细粒度跨模态融合能力的 CIRM 模型,在显著提升真实场景下多模态讽刺检测性能的同时,也验证了其在单图场景中的通用有效性。
本文提出了一种名为 COLA 的免训练跨模态对齐框架,通过结合子空间投影与最优传输技术,在特征空间中恢复全局图文对齐与局部结构一致性,从而显著提升了 CLIP 模型在对抗攻击下的鲁棒性。
本文提出了一种轻量级的可训练机制“注意力特征聚合”(AFA),通过让视觉运动策略自动聚焦于任务相关视觉线索并忽略无关干扰,显著提升了模型在视觉扰动下的鲁棒性,且无需昂贵的数据增强或预训练模型微调。