RealWonder: Real-Time Physical Action-Conditioned Video Generation
RealWonder 是首个基于单张图像实现实时物理动作条件视频生成的系统,它通过将物理模拟作为中间桥梁,将连续动作转化为视觉表征,从而在仅需 4 步扩散的情况下实现 13.2 FPS 的生成速度,支持对刚性物体、可变形体、流体及颗粒材料等复杂物理交互的实时模拟。
6405 篇论文
RealWonder 是首个基于单张图像实现实时物理动作条件视频生成的系统,它通过将物理模拟作为中间桥梁,将连续动作转化为视觉表征,从而在仅需 4 步扩散的情况下实现 13.2 FPS 的生成速度,支持对刚性物体、可变形体、流体及颗粒材料等复杂物理交互的实时模拟。
本文提出了无需训练且与模型无关的“最长稳定前缀”(LSP)调度器,通过以原子方式吸收连续的稳定前缀来替代传统的碎片化接受机制,从而在保持生成质量的同时将扩散语言模型的推理速度提升高达 3.4 倍。
本文提出了 EdgeDAM,一种专为移动设备设计的轻量级检测引导跟踪框架,通过双缓冲干扰感知记忆机制和基于置信度的切换策略,在严格资源约束下实现了兼具高精度抗干扰能力与实时性的单目标跟踪。
该论文提出了一种名为 HALP 的新方法,通过单次前向传播探测视觉语言模型(VLM)的内部表征(如查询令牌或视觉特征),在无需生成任何文本的情况下即可高效预测幻觉风险,从而为早期干预、选择性路由和自适应解码提供了可能。
本文提出了一种结合稀疏视图技术与自适应加权损失函数的改进神经辐射场(NeRF)方法,利用长波红外高光谱图像实现了气体羽流的三维场景重建,并证明了其在气体检测任务中的有效性。
本文提出了名为 MM-Lifelong 的长周期多模态数据集及递归多模态智能体(ReMA)基线,旨在解决现有模型在处理自然日常长视频时面临的上下文饱和与全局定位失效问题,从而推动多模态终身理解的研究。
本文提出了一种名为 CalibAtt 的免训练方法,通过离线校准识别并跳过视频生成扩散模型中冗余的时空注意力计算,从而在保持生成质量的同时实现了高达 1.58 倍的端到端加速。
FaceCam 提出了一种面向人脸的尺度感知相机控制方法,通过结合多视角工作室数据与在野单目视频训练,并采用合成运动与多视角拼接的数据生成策略,有效解决了现有方法在单目人脸视频生成中常见的几何畸变与尺度模糊问题,实现了高质量的定制化相机轨迹控制。
本文提出了一种基于 Transformer 的实时 3D 流媒体图像修复方法,通过引入多视图感知架构与自适应策略,在稀疏多相机设置下有效解决了视图缺失导致的表面不完整问题,实现了质量与速度的最佳平衡。
本文提出了一种名为“Volley Revolver"的新型矩阵编码方法,通过同态加密实现了在云端对加密 MNIST 图像进行高效的隐私保护卷积神经网络推理,仅需上传约 19.8 MB 的单个密文即可在 40 核云服务器上于 287 秒内完成 32 张图像的批量分类。
该论文提出了一种基于量子态的隐私保护相机新设计,利用量子态在测量前兼具隐私与可用性的特性,并结合双深度 Q 学习算法在模拟中成功实现了对图像隐私与效用平衡的可控管理。
本文提出了名为 GeoTop 的数学原理框架,通过融合拓扑数据分析与 Lipschitz-Killing 曲率,有效解决了诊断影像中良恶性结构拓扑等价但几何细节不同的难题,在皮肤病变分类等任务中显著提升了准确率并降低了误诊率,同时兼具可解释性与高效性。
本文提出了一种基于扩散模型的新方法,通过融合多尺度文本 - 视觉特征来解决开放词汇伪装实例分割(OVCIS)中目标与背景边界模糊的难题,从而实现对未见类别伪装目标的有效分割。
本文提出了 Export3D 方法,通过引入将 3DMM 表情参数融入源图像的三平面生成器,并结合消除身份外观干扰的对比预训练框架,实现了仅需单张图像即可生成视角可控且无身份外观交换的 3D 感知表情可控肖像动画。
FireANTs 提出了一种无需训练、基于 GPU 加速的多尺度自适应黎曼优化算法,用于解决密集微分同胚图像配准问题,在显著降低计算时间和内存消耗的同时,实现了跨模态、跨物种的广泛鲁棒性并媲美深度学习方法的推理性能。
本文提出了名为 Merlin 的三维医学视觉 - 语言基础模型,该模型利用包含超过 1.5 万例 CT 扫描的大规模临床数据集进行无标注多阶段预训练,在诊断、预后及报告生成等 752 项任务中展现出超越现有二维模型和专用模型的卓越泛化能力与性能。
本文提出了名为 TrashFuzz 的黑盒模糊测试算法,通过合规地调整路边常见物体(如垃圾桶)的位置来生成逼真的对抗场景,从而在无需使用不自然对抗补丁的情况下成功诱导 Apollo 自动驾驶系统违反交通法规。
本文提出了 FINE 方法,通过将模型权重分解为共享的“学习基因”(learngenes)和层特定参数,实现了无需重复预训练即可灵活初始化适应不同资源约束的变尺寸扩散模型,并显著提升了训练效率与任务适应性。
该论文首次通过大规模实验证实了扩散 Transformer(DiT)的预训练损失与计算量之间存在幂律关系,从而能够依据计算预算精准预测最优模型规模、数据需求及生成性能,为评估模型表现和数据质量提供了低成本的可靠基准。
本文提出了 TextMaster 框架,通过融合高分辨率标准字形信息、感知损失、基于注意力机制的字符级布局约束以及新颖的风格注入技术,实现了在复杂场景下兼具高保真度、精准布局与可控风格的真实文本编辑。