CRISP: Contact-Guided Real2Sim from Monocular Video with Planar Scene Primitives
CRISP 提出了一种从单目视频中恢复可模拟的人体运动与场景几何的新方法,其核心在于通过拟合平面基元构建凸且干净的仿真就绪几何、利用人体接触建模补全遮挡区域,并结合强化学习控制器确保物理合理性,从而显著降低了运动跟踪失败率并提升了仿真效率。
4820 篇论文
CRISP 提出了一种从单目视频中恢复可模拟的人体运动与场景几何的新方法,其核心在于通过拟合平面基元构建凸且干净的仿真就绪几何、利用人体接触建模补全遮挡区域,并结合强化学习控制器确保物理合理性,从而显著降低了运动跟踪失败率并提升了仿真效率。
本文提出了 Solution Flow Models (SoFlow) 框架,通过结合流匹配损失与无需计算雅可比 - 向量积(JVP)的解一致性损失,实现了从 scratch 训练的高效单步生成模型,并在 ImageNet 256x256 数据集上超越了 MeanFlow 模型。
本文提出了一种结合深度学习图像分析与包含家族史数据的可解释多模态 AI 框架,旨在通过整合遗传风险因素提升皮肤病诊断的准确性与个性化水平,并规划了后续的临床验证以推动其在医疗工作流中的实际部署。
本文提出了名为 GeoTeacher 的半监督 3D 目标检测框架,通过设计基于关键点几何关系的监督模块和引入距离衰减机制的体素级数据增强策略,有效解决了有限标注数据下模型对物体几何信息敏感度低的问题,从而在 ONCE 和 Waymo 数据集上实现了新的最先进性能。
该研究提出了一种名为"ForCM"的新方法,通过将多种深度学习模型(如 AttentionUNet 和 ResUNet)与面向对象图像分析(OBIA)相结合,利用 Sentinel-2 多光谱影像显著提升了亚马逊雨林森林覆盖的制图精度(最高达 95.64%),并验证了结合开源工具进行全球环境监测的潜力。
本文提出了一种名为 CEM 的即插即用插件,通过最小化累积误差来动态优化缓存策略,从而在无需额外计算开销的情况下显著提升了现有 Diffusion Transformer 加速方法的生成保真度。
该论文提出了以“模型可读性”为设计原则的“点可解释网络(PiNets)”框架,通过构建伪线性结构确保神经网络生成的解释在本质上与预测过程直接对齐,从而在图像分类与分割任务中实现了兼具忠实性、鲁棒性和充分性的可信解释。
TP-Blend 是一种无需训练的轻量级框架,通过交叉注意力对象融合(CAOF)和自注意力风格融合(SASF)两个互补模块,将物体提示与风格提示同时注入扩散模型的去噪轨迹,从而在保持几何结构完整性的同时实现高分辨率、照片级真实的物体与风格精准融合。
该论文提出了一种名为 Copy-Trasform-Paste 的零样本 3D 物体对齐框架,通过结合 CLIP 驱动的梯度优化、几何感知约束(如软 ICP 和穿透损失)以及分阶段调度策略,在无需训练新模型的情况下,仅凭文本提示即可实现语义准确且物理合理的 3D 网格空间对齐。
本文提出了感知反事实测地线(PCG)方法,通过利用鲁棒视觉特征构建感知黎曼度量来引导潜空间优化,从而生成符合人类感知、位于流形上且语义有效的反事实解释,克服了现有方法因几何失配导致的语义漂移和对抗性崩溃问题。
本文提出了 Vision-DeepResearch,一种通过冷启动监督与强化学习训练多轮、多实体及多尺度视觉文本搜索能力的多模态大模型新范式,使其在复杂噪声环境下能进行深度推理与广泛证据聚合,从而显著超越现有模型及基于 GPT-5 等闭源强基座的工作流。
该论文针对传统异常检测忽略上下文依赖性的局限,提出了一个名为 CAAD-3K 的新基准和一种基于视觉 - 语言表征的条件兼容性学习框架,通过建模主体与上下文的兼容性关系,在多个数据集上实现了显著优于现有方法的性能。
本文提出了名为 HitEmotion 的基于心智理论(ToM)的分层基准、引导情感推理的推理链以及利用中间心理状态进行过程监督的强化学习方法 TMPO,旨在解决多模态大模型在深层情感理解上的不足,并通过实验验证了该方法在提升推理准确性与连贯性方面的有效性。
本文提出了一种针对扩散模型的后训练量化方法,通过为校准样本学习最优权重以对齐不同时间步的梯度方向,有效解决了现有均匀量化策略因忽略时间步差异而导致的性能下降问题。
本文提出了一种名为 CaCoVID 的基于强化学习的视频理解新框架,通过优化策略网络主动选择对预测贡献最大的视频令牌组合,从而有效解决现有注意力分数导向的压缩方法中令牌贡献度不明确的问题,显著提升了视频大语言模型的推理效率。
CloDS 提出了一种名为 Cloth Dynamics Grounding 的新场景及相应的无监督学习框架,通过引入支持双向映射的“双位置不透明度调制”技术,仅利用多视角视觉观测数据即可在未知条件下有效学习布料动力学并具备强大的泛化能力。
本文针对现有基准在视觉搜索导向性和评估场景真实性方面的不足,构建了包含 2000 个实例的 Vision-DeepResearch 基准(VDR-Bench)以评估多模态大模型的复杂图文检索能力,并提出了一种有效的多轮裁剪搜索工作流以提升模型在真实场景下的表现。
本研究通过分析 Stable Diffusion XL 和 DALL-E 3 的生成结果,揭示了当前文生图模型在残障群体表征上存在的持续失衡问题,并强调了通过持续评估与优化以推动更具包容性描绘的必要性。
本文提出了残差流扩散模型(RFDM),这是一种基于图像扩散模型的高效因果视频编辑方法,通过预测帧间残差实现了可变长度视频的逐帧编辑,在保持与图像模型相当计算成本的同时,显著提升了视频编辑的效率与效果。
该研究通过对比五个前沿模型在医疗与自然图像数据集上的表现,揭示了单切片重建 3D 体积时因深度模糊导致的体素重叠率普遍低下,但指出 SAM3D 在拓扑相似性上表现最佳,从而强调了实现可靠医疗 3D 重建亟需领域特定适配与解剖约束。