GenHOI: Towards Object-Consistent Hand-Object Interaction with Temporally Balanced and Spatially Selective Object Injection
本文提出了 GenHOI,一种针对预训练视频生成模型的轻量级增强方法,通过引入头滑动 RoPE 实现时间平衡以及设计两级空间注意力门控实现空间选择性,从而在复杂野外场景中显著提升了手 - 物交互视频的物体一致性与生成质量。
2366 篇论文
本文提出了 GenHOI,一种针对预训练视频生成模型的轻量级增强方法,通过引入头滑动 RoPE 实现时间平衡以及设计两级空间注意力门控实现空间选择性,从而在复杂野外场景中显著提升了手 - 物交互视频的物体一致性与生成质量。
该论文针对自动驾驶 VLA 模型中因模仿学习导致探索不足的问题,提出了名为 Curious-VLA 的两阶段框架,通过可行轨迹扩展策略和自适应多样性采样等创新方法有效平衡了利用与探索,从而在 Navsim 基准测试中取得了当前最优的性能表现。
该论文通过构建反事实图像集并训练线性探针,分析了轻量级视觉语言模型在自动驾驶场景中对视觉概念的编码机制,揭示了感知失败(概念未线性编码)与认知失败(概念存在但语义对齐错误)两种主要故障模式,并发现物体距离增加会显著降低视觉概念的可分性。
该论文提出了 TempoSyncDiff,一种基于参考条件的潜在扩散框架,通过教师 - 学生蒸馏技术将推理步数大幅减少,从而在保持身份一致性和时序稳定性的同时,实现了低延迟、适合边缘部署的音频驱动说话头生成。
本文提出了一种将废弃的全向 RGB-LiDAR 日志转化为 3D 高斯泼溅(3DGS)鲁棒初始化资产的高效流水线,通过解决畸变校正、点云降采样及多模态配准等挑战,实现了从标准传感器数据到高质量数字孪生的确定性构建。
该论文提出了名为“情感连续口型生成”(EC-TFG)的新任务及相应的 TIE-TFG 模型,旨在通过文本和动态情感描述驱动生成能够展现自然、平滑情感过渡的高保真说话人脸视频,从而解决现有方法难以模拟人类连续情感变化的问题。
该论文提出了一种名为"Lyapunov Probes"的轻量级方法,通过将大语言模型视为动力系统并引入基于导数的稳定性约束,利用扰动下的置信度单调衰减特性来有效区分事实性知识与幻觉区域。
本文提出了首个专注于深度感知的多模态大语言模型 DeepSight,通过构建深度指令数据集、改进 ViT 编码器以捕捉深度细微变化,并利用 GLPN 和 GPT-4 生成训练数据,显著提升了模型在三维场景理解及空间推理方面的能力。
该论文提出了一种针对静态场景视频的神经视频压缩新方法,通过引入“正向激励噪声”将短期时序变化与持久背景解耦,在保持像素级保真度的同时显著降低了数据传输量,实现了计算与带宽的高效权衡。
针对现有联邦域泛化行人重识别方法因依赖全局特征和简单平均聚合而导致的局部细节捕捉不足及高质量客户端贡献被稀释的问题,本文提出了 FedARKS 框架,通过鲁棒知识提取与知识选择机制实现更有效的模型聚合,从而在保护隐私的同时提升模型在未见域上的泛化能力。
该论文提出了一种名为 RMD 的跨分辨率分布匹配蒸馏框架,通过利用对数信噪比映射和预测噪声重注入机制,有效弥合了跨分辨率分布差异,从而在保持高视觉保真度的同时,显著加速了扩散模型的推理过程(如在 SDXL 和 Wan2.1-14B 上分别实现了高达 33.4 倍和 25.6 倍的加速)。
本文提出了 Place-it-R1 框架,通过利用多模态大语言模型的思维链推理能力来引导视频扩散模型,实现了能够感知环境、符合物理因果逻辑且支持用户灵活权衡“合理性”与“保真度”的视频物体插入。
该论文提出“空间色彩混合”作为视觉语言模型的感知压力测试,揭示了现有模型在面对结构化色彩失真时存在严重且无法通过单纯扩展语言模型规模来缓解的感知缺陷,而人类在此类任务中表现显著更优,并证明受人类启发的预处理策略可有效提升模型鲁棒性。
该论文提出了一种名为虚拟治疗(VT)的多模态生成框架,通过结合 CT 影像、临床变量及辐射剂量增量来模拟非小细胞肺癌(NSCLC)在放疗期间的纵向演变,并验证了基于扩散模型的方案在生成解剖学上更合理且稳定的肿瘤演化轨迹方面优于 GAN 基线,从而为 NSCLC 的虚拟治疗监测和自适应放疗研究提供了有力工具。
本文提出了 VLM-RobustBench 基准,通过涵盖 49 种增强类型和 133 种扰动设置,评估了主流视觉语言模型在多种图像失真下的鲁棒性,揭示了当前模型虽语义能力强但空间脆弱,且低严重度几何扰动(如玻璃模糊)往往比高严重度光度扰动造成更显著的性能下降。
该论文提出了名为“反思流采样”(RF-Sampling)的训练无关推理增强框架,通过形式化推导证明其能隐式执行文本 - 图像对齐得分的梯度上升,从而有效解决了现有增强策略在 FLUX 等流匹配模型上表现不佳的问题,并显著提升了生成质量、提示词对齐度及测试时扩展能力。
该论文提出了 FreeOcc,一种无需训练即可利用预训练基础模型从多视角图像中恢复语义与几何信息的管道,通过融合提示分割、3D 重建及确定性优化,在 Occ3D-nuScenes 数据集上实现了与弱监督方法相当的无监督全景占据预测性能,并显著提升了弱监督场景下的训练效果。
该论文提出了一种无需训练伪标签生成与标签精化的半监督框架,通过利用视觉语言模型基于外观描述跨域生成结构一致的伪标签,并结合不确定性加权融合与反向对比学习,在仅使用 2.5% 标注数据的情况下实现了与全监督模型相当的乳腺超声图像分割性能。
本文提出了 JOPP-3D 框架,通过联合利用全景图像与点云数据并转换对齐基础视觉 - 语言特征,实现了在数据稀缺场景下基于自然语言查询的 3D 点云与全景图像开放词汇语义分割,并在多个数据集上显著超越了现有最先进方法。
该论文提出了一种结合多尺度奖励机制与强化学习(PPO)的优化方法,通过融合 2D 切片评估与 3D 体积分析来微调 3D 扩散模型,从而显著提升了医学图像生成的质量及其在下游肿瘤与疾病分类任务中的实用性。