D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI
该论文提出了 D2E 框架,通过利用大规模桌面游戏数据(包括人类演示和伪标签数据)预训练通用视觉 - 动作模型,成功实现了向真实世界具身 AI 任务(如机械臂操作和导航)的高效迁移,其 10 亿参数模型在性能上媲美甚至超越了参数量大 7 倍的现有模型。
6876 篇论文
该论文提出了 D2E 框架,通过利用大规模桌面游戏数据(包括人类演示和伪标签数据)预训练通用视觉 - 动作模型,成功实现了向真实世界具身 AI 任务(如机械臂操作和导航)的高效迁移,其 10 亿参数模型在性能上媲美甚至超越了参数量大 7 倍的现有模型。
本文提出了 Human3R,一种基于 CUT3R 架构的轻量级统一前馈框架,仅需单张 GPU 在 BEDLAM 合成数据上训练一天,即可从单目视频中实时(15 FPS)一次性重建全局多人体 SMPL-X 模型、稠密 3D 场景及相机轨迹,无需依赖多阶段流水线或外部预处理模块。
本文提出了 MIRAGE 框架,通过引入多层次细粒度对齐范式、利用跨层级相似性一致性消除冗余计算,并实现参数自动配置,从而在显著提升多向量图像检索精度的同时,将计算开销降低了高达 3.5 倍。
本文揭示了基于强化学习的视觉推理模型通过将冗余视觉表征转化为紧凑的跨域文本表征来实现泛化,并据此提出了 RALI 算法,利用对比学习直接对齐图像与这些文本表征,从而在无需加载大语言模型或执行推理过程的情况下,以极低的参数量和推理时间实现了与推理模型相当的泛化性能。
该研究利用机制可解释性技术揭示了视频大语言模型(VideoLLMs)内部信息流动的隐藏模式,阐明了其从跨帧交互到视频 - 语言融合再到答案生成的时序推理机制,并发现模型通过抑制大量注意力边来保留关键信息路径以维持性能。
本文提出了一种名为 Self-Aug 的无需训练的解码策略,通过利用模型内在知识实现查询自适应的语义对齐增强,并结合基于熵的自适应阈值算法动态调整候选词规模,从而显著提升了大型视觉 - 语言模型生成的事实一致性。
本文提出了一种基于无条件扩散模型的火星地形重建方法,通过非均匀重缩放策略处理 NASA HiRISE 数据,在填补卫星高度图缺失值方面显著优于传统插值算法,有效提升了虚拟现实中火星环境模拟的几何一致性与感知相似度。
本文提出了一种名为 CASR-Net 的深度学习网络,通过结合多通道预处理、基于 Self-ONN 解码器的 UNet 分割架构以及轮廓细化模块,显著提升了 X 射线冠状动脉造影图像中狭窄血管的分割精度与连续性,为冠心病的早期诊断提供了有力的自动化工具。
本文提出了 Kinematify 框架,该框架能够仅凭任意 RGB 图像或文本描述,通过结合蒙特卡洛树搜索与几何驱动优化,自动合成具有物理一致性和功能有效性的高自由度可动物体模型,从而克服了现有方法对运动序列或人工数据集的依赖。
本文提出了名为 DetGain 的在线数据筛选方法,通过估算图像对数据集平均精度(AP)的边际贡献来动态选择训练样本,从而在多种目标检测架构上实现了精度提升、低质数据鲁棒性增强以及与知识蒸馏技术的兼容。
本文提出了 PrismAudio 框架,通过引入分解式思维链(CoT)与多维奖励机制解决视频生成音频中的目标纠缠问题,并借助 Fast-GRPO 优化训练效率及 AudioCanvas 基准测试,实现了在语义一致性、时空同步性、美学质量和空间准确性四个维度上的最先进性能。
本文提出了基于马尔可夫尺度预测的 Markov-VAR 模型,通过将视觉自回归生成重构为非全上下文马尔可夫过程并利用滑动窗口压缩历史信息,在显著降低计算开销和显存占用的同时,实现了比现有 VAR 模型更优的生成性能。
本文提出了名为 ALARM 的框架,该框架通过集成不确定性量化、推理链、自我反思及多模型集成等质量保障技术,利用多模态大语言模型在复杂环境中实现了具备高可靠性的视觉异常检测。
该论文提出了一种名为 SSMP 的新方法,通过自-paced 掩码预测和渐进式自纠正机制,利用双向上下文建模克服了现有“先选后排”范式的误差传播问题,在电影预告片自动生成任务中取得了最先进的效果。
本文提出了名为 VGG-Flow 的基于梯度匹配的微调方法,利用最优控制理论将流匹配模型的微调速度场差异与价值函数梯度对齐,从而在有限计算预算下实现了高效且能保持先验分布的人类偏好对齐。
本文提出了 AVI-Edit 框架,通过粒度感知掩码细化器和自反馈音频代理,实现了具备高保真音画同步与细粒度时空控制能力的视频实例编辑,并构建了相应的大规模数据集以验证其优越性。
本文介绍了 CHAMMI-75 数据集,该数据集汇集了来自 75 项不同研究的异质多通道显微图像,旨在通过训练通道自适应模型来解决现有细胞形态量化模型因成像通道不匹配而无法跨研究复用的问题。
本文提出了 UniDrive-WM,一种基于统一视觉语言模型的世界模型,通过在一个架构中联合执行驾驶场景理解、轨迹规划及轨迹条件未来图像生成,利用生成预测作为监督信号来相互增强各模块性能,从而在 Bench2Drive 基准测试中显著提升了自动驾驶的规划精度并降低了碰撞率。
该论文提出了一种利用极低分辨率(如 8x8 像素)的汉字灰度图像替代传统索引令牌进行中文语言建模的方法,实验表明其不仅达到了与基线相当的预测准确率,还展现出显著的训练初期“热启动”优势。
本文提出了一种名为 LGANet++ 的无监督可变形图像配准框架,通过结合新颖的局部 - 全局注意力机制与特征交互融合技术,在跨患者、跨时间及跨模态 CT-MR 等多种临床场景下显著提升了配准精度与泛化能力,并优于现有最先进方法。