World2Act: Latent Action Post-Training via Skill-Compositional World Models
该论文提出了 World2Act 框架,通过利用技能组合式世界模型将视觉 - 语言 - 动作策略的动作直接与世界模型的潜在动态对齐,并结合自动 LLM 技能分解流程解决视频生成长度不一致问题,从而显著提升了机器人在真实世界中的泛化能力和性能。
5629 篇论文
该论文提出了 World2Act 框架,通过利用技能组合式世界模型将视觉 - 语言 - 动作策略的动作直接与世界模型的潜在动态对齐,并结合自动 LLM 技能分解流程解决视频生成长度不一致问题,从而显著提升了机器人在真实世界中的泛化能力和性能。
该论文提出了一种确定性算法,仅需 次最短路径距离查询,即可在最大度为 且树长为 的连通无向图中高效重构边集,从而将此类图的重建复杂度相比现有最优算法降低了 因子并达到了下界。
本文提出了名为 COHORT 的基于 ROS 的多机器人协作框架,通过结合离线优势加权回归(AWR)与在线多智能体 PPO 的混合强化学习策略,动态调度大模型推理任务,在满足实时约束的同时显著降低了能耗并提升了 GPU 利用率。
本文提出了一种基于非透明安全代理(NTSP)架构的 TCP/QUIC 安全拆分与加速策略 PEPspace,通过结合利用深空链路预调度特性的速率拥塞控制、自适应前向纠错及理论推导的背压流控机制,有效解决了星际网络中的极端延迟与高丢包问题,显著提升了地球 - 月球场景下的传输性能与稳定性。
本文提出了 AsyncMDE,一种通过异步空间记忆机制将基础模型的高精度与轻量模型的实时性相结合的单目深度估计系统,在显著降低计算成本的同时实现了边缘平台上的高效部署。
该论文提出了 KnowDiffuser,一种将语言模型的语义推理能力与扩散模型的轨迹生成能力相结合的知识引导规划框架,通过先验轨迹初始化和两阶段去噪机制,有效弥合了自动驾驶系统中语义理解与物理运动规划之间的鸿沟,并在 nuPlan 基准测试中显著优于现有方法。
SignSparK 提出了一种基于稀疏关键帧学习的大规模多语言手语生成框架,通过结合高效的 FAST 分割模型与条件流匹配(CFM)技术,在解决现有方法平滑度与准确性权衡问题的同时,实现了多语言手语的高质量、可编辑及快速合成。
本文提出了 DiT4DiT,一种通过统一级联框架将视频扩散 Transformer 与动作扩散 Transformer 耦合的端到端视频 - 动作模型,它利用视频生成过程中的中间去噪特征作为动作预测的时空条件,在显著降低训练数据需求的同时实现了机器人控制任务中的最优性能与强泛化能力。
该论文提出了一种基于黑格尔承认理论与弗洛伊德精神动力学构建的 AI 辅导系统,通过“承认增强提示”与“多代理自我/超我架构”显著提升了教学表现,并采用“氛围学术”(vibe scholarship)的反思性方法论,由 AI 辅助撰写并评估了包含三个模型实验结果的配套论文,以此探讨人机协作对师生及研究者关系的深层影响。
本文提出了一种名为 LCAMV 的鲁棒 3D 重建方法,通过解析建模校正投影机和相机的横向色差,并利用基于泊松 - 高斯噪声模型的最小方差估计自适应融合多通道相位数据,从而在无需额外硬件或多次曝光的情况下,显著提升了彩色物体的高精度 3D 重建效果。
本文提出了名为 SUBTA 的框架,通过结合学习到的意图估计、场景图任务规划和上下文相关的运动辅助,显著提升了双手机器人遥操作在结构化装配任务中的位置与姿态精度,并降低了用户的精神负荷。
该论文提出了首个面向具身场景的可行动地理定位基准 WanderBench,并设计了结合推理与物理动作的 GeoAoT 框架,通过将静态识别转化为交互式探索,显著提升了大语言多模态模型在全球图像地理定位任务中的细粒度定位能力与泛化性。
本文提出了 MoXaRt,一种利用视听线索实时分离复杂 XR 环境中多声源的系统,通过级联架构将语音理解能力提升了 36.2% 并显著降低了用户的认知负荷。
本文提出了 DepthCache,一种无需训练的免模型修改框架,通过利用深度信息引导视觉 Token 的差异化压缩及跨帧冗余消除,在显著降低视觉语言动作模型推理延迟的同时,有效保持了机器人控制所需的近场空间推理能力。
本文提出了名为 CIPHER 的训练-free 方法,通过构建反事实图像扰动数据集识别并抑制大型视觉语言模型中由视觉模态引发的幻觉,利用扩散模型编辑图像提取幻觉特征子空间,并在推理阶段将隐藏状态投影出该子空间,从而在保持任务性能的同时显著降低幻觉率。
该论文针对现代软件验证成本高昂且效果不佳的问题,提出利用“影响力稀疏性”将测试转化为无模型搜索任务,并介绍了名为 EZR 的随机学习器,仅需少量样本即可高效引导系统达成目标,从而取代传统的重型求解器。
该论文提出了名为 StructDamage 的大规模统一数据集,通过整合并重新标注 32 个公开数据集,构建了涵盖 9 种表面类型的 7.8 万余张图像,旨在解决现有裂缝检测数据缺乏多样性与一致性的问题,并为结构损伤检测提供可复现的基准资源。
该论文提出了一种基于自编码器的空间自监督峰值学习神经网络,通过利用空间与光谱信息生成注意力掩码来筛选具有空间结构的质谱成像峰值,并引入基于专家标注分割掩码的评估方法,在多个公开数据集上证明了其性能优于现有最先进方法。
本文提出了 IMTBench,这是一个涵盖四种实际场景和九种语言、包含 2500 个样本的新基准,旨在通过多模态协同评估指标解决现有端到端图像内翻译基准合成数据过多及评估维度单一的问题,从而推动该领域的发展。
该研究通过将人工智能计算部门纳入全球变化分析模型(GCAM),揭示了在迈向后通用人工智能时代的过程中,AI 电力需求并非线性增长,而是取决于效率提升轨迹与收入驱动需求的博弈,且价格机制调节作用有限,从而为评估 AI 扩张对电力系统和碳排放的长期影响提供了情景分析框架。