Real-Time Motion-Controllable Autoregressive Video Diffusion
本文提出了 AR-Drag,这是首个结合强化学习与轨迹奖励机制的自回归视频扩散模型,能够在仅 13 亿参数的情况下实现低延迟、高保真且运动控制精准的实时图像到视频生成。
6890 篇论文
本文提出了 AR-Drag,这是首个结合强化学习与轨迹奖励机制的自回归视频扩散模型,能够在仅 13 亿参数的情况下实现低延迟、高保真且运动控制精准的实时图像到视频生成。
本文提出了概念驱动探索(CDE)方法,利用预训练视觉语言模型生成文本任务描述对应的对象级视觉概念,并通过辅助重建目标将其转化为内在奖励,从而在视觉强化学习中实现高效且抗噪的针对性探索,并在真实世界机械臂操作中取得了 80% 的成功率。
该研究通过在多轮辩论中让不同大语言模型对日常道德困境进行集体归责,揭示了同步与轮询两种交互协议下模型在观点修正率、价值取向(如自主性与共情)及从众行为上的显著差异,表明多智能体系统的交互结构会深刻影响其道德推理与价值对齐表现。
该论文提出了一种名为“功能头识别与类别条件重缩放”的免训练插件,通过自适应调整感知与推理导向注意力头在各层间的贡献,有效缓解了多模态大推理模型中因功能分配失衡导致的幻觉问题,在几乎不增加计算成本的情况下显著提升了模型的推理一致性与视觉忠实度。
本文提出了一种偏好条件多目标强化学习框架,通过平衡指令跟踪与外力顺应性,使单一人形机器人策略能够根据用户指定的偏好在导航精度与交互柔顺性之间灵活切换,并在仿真与真实硬件实验中验证了其稳定性与部署可行性。
本文提出了 DropVLA,一种针对视觉 - 语言 - 动作(VLA)模型的动作级后门攻击方法,该方法仅需极少量数据投毒即可在保持正常任务性能的同时,通过视觉触发器精准操控机器人执行特定的安全关键动作,并已在物理机器人上验证了其有效性。
该论文提出了一种结合学习到的世界模型与基于采样的模型预测控制(MPC)的框架,利用离线演示数据在潜在空间预测未来状态,并通过学习到的代理价值函数解决稀疏奖励问题,从而在物理人形机器人上实现了仅凭本体感知和第一人称深度图像即可完成的鲁棒、实时接触规划。
该研究通过对比四种干预组别发现,尽管“护徒效应”理论认为向他人教授数字压力管理知识可能促进自身行为改变,但实际实验结果并未显示各组在降低数字压力方面存在显著差异,表明将认知投入转化为实际行为改变面临巨大挑战。
本文通过 PRISMA-ScR 指南对 2018 至 2025 年间基于无监督深度生成模型的神经影像异常检测研究进行了系统范围综述,总结了其在缺乏标注数据场景下的潜力,并指出了方法异质性、外部验证不足及数据集敏感性等关键挑战与未来发展方向。
本文提出了一种基于原始点云几何的鲁棒概率式可放置性度量方法,通过联合评估物体稳定性、抓取可行性和空间余量,实现了无需物体先验模型即可从部分观测中直接生成稳定且无碰撞的抓取 - 放置策略。
本文针对细粒度多模态持续学习中存在的模态纠缠问题,提出了持续音视频分割新任务,并设计了基于碰撞的多模态回放框架(CMR),通过多模态样本选择策略和基于碰撞的样本回放机制,有效缓解了多模态语义漂移与共现混淆挑战,显著提升了持续学习性能。
本文针对多模态大语言模型(MLLMs)在文本 - 视觉场景下的安全漏洞,提出了名为 PolyJailbreak 的新型黑盒越狱框架,该框架利用“多模态安全不对称”现象,通过原子策略原语库和强化学习多智能体优化,在无需访问模型内部参数的情况下实现了对 GPT-4o 等主流模型的高效攻击,显著超越了现有最先进方法。
本文提出了名为 HumanMPC 的模型预测控制框架,通过结合数据驱动的人体运动预测与一种仅约束初始控制输入的新型可达性安全公式,实现了微飞行器在复杂三维人类环境中既安全又高效的导航。
本文针对孟加拉国教育资源匮乏的现状,提出了一套结合《我的世界》教育版的分层人机交互框架,通过离线模式、本地网络及云端部署等适配方案,在低配硬件与不稳定基础设施下实现本土化、可访问的互动游戏学习。
本文提出了名为 Dream4Drive 的新型合成数据生成框架,通过结合 3D 感知引导图与 3D 资产渲染来微调驾驶世界模型,从而在无需额外训练轮次的情况下显著提升自动驾驶感知模型在长尾场景下的性能,并配套发布了大规模 3D 资产数据集 DriveObj3D。
本文提出了 MoE-GS,这是首个将混合专家(MoE)技术引入动态高斯泼溅的框架,通过新颖的体素感知像素路由自适应融合多种形变先验以提升动态新视图合成质量,并借助单遍渲染、门控剪枝及知识蒸馏等策略有效缓解了模型容量增加带来的效率挑战。
本研究通过在 Kubernetes 环境中对 Valkey、KeyDB 和 Garnet 等 Redis 替代方案进行真实负载基准测试,全面评估了它们在吞吐量、延迟、资源效率及迁移复杂度等方面的性能权衡与长期可行性,填补了当前云原生内存数据存储领域实验评估的空白。
本文提出了 HCLA 系统,这是一种面向人类的多智能体框架,旨在通过自然语言交互、结构化证据评分及可追溯的专家式推理重构,提升数字资产异常交易检测中的可解释性、问责制与决策透明度,以满足金融取证中的监管与合规需求。
本文提出了 AnyPcc 通用点云压缩框架,通过引入具备多粒度先验的通用上下文模型和实例自适应微调策略,有效解决了现有方法在跨密度场景及分布外数据上的泛化难题,在 15 个多样化数据集上实现了低复杂度下的最新压缩性能。
本文提出了一种结合主动机械臂搅拌与启发式置信度闭环控制的自动化方法,通过优化搅拌模式(四圈)和自适应调速策略,有效解决了水陷阱中害虫因遮挡导致的计数不准问题,显著降低了计数误差并缩短了任务执行时间。