DropVLA: An Action-Level Backdoor Attack on Vision-Language-Action Models
本文提出了 DropVLA,一种针对视觉 - 语言 - 动作(VLA)模型的动作级后门攻击方法,该方法仅需极少量数据投毒即可在保持正常任务性能的同时,通过视觉触发器精准操控机器人执行特定的安全关键动作,并已在物理机器人上验证了其有效性。
3836 篇论文
本文提出了 DropVLA,一种针对视觉 - 语言 - 动作(VLA)模型的动作级后门攻击方法,该方法仅需极少量数据投毒即可在保持正常任务性能的同时,通过视觉触发器精准操控机器人执行特定的安全关键动作,并已在物理机器人上验证了其有效性。
该论文提出了一种结合学习到的世界模型与基于采样的模型预测控制(MPC)的框架,利用离线演示数据在潜在空间预测未来状态,并通过学习到的代理价值函数解决稀疏奖励问题,从而在物理人形机器人上实现了仅凭本体感知和第一人称深度图像即可完成的鲁棒、实时接触规划。
该研究通过对比四种干预组别发现,尽管“护徒效应”理论认为向他人教授数字压力管理知识可能促进自身行为改变,但实际实验结果并未显示各组在降低数字压力方面存在显著差异,表明将认知投入转化为实际行为改变面临巨大挑战。
本文通过 PRISMA-ScR 指南对 2018 至 2025 年间基于无监督深度生成模型的神经影像异常检测研究进行了系统范围综述,总结了其在缺乏标注数据场景下的潜力,并指出了方法异质性、外部验证不足及数据集敏感性等关键挑战与未来发展方向。
本文提出了一种基于原始点云几何的鲁棒概率式可放置性度量方法,通过联合评估物体稳定性、抓取可行性和空间余量,实现了无需物体先验模型即可从部分观测中直接生成稳定且无碰撞的抓取 - 放置策略。
本文针对细粒度多模态持续学习中存在的模态纠缠问题,提出了持续音视频分割新任务,并设计了基于碰撞的多模态回放框架(CMR),通过多模态样本选择策略和基于碰撞的样本回放机制,有效缓解了多模态语义漂移与共现混淆挑战,显著提升了持续学习性能。
本文针对多模态大语言模型(MLLMs)在文本 - 视觉场景下的安全漏洞,提出了名为 PolyJailbreak 的新型黑盒越狱框架,该框架利用“多模态安全不对称”现象,通过原子策略原语库和强化学习多智能体优化,在无需访问模型内部参数的情况下实现了对 GPT-4o 等主流模型的高效攻击,显著超越了现有最先进方法。
本文提出了名为 HumanMPC 的模型预测控制框架,通过结合数据驱动的人体运动预测与一种仅约束初始控制输入的新型可达性安全公式,实现了微飞行器在复杂三维人类环境中既安全又高效的导航。
本文针对孟加拉国教育资源匮乏的现状,提出了一套结合《我的世界》教育版的分层人机交互框架,通过离线模式、本地网络及云端部署等适配方案,在低配硬件与不稳定基础设施下实现本土化、可访问的互动游戏学习。
本文提出了名为 Dream4Drive 的新型合成数据生成框架,通过结合 3D 感知引导图与 3D 资产渲染来微调驾驶世界模型,从而在无需额外训练轮次的情况下显著提升自动驾驶感知模型在长尾场景下的性能,并配套发布了大规模 3D 资产数据集 DriveObj3D。
本文提出了 MoE-GS,这是首个将混合专家(MoE)技术引入动态高斯泼溅的框架,通过新颖的体素感知像素路由自适应融合多种形变先验以提升动态新视图合成质量,并借助单遍渲染、门控剪枝及知识蒸馏等策略有效缓解了模型容量增加带来的效率挑战。
本研究通过在 Kubernetes 环境中对 Valkey、KeyDB 和 Garnet 等 Redis 替代方案进行真实负载基准测试,全面评估了它们在吞吐量、延迟、资源效率及迁移复杂度等方面的性能权衡与长期可行性,填补了当前云原生内存数据存储领域实验评估的空白。
本文提出了 HCLA 系统,这是一种面向人类的多智能体框架,旨在通过自然语言交互、结构化证据评分及可追溯的专家式推理重构,提升数字资产异常交易检测中的可解释性、问责制与决策透明度,以满足金融取证中的监管与合规需求。
本文提出了 AnyPcc 通用点云压缩框架,通过引入具备多粒度先验的通用上下文模型和实例自适应微调策略,有效解决了现有方法在跨密度场景及分布外数据上的泛化难题,在 15 个多样化数据集上实现了低复杂度下的最新压缩性能。
本文提出了一种结合主动机械臂搅拌与启发式置信度闭环控制的自动化方法,通过优化搅拌模式(四圈)和自适应调速策略,有效解决了水陷阱中害虫因遮挡导致的计数不准问题,显著降低了计数误差并缩短了任务执行时间。
本文提出了 CountFormer 框架,通过结合 DINOv2 自监督视觉基础模型与位置编码,在严格无样本设置下探索了利用视觉重复和结构特征提升类无关物体计数性能的有效性,并在 FSC-147 基准上取得了具有竞争力的结果。
本文提出了 LagMemo,一种利用语言 3D 高斯泼溅记忆构建统一 3D 语言记忆库的导航系统,通过高效查询与动态验证机制实现了多模态开放词汇及多目标视觉导航,并在其构建的 GOAT-Core 基准测试中显著超越了现有最先进方法。
SAGE 提出了一种无需微调的零样本方法,通过结合线稿与光流的结构引导及生成式合成技术,有效解决了在语义差异大或时间跨度长的多样化视频片段之间生成高质量、结构连贯过渡帧的难题。
本文提出了名为 MobiDock 的模块化自重构双臂移动机器人系统,该系统通过基于视觉的自主对接和螺纹锁紧机制将两个独立机器人物理连接为统一平台,从而将复杂的多机器人协同控制简化为单系统管理,显著提升了动态稳定性、操作精度及任务执行效率。
本文提出了向量化在线 POMDP 规划器(VOPP),这是一种利用张量表示和完全向量化计算来消除并行依赖与同步瓶颈的新型在线求解器,其计算效率比现有最先进并行求解器高出至少 20 倍,且在仅需千分之一规划预算的情况下性能优于最先进序列求解器。