Multi-Quadruped Cooperative Object Transport: Learning Decentralized Pinch-Lift-Move
该论文提出了一种基于分层策略和星座奖励机制的去中心化多足机器人协作搬运方法,使 N 台四足机器人在无通信、无刚性连接且仅靠物理接触的情况下,能够协同完成对不可抓取物体的夹取、提升与移动任务,并实现了从 2 到 10 台机器人的任意规模扩展及仿真到现实的迁移。
8120 篇论文
该论文提出了一种基于分层策略和星座奖励机制的去中心化多足机器人协作搬运方法,使 N 台四足机器人在无通信、无刚性连接且仅靠物理接触的情况下,能够协同完成对不可抓取物体的夹取、提升与移动任务,并实现了从 2 到 10 台机器人的任意规模扩展及仿真到现实的迁移。
该论文基于对七个国家、十八种语言及八个真实案例的混合研究,识别出影响非西方语境下 AI 系统设计部署的六大关键因素,并提出了十二条旨在促进跨学科协作、确保系统文化契合度与社会公平性的设计指南。
本文提出了一种名为 CSLICS 的低成本模块化成像系统,利用人机协作训练的目标检测技术实现珊瑚产卵的自动化计数,在 Great Barrier Reef 的实验中不仅显著提升了不同发育阶段产卵检测的准确率(表面检测 F1 分数达 82.4%),还大幅减少了人工劳动时间,从而有效推动了珊瑚礁生态修复的规模化发展。
该论文提出了一种无监督方法,通过识别解码方向(基于激活聚类)和估计编码方向(基于信号向量),并利用不确定性区域对齐技术,成功恢复了深度视觉网络中概念信息的编码 - 解码方向对,从而实现了对模型黑盒机制的可解释性分析、预测解释及干预修正。
该论文针对视觉语言模型在多轮多模态对话中面临的安全挑战,构建了包含 4484 条标注对话的 MMDS 数据集及自动化红队测试框架,并提出了 LLaVAShield 安全审计系统,该系统在检测多轮对话中的隐蔽恶意意图和累积风险方面显著优于现有模型与工具。
该研究通过开发一种针对历史地图复杂性的双阶段 U-Net 深度学习流程,成功从 1925 至 1950 年的法国历史地图中提取并发布了首个覆盖全国的高精度城市足迹数据集,填补了 20 世纪 70 年代前法国城市扩张量化分析的空白。
该论文提出了一种名为 MPC-CLF-CBF 的实时贝塞尔曲线约束运动规划算法,通过结合高阶控制障碍函数与控制李雅普诺夫函数,有效解决了多机器人集群在复杂障碍环境中维持连通性与导航成功率之间的矛盾,并实现了连接丢失后的自动恢复,且已在 8 架 Crazyflie 微型四旋翼飞行器的仿真与实物实验中得到验证。
本文提出了 LARA-Gen 框架,通过潜在情感表示对齐和基于连续效价 - 唤醒度空间的情感控制模块,实现了音乐生成模型中细粒度且连续的情感控制,并建立了相应的评估基准以验证其优越性。
该论文提出了一种基于资产(Asset-Centric)的度量语义地图方法,利用四足机器人构建包含详细网格、类别和位姿的物体级场景表示,在精度上优于现有基础模型和机器人建图方案,并实现了与大型语言模型的无缝集成以支持复杂的场景理解与语义导航。
NaviGait 提出了一种结合轨迹优化结构与强化学习适应性的分层框架,通过从离线步态库中选择、微调并稳定步态,实现了训练更快、奖励设计更直观且兼具高鲁棒性与参考运动保真度的双足机器人 locomotion 控制。
BanaServe 是一种面向解耦大模型服务的动态编排框架,通过引入分层权重迁移、注意力级 KV 缓存迁移及全局共享存储机制,实现了计算与内存资源的细粒度动态重平衡,有效解决了静态分配导致的资源浪费、负载不均及缓存热点问题,从而显著提升了系统吞吐量并降低了延迟。
该论文提出了一种统一帧内与帧间编码的实时神经视频压缩框架,通过引入自适应帧内编码机制有效解决了遮挡、新内容处理及误差累积问题,并采用双向两帧压缩设计,在保持实时性的同时显著提升了压缩效率与稳定性。
本文针对连通无标号多智能体路径规划(CUMAPF)问题,提出了一种名为 PULL 的轻量级多项式时间算法,该算法通过规则驱动的单步配置更新在保持连通性的同时高效生成路径,显著优于整数线性规划方法并适用于大规模智能体场景。
该论文挑战了动态环境中增量规划必须复用旧有信息的传统假设,提出利用快速几乎必然渐近最优(ASAO)算法将增量规划问题转化为一系列独立求解任务,从而在无需显式复用计划的情况下更高效地应对环境变化并生成高质量路径。
该论文提出通过筛选关键身体地标子集并结合样条插值填补缺失数据,在巴西手语(LIBRAS)孤立手势识别任务中实现了比现有方法快 5 倍且精度相当甚至更优的轻量化解决方案。
该论文提出了名为 FRIDA 的轻量级框架,通过利用预训练 Stable Diffusion 模型的特征,实现了无需训练即可检测合成图像并准确归因其生成源,在 GenImage 基准测试中展现了跨生成器检测与源模型归因的卓越性能。
本文提出了 EgoMI 框架,通过从第一人称视角捕捉同步的手部操作与主动头部运动轨迹,并结合记忆增强策略,有效解决了人形机器人模仿学习中因视角差异导致的分布偏移问题,显著提升了半人形机器人的操作性能。
本文提出了一种名为 SPAN 的新方法,通过空间点对齐和 3D-2D 投影对齐机制,结合分层任务学习策略,解决了单目 3D 目标检测中因解耦预测导致的几何不一致问题,从而显著提升了检测性能。
本文提出了名为 V-Attack 的新型攻击方法,通过利用 Transformer 注意力机制中解耦且富含局部语义信息的“值特征”(Value Features)替代传统纠缠的 patch 特征,并引入自值增强与文本引导操纵模块,实现了对大型视觉语言模型(LVLMs)图像语义的精准可控对抗攻击,显著提升了攻击成功率。
本文提出了名为 AFRO 的自监督框架,通过在不依赖动作或重建监督的情况下,利用生成扩散过程联合建模正向与逆向动力学,成功解决了现有 3D 视觉预训练方法在机器人操作任务中因缺乏状态 - 动作动态建模而表现不佳的问题,显著提升了多任务下的操作成功率并展现出良好的可扩展性。