Asset-Centric Metric-Semantic Maps of Indoor Environments
该论文提出了一种基于资产(Asset-Centric)的度量语义地图方法,利用四足机器人构建包含详细网格、类别和位姿的物体级场景表示,在精度上优于现有基础模型和机器人建图方案,并实现了与大型语言模型的无缝集成以支持复杂的场景理解与语义导航。
5777 篇论文
该论文提出了一种基于资产(Asset-Centric)的度量语义地图方法,利用四足机器人构建包含详细网格、类别和位姿的物体级场景表示,在精度上优于现有基础模型和机器人建图方案,并实现了与大型语言模型的无缝集成以支持复杂的场景理解与语义导航。
NaviGait 提出了一种结合轨迹优化结构与强化学习适应性的分层框架,通过从离线步态库中选择、微调并稳定步态,实现了训练更快、奖励设计更直观且兼具高鲁棒性与参考运动保真度的双足机器人 locomotion 控制。
BanaServe 是一种面向解耦大模型服务的动态编排框架,通过引入分层权重迁移、注意力级 KV 缓存迁移及全局共享存储机制,实现了计算与内存资源的细粒度动态重平衡,有效解决了静态分配导致的资源浪费、负载不均及缓存热点问题,从而显著提升了系统吞吐量并降低了延迟。
该论文提出了一种统一帧内与帧间编码的实时神经视频压缩框架,通过引入自适应帧内编码机制有效解决了遮挡、新内容处理及误差累积问题,并采用双向两帧压缩设计,在保持实时性的同时显著提升了压缩效率与稳定性。
本文针对连通无标号多智能体路径规划(CUMAPF)问题,提出了一种名为 PULL 的轻量级多项式时间算法,该算法通过规则驱动的单步配置更新在保持连通性的同时高效生成路径,显著优于整数线性规划方法并适用于大规模智能体场景。
该论文挑战了动态环境中增量规划必须复用旧有信息的传统假设,提出利用快速几乎必然渐近最优(ASAO)算法将增量规划问题转化为一系列独立求解任务,从而在无需显式复用计划的情况下更高效地应对环境变化并生成高质量路径。
该论文提出通过筛选关键身体地标子集并结合样条插值填补缺失数据,在巴西手语(LIBRAS)孤立手势识别任务中实现了比现有方法快 5 倍且精度相当甚至更优的轻量化解决方案。
该论文提出了名为 FRIDA 的轻量级框架,通过利用预训练 Stable Diffusion 模型的特征,实现了无需训练即可检测合成图像并准确归因其生成源,在 GenImage 基准测试中展现了跨生成器检测与源模型归因的卓越性能。
本文提出了 EgoMI 框架,通过从第一人称视角捕捉同步的手部操作与主动头部运动轨迹,并结合记忆增强策略,有效解决了人形机器人模仿学习中因视角差异导致的分布偏移问题,显著提升了半人形机器人的操作性能。
本文提出了一种名为 SPAN 的新方法,通过空间点对齐和 3D-2D 投影对齐机制,结合分层任务学习策略,解决了单目 3D 目标检测中因解耦预测导致的几何不一致问题,从而显著提升了检测性能。
本文提出了名为 V-Attack 的新型攻击方法,通过利用 Transformer 注意力机制中解耦且富含局部语义信息的“值特征”(Value Features)替代传统纠缠的 patch 特征,并引入自值增强与文本引导操纵模块,实现了对大型视觉语言模型(LVLMs)图像语义的精准可控对抗攻击,显著提升了攻击成功率。
本文提出了名为 AFRO 的自监督框架,通过在不依赖动作或重建监督的情况下,利用生成扩散过程联合建模正向与逆向动力学,成功解决了现有 3D 视觉预训练方法在机器人操作任务中因缺乏状态 - 动作动态建模而表现不佳的问题,显著提升了多任务下的操作成功率并展现出良好的可扩展性。
该论文提出了首个音频 - 视觉世界模型(AVWM)框架,通过构建包含双耳音频与视觉轨迹的 AVW-4k 数据集,并设计 AV-CDiT 多模态扩散 Transformer 模型,实现了在精确动作控制下对视听动态的高保真模拟,显著提升了智能体在连续视听导航任务中的表现。
该论文提出了一种针对带时间窗旅行商问题(TSPTW)的高效精确算法,证明了经典基准实例因结构可被利用而不再具备代表性,无法有效评估算法性能或作为机器学习训练集。
本文通过深入分析 VGGT 和中全局注意力模块的作用机制,提出了一种无需训练的加速方案,通过将早期层转换为帧注意力并结合 K/V 子采样策略,在显著提升多视图推理速度(最高达 10 倍)的同时保持了原有的精度与鲁棒性。
本文提出了 UniBYD 统一框架,通过结合统一形态表示、动态 PPO 算法及混合马尔可夫影子引擎,实现了从模仿人类演示到适应多样化机器人形态的强化学习策略探索,并在首个跨本体操作基准 UniManip 上取得了显著性能提升。
本文提出了一种名为“分解与组合”的自监督多模态骨架动作表示学习框架,通过分解融合特征以对齐单模态真值以及利用单模态特征作为自监督指导来增强多模态表示,从而在 NTU RGB+D 和 PKU-MMD II 等数据集上实现了计算成本与模型性能之间的优异平衡。
该论文针对扩散模型强化学习中的偏好模式崩溃问题,提出了 DivGenBench 基准测试并设计了方向解耦对齐(D²-Align)框架,通过方向性修正奖励信号在保持生成多样性的同时实现了更优的人类偏好对齐。
本文提出了名为 Preguss 的模块化细粒度框架,通过结合静态分析与大语言模型,利用潜在运行时错误引导验证单元构建与优先级排序,成功实现了对千行代码级大规模程序的高度自动化形式化验证,显著降低了人工验证成本。
本文针对数字语义通信中因离散调制和实际传输流程而特有的安全威胁,系统梳理了该领域的基础理论、架构差异、威胁景观及防御策略,并展望了未来的研究方向。