STONE Dataset: A Scalable Multi-Modal Surround-View 3D Traversability Dataset for Off-Road Robot Navigation
本文提出了名为 STONE 的大规模多模态非结构化环境数据集,通过全自动无标注流程生成轨迹引导的 3D 可通行性地图,并配备同步的激光雷达、相机和雷达数据,旨在解决现有数据集在可扩展性和多模态感知方面的不足,推动非地面机器人导航中 3D 可通行性预测技术的发展。
7584 篇论文
本文提出了名为 STONE 的大规模多模态非结构化环境数据集,通过全自动无标注流程生成轨迹引导的 3D 可通行性地图,并配备同步的激光雷达、相机和雷达数据,旨在解决现有数据集在可扩展性和多模态感知方面的不足,推动非地面机器人导航中 3D 可通行性预测技术的发展。
本文通过工业基准和真实企业负载评估了基于大语言模型(LLM)的索引调优在微软数据库调优顾问(DTA)背景下的实际效果,发现尽管 LLM 因性能波动大和验证成本高而难以直接替代 DTA,但其能识别出显著优于 DTA 的配置并捕捉人类直觉洞察,可作为互补技术或启发 DTA 改进的潜力方向。
该论文提出了一种结合拓扑间隙识别与加速模型预测控制(MPC)的框架,通过高斯过程预测对手行为并构建动态占用走廊,在 F1TENTH 平台上实现了比现有方法更优的超高速多智能体赛车规划,显著缩短了超车时间、提高了成功率并降低了计算延迟。
ZipPIR 是一种无需客户端存储即可实现高吞吐量(超过 2 GB/s)的单服务器私有信息检索协议,它通过将 LWE 密文压缩为 Paillier 密文并利用几乎静默的离线阶段生成提示,在保持可扩展性的同时解决了现有方案在动态数据库和资源受限客户端场景下的局限性。
本文提出了一种基于云 - 边 - 端分层架构和网络功能虚拟化技术的分层观察 - 调整 - 决策 - 行动(H-OODA)框架,旨在通过融合自主决策与协同控制,提升无人机群在不确定环境下的适应性、可扩展性及决策效率。
本文提出了 WESPR 框架,该框架通过融合几何感知与局部气象数据快速预测环境风场,使四旋翼无人机能够在 10 秒内实现主动路径规划与控制调整,从而显著降低轨迹偏差并提升在湍流环境中的飞行稳定性。
该论文提出了一种基于 20 维关节角度描述符的几何感知度量学习框架,通过消除相机视角、手部和缩放差异带来的域偏移,显著提升了在 ASL、LIBRAS 等四种手语间进行静态手势少样本识别的跨语言迁移性能。
本文提出了 PIM-SHERPA,一种纯软件方法,通过解决存内计算(PIM)系统中预填充与解码阶段存在的内存属性不一致及权重布局不一致问题,实现了在 Llama 3.2 模型上以接近理论最大性能运行,同时节省约 47.8% 至 49.7% 的内存容量。
本文提出了 TubeMLLM,一种通过结合自然语言拓扑先验与视觉表示来增强拓扑感知能力的统一基础模型,并构建了 TubeMData 基准,在十五个数据集上实现了卓越的零样本泛化性能,显著降低了血管类解剖结构中的拓扑错误。
该论文提出了一种用于特定正类识别的新型分布式卷积神经网络(DisCNN),通过设计将正样本映射至高维紧凑集而将负样本映射至原点的新损失函数,实现了正类特征的解耦与轻量化提取,从而在复杂背景下展现出优异的泛化能力和检测效果。
该论文提出了 UniField 框架,通过利用预训练 3D 基础模型挖掘共享退化特征、引入场感知频谱校正机制(FASRM)解决频谱偏差,并发布大规模配对多场 MRI 数据集,实现了显著优于现有方法的 MRI 场强增强效果。
本文提出了 TRIP-Bag,一种可装入商用手提箱的便携式遥操作系统,它能在五分钟内快速部署并实现直接关节映射,从而有效解决了在实验室外收集高质量机器人操作数据时面临的设备差异和部署难题。
本文提出了 Flash-KMeans,一种专为现代 GPU 设计的 IO 感知且无争用的 K-Means 实现,通过引入 FlashAssign 和 sort-inverse update 等内核级创新,成功将 K-Means 从离线处理转变为高效的在线原语,在 NVIDIA H200 上实现了远超现有库(如 cuML 和 FAISS)的显著加速。
本文提出了 HelixTrack,一种完全基于事件驱动的方法,通过联合跟踪螺旋桨类物体并估计其转速,有效解决了传统跟踪器在快速周期性运动下的漂移问题,并发布了首个包含微秒级转速真值的 TQE 数据集以验证其性能。
该论文提出了 GPU 原生多目标强化学习算法 MORLAX 及配套的 MO-Playground 环境库,通过大规模并行化将计算速度提升 25 至 270 倍,有效解决了复杂机器人多目标优化问题中计算耗时过长且难以扩展的瓶颈。
该论文提出了一种名为 RAE-NWM 的导航世界模型,通过在保留细粒度结构信息的密集视觉特征空间(而非压缩潜在空间)中建模动作条件状态转移,并结合条件扩散 Transformer 与时间驱动门控模块,显著提升了视觉导航的结构稳定性与动作控制精度。
该论文针对基于视觉基础模型的检测器在跨分布场景下因过度依赖语义先验(即“语义回退”)而泛化性不足的问题,提出了一种无需参数的几何语义解耦(GSD)模块,通过从表征中显式移除语义成分以迫使模型聚焦于伪造痕迹,从而显著提升了在未见生成管道及通用场景下的 AI 生成图像检测性能。
该论文提出了将实例分割重构为稀疏顶点回归的 Polygon Detection Transformer (Poly-DETR),通过引入极坐标表示、极坐标可变形注意力及位置感知训练方案,在保持轻量级和高推理速度的同时显著提升了模型在高分辨率输入及特定领域规则形状实例上的分割性能。
该论文提出了名为"Reasoning-Oriented Programming"的新型攻击范式,通过构建框架\tool{}将语义正交的良性视觉组件编排为“语义小工具”,利用大视觉语言模型在后期推理阶段的逻辑合成漏洞来绕过感知层面的安全对齐,从而在多个基准测试中显著优于现有基线并成功诱导模型生成有害内容。
本文提出了 RF-Mem,一种受人类记忆双过程(熟悉感与回忆)启发的自适应检索框架,通过根据熟悉度不确定性动态切换直接匹配与迭代重构路径,在有限预算下实现了比现有方法更精准、可扩展的个性化大语言模型记忆检索。