TRIP-Bag: A Portable Teleoperation System for Plug-and-Play Robotic Arms and Leaders
本文提出了 TRIP-Bag,一种可装入商用手提箱的便携式遥操作系统,它能在五分钟内快速部署并实现直接关节映射,从而有效解决了在实验室外收集高质量机器人操作数据时面临的设备差异和部署难题。
2556 篇论文
本文提出了 TRIP-Bag,一种可装入商用手提箱的便携式遥操作系统,它能在五分钟内快速部署并实现直接关节映射,从而有效解决了在实验室外收集高质量机器人操作数据时面临的设备差异和部署难题。
本文提出了 Flash-KMeans,一种专为现代 GPU 设计的 IO 感知且无争用的 K-Means 实现,通过引入 FlashAssign 和 sort-inverse update 等内核级创新,成功将 K-Means 从离线处理转变为高效的在线原语,在 NVIDIA H200 上实现了远超现有库(如 cuML 和 FAISS)的显著加速。
本文提出了 HelixTrack,一种完全基于事件驱动的方法,通过联合跟踪螺旋桨类物体并估计其转速,有效解决了传统跟踪器在快速周期性运动下的漂移问题,并发布了首个包含微秒级转速真值的 TQE 数据集以验证其性能。
该论文提出了 GPU 原生多目标强化学习算法 MORLAX 及配套的 MO-Playground 环境库,通过大规模并行化将计算速度提升 25 至 270 倍,有效解决了复杂机器人多目标优化问题中计算耗时过长且难以扩展的瓶颈。
该论文提出了一种名为 RAE-NWM 的导航世界模型,通过在保留细粒度结构信息的密集视觉特征空间(而非压缩潜在空间)中建模动作条件状态转移,并结合条件扩散 Transformer 与时间驱动门控模块,显著提升了视觉导航的结构稳定性与动作控制精度。
该论文针对基于视觉基础模型的检测器在跨分布场景下因过度依赖语义先验(即“语义回退”)而泛化性不足的问题,提出了一种无需参数的几何语义解耦(GSD)模块,通过从表征中显式移除语义成分以迫使模型聚焦于伪造痕迹,从而显著提升了在未见生成管道及通用场景下的 AI 生成图像检测性能。
该论文提出了将实例分割重构为稀疏顶点回归的 Polygon Detection Transformer (Poly-DETR),通过引入极坐标表示、极坐标可变形注意力及位置感知训练方案,在保持轻量级和高推理速度的同时显著提升了模型在高分辨率输入及特定领域规则形状实例上的分割性能。
该论文提出了名为"Reasoning-Oriented Programming"的新型攻击范式,通过构建框架\tool{}将语义正交的良性视觉组件编排为“语义小工具”,利用大视觉语言模型在后期推理阶段的逻辑合成漏洞来绕过感知层面的安全对齐,从而在多个基准测试中显著优于现有基线并成功诱导模型生成有害内容。
本文提出了 RF-Mem,一种受人类记忆双过程(熟悉感与回忆)启发的自适应检索框架,通过根据熟悉度不确定性动态切换直接匹配与迭代重构路径,在有限预算下实现了比现有方法更精准、可扩展的个性化大语言模型记忆检索。
本文提出了一种名为“车队即服务”(PlaaS)的决策支持框架,通过建立以车队服务提供商为领导者的斯塔克尔伯格博弈模型来优化定价与行驶距离决策,并分析了政府补贴及运营参数对平台利润与碳排放的影响,从而为自动驾驶车辆编队行驶促进可持续交通提供了理论依据与管理启示。
本文提出了一种名为 DiP 的新型多模态图表示学习框架,通过引入模态特定伪节点和动态信息路径,实现了自适应、稀疏且高效的跨模态消息传递,从而在多个基准测试中显著优于现有基线方法。
该论文提出了一种利用网络视频和隐式几何表示的大规模视觉语言导航框架,通过从 RGB 帧直接提取空间线索来克服传统 3D 重建的局限性,从而在多个基准测试中实现了最先进的性能并推动了零样本导航的发展。
该论文通过对比虚拟现实(VR)与传统视频会议,利用主观实验分析了端到端延迟如何从感知层面的交互流畅性和认知层面的社会临场感两个维度影响用户体验,并揭示了两者在不同延迟条件下的内在关联机制,从而为优化沉浸式虚拟环境系统提供了指导。
本文研究了欧几里得平面上带权重的在线非交叉匹配问题,证明了确定性算法无法获得非平凡竞争比,但随机化算法可实现常数竞争比,并进一步探讨了可撤销机制、共线点情形及最优解的咨询复杂度上界。
本文提出了一种名为 TPIFM 的任务感知模型,该模型基于自由能原理,通过量化不同协作任务对网络延迟和卡顿的感知差异(即任务特定的最小可觉差),实现了对远程增强现实协作中感知交互流畅性的准确评估。
本文提出了名为 ForgeDreamer 的新框架,通过多专家 LoRA 集成机制解决工业领域的类别知识干扰问题,并利用跨视图超图几何增强方法捕捉高阶结构依赖,从而显著提升了工业文本到 3D 生成的语义泛化能力与几何精度。
本文介绍了《FungiSync》这一多人共址混合现实体验,它通过将参与者化身森林植物并让手部接触触发数字感知世界的交融,将菌根网络的共生互赖转化为一种具身化的仪式,旨在以“真菌认识论”批判技术加速时代的极端个人主义。
该论文提出了一种通过定期重置高斯尺度、引入熵约束优化混合权重以及结合渐进式分辨率调度,从而显著缩短渲染所需高斯列表长度,在保持渲染质量的同时大幅提升 3D 高斯泼溅(3DGS)训练效率的新方法。
本文提出了名为 SVOR 的鲁棒框架,通过掩码并集策略、去噪感知分割头及两阶段课程训练,有效解决了真实场景下阴影、剧烈运动及掩码缺陷导致的视频物体移除难题,实现了无闪烁且时序稳定的移除效果。
该论文提出了一种基于特征场学习的新方法,通过自监督几何目标将 3D 形状分解为凸体集合,首次实现了面向开放世界的、可泛化至多种 3D 表示形式的高质量前馈凸分解模型。