cs.RO 篇论文 | Gist.Science

ViLAM: Distilling Vision-Language Reasoning into Attention Maps for Social Robot Navigation

本文提出了 ViLAM 方法，通过将大型视觉 - 语言模型的推理能力蒸馏为空间注意力图，从而生成具备社会意识的导航代价地图，显著提升了机器人在真实场景中的社会合规导航成功率。

Mohamed Elnoor, Kasun Weerakoon, Gershom Seneviratne, Jing Liang, Vignesh Rajagopal, Dinesh ManochaTue, 10 Ma💻 cs

IMPACT: Intelligent Motion Planning with Acceptable Contact Trajectories via Vision-Language Models

本文提出了 IMPACT 框架，利用视觉语言模型推断环境语义以生成各向异性接触成本图，并结合接触感知 A*规划器，实现在杂乱环境中高效且安全的接触式运动规划。

Yiyang Ling, Karan Owalekar, Oluwatobiloba Adesanya, Erdem Bıyık, Daniel SeitaTue, 10 Ma🤖 cs.LG

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

该论文介绍了利用 Apple Vision Pro 采集的 EgoDex 数据集，这是目前规模最大且最多样化的灵巧操作数据集，包含 829 小时带有同步 3D 手部追踪数据的沉浸式视频，旨在通过填补大规模数据空白来推动机器人模仿学习与基础模型的发展。

Ryan Hoque, Peide Huang, David J. Yoon, Mouli Sivapurapu, Jian ZhangTue, 10 Ma🤖 cs.LG

ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers

本文提出了名为 ViTaPEs 的基于 Transformer 的架构，通过引入包含模态内局部编码与跨模态全局编码的两阶段位置注入机制，实现了任务无关的视触觉表征学习，在多项真实世界数据集的识别任务及机器人抓取场景中均展现出超越现有最先进方法的性能与零样本泛化能力。

Fotios Lygerakis, Ozan Özdenizci, Elmar RückertTue, 10 Ma🤖 cs.LG

ActivePusher: Active Learning and Planning with Residual Physics for Nonprehensile Manipulation

本文提出了 ActivePusher 框架，通过结合残差物理建模与基于不确定性的主动学习，优化非抓取操作中的数据收集与规划过程，从而显著提升了数据效率及在仿真和真实环境中的规划成功率。

Zhuoyun Zhong, Seyedali Golestaneh, Constantinos ChamzasTue, 10 Ma🤖 cs.LG

DemoDiffusion: One-Shot Human Imitation using pre-trained Diffusion Policy

DemoDiffusion 提出了一种无需特定任务训练或人机配对数据即可实现单样本人类模仿的机器人操作新方法，该方法通过运动学重定向将人类手势转化为粗略轨迹，并利用预训练扩散策略将其修正为符合机器人动作分布的可行轨迹，在 8 项真实世界任务中取得了 83.8% 的平均成功率。

Sungjae Park, Homanga Bharadhwaj, Shubham TulsianiTue, 10 Ma🤖 cs.LG

Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification

该论文揭示了多模态大语言模型（MLLM）作为验证器时普遍存在的“同意偏差”问题，并提出了一种名为自我 grounded 验证（SGV）的两步生成方法，通过先独立生成行为先验再评估轨迹，显著提升了验证准确性及智能体在网页导航、计算机操作和机器人等领域的任务完成表现。

Moises Andrade, Joonhyuk Cha, Brandon Ho, Vriksha Srihari, Karmesh Yadav, Zsolt KiraTue, 10 Ma🤖 cs.LG

ORN-CBF: Learning Observation-conditioned Residual Neural Control Barrier Functions via Hypernetworks

本文提出了一种基于哈密顿 - 雅可比可达性分析的观测条件残差神经控制障碍函数（ORN-CBF）方法，利用超网络架构确保预测安全集不与观测到的失效集相交，从而在部分可观测环境中近似恢复最大安全集，并通过仿真与硬件实验验证了其在提升地面机器人与四旋翼飞行器安全性及泛化能力方面的有效性。

Bojan Derajic, Sebastian Bernhard, Wolfgang HönigTue, 10 Ma🤖 cs.LG

Efficient Construction of Implicit Surface Models From a Single Image for Motion Generation

本文提出了名为 FINS 的轻量级框架，通过结合多分辨率哈希网格编码器与预训练基础模型，实现了仅需单张 RGB 图像即可在数秒内高效重建高保真隐式表面及 SDF 场，并在收敛速度、重建精度及机器人表面跟随任务中优于现有最先进方法。

Wei-Teng Chu, Tianyi Zhang, Matthew Johnson-Roberson, Weiming ZhiTue, 10 Ma💻 cs

CroSTAta: Cross-State Transition Attention Transformer for Robotic Manipulation

本文提出了一种名为 CroSTAta 的跨状态转换注意力 Transformer，通过引入新颖的状态转换注意力（STA）机制并结合训练时的时序掩码策略，使机器人策略能够显式建模演示中的时序结构（如失败与恢复模式），从而在模拟环境中显著提升了处理执行变化及精密任务的能力。

Giovanni Minelli, Giulio Turrisi, Victor Barasuol, Claudio SeminiTue, 10 Ma🤖 cs.LG

Pretraining in Actor-Critic Reinforcement Learning for Robot Locomotion

该论文提出了一种针对机器人运动控制的预训练 - 微调范式，通过任务无关的探索数据训练本体感知逆动力学模型（PIDM）来初始化 PPO 等演员 - 评论家算法，从而在多种机器人环境中显著提升了样本效率（平均 36.9%）和任务性能（平均 7.3%）。

Jiale Fan, Andrei Cramariuc, Tifanny Portela, Marco HutterTue, 10 Ma🤖 cs.LG

Vectorized Online POMDP Planning

本文提出了向量化在线 POMDP 规划器（VOPP），这是一种利用张量表示和完全向量化计算来消除并行依赖与同步瓶颈的新型在线求解器，其计算效率比现有最先进并行求解器高出至少 20 倍，且在仅需千分之一规划预算的情况下性能优于最先进序列求解器。

Marcus Hoerger, Muhammad Sudrajat, Hanna KurniawatiTue, 10 Ma💻 cs

Whole-Brain Connectomic Graph Model Enables Whole-Body Locomotion Control in Fruit Fly

该论文提出了基于果蝇全脑连接组构建的 FlyGM 模型，通过将静态神经架构转化为定向消息传递图，成功实现了无需任务特定调优的果蝇全身运动控制，并证明了其相较于随机图或多层感知机具有更高的样本效率和性能。

Zehao Jin, Yaoye Zhu, Chen Zhang, Yanan SuiTue, 10 Ma🤖 cs.LG

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

本文提出了名为 TimeSpot 的基准测试，旨在评估视觉语言模型在真实世界场景下仅凭视觉输入推断地理位置和时间信息的能力，结果显示当前最先进的模型在此类任务上表现不足，亟需新方法以实现鲁棒的地理时空理解。

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan ParvezTue, 10 Ma💬 cs.CL

One-Shot Badminton Shuttle Detection for Mobile Robots

本文提出了一种专为移动机器人设计的鲁棒性单次羽毛球检测框架，通过构建包含 20,510 帧半自动标注数据的新数据集并优化 YOLOv8 网络，有效解决了动态视角下羽毛球检测的难题，为后续跟踪与轨迹估计等任务奠定了基础。

Florentin Dipner, William Talbot, Turcan Tuna, Andrei Cramariuc, Marco HutterTue, 10 Ma💻 cs

A Pivot-Based Kirigami Utensil for Hand-Held and Robot-Assisted Feeding

本文介绍了一种基于枢轴设计的可变形"Kiri 勺”，它通过类似钳子的挤压机制实现食物抓取与防洒，既可作为手餐具供震颤或行动受限者使用，也可作为机器人辅助喂食附件，并在用户研究中展现出比现有方案更优的防洒效果与需求匹配度。

Keone Leao, Grace Brotherson, Iain Mischel, Sagar Parekh, Dylan P. LoseyTue, 10 Ma💻 cs

Dynamic Targeting of Satellite Observations Using Supplemental Geostationary Satellite Data and Hierarchical Planning

本文提出了一种结合地球静止轨道卫星数据与分层规划方法的动态目标观测新策略，通过利用长达 35 分钟的超前信息制定长期观测蓝图并结合星载传感器进行短期优化，显著提升了云规避和风暴追踪等场景下的观测性能（最高提升 41%）。

Akseli Kangaslahti, Itai Zilberstein, Alberto Candela, Steve ChienTue, 10 Ma💻 cs

Don't Freeze, Don't Crash: Extending the Safe Operating Range of Neural Navigation in Dense Crowds

该论文提出了一种结合密度不变观测编码、密度随机化训练及物理信息近距奖励塑造的强化学习方法，有效解决了密集人群导航中因分布外密度导致的泛化失效问题，在显著减少冻结现象的同时实现了零样本密度泛化与高碰撞避免率。

Jiefu Zhang, Yang Xu, Vaneet AggarwalTue, 10 Ma🤖 cs.LG

Improved Constrained Generation by Bridging Pretrained Generative Models

该论文提出了一种通过微调预训练生成模型，使其能够在保持生成质量的同时直接在复杂可行域（如道路地图）内生成样本的约束生成框架。

Xiaoxuan Liang, Saeid Naderiparizi, Yunpeng Liu, Berend Zwartsenberg, Frank WoodTue, 10 Ma🤖 cs.LG

Robotic Foundation Models for Industrial Control: A Comprehensive Survey and Readiness Assessment Framework

这篇论文全面综述了机器人基础模型（RFM）的工业适用性，提出了包含 149 项具体标准的评估框架，并通过大规模评估发现当前 RFM 在工业领域的成熟度有限且发展不均衡，强调未来的进步应依赖于将安全、实时性、鲁棒感知及系统集成等要素系统性地纳入可审计的部署堆栈中。

David Kube, Simon Hadwiger, Tobias MeisenTue, 10 Ma💻 cs