cs.RO 篇论文 | Gist.Science

An Embodied Companion for Visual Storytelling

本文介绍了名为"Companion"的艺术装置，它通过结合绘图机器人与大语言模型，利用上下文学习和实时工具调用实现人机语音与绘画的双向互动，将机器人从被动执行者转变为能推动共同视觉叙事的创造性伙伴，并经专家评估证实了其作品具备独特的审美价值与专业展览潜力。

Patrick Tresset, Markus Wulfmeier2026-03-09🤖 cs.AI

RoboLayout: Differentiable 3D Scene Generation for Embodied Agents

RoboLayout 通过引入可微分的可达性约束和局部细化优化机制，扩展了 LayoutVLM 框架，使其能够生成既符合语义逻辑又适应不同具身智能体物理交互能力的 3D 室内场景布局。

Ali Shamsaddinlou2026-03-09🤖 cs.AI

ProFocus: Proactive Perception and Focused Reasoning in Vision-and-Language Navigation

ProFocus 是一种无需训练的渐进式框架，通过大语言模型与视觉语言模型的协作，利用主动感知生成针对性视觉查询并结合分支多样化蒙特卡洛树搜索实现聚焦推理，从而在无需微调的情况下显著提升了视觉语言导航任务的性能。

Wei Xue, Mingcheng Li, Xuecheng Wu, Jingqun Tang, Dingkang Yang, Lihua Zhang2026-03-09💻 cs

Digital-Twin Losses for Lane-Compliant Trajectory Prediction at Urban Intersections

本文提出了一种基于数字孪生的 V2X 轨迹预测框架，通过结合 Bi-LSTM 生成器与包含标准均方误差及新型“孪生损失”的联合训练目标，在确保预测精度的同时有效降低了交通违规和碰撞风险，从而提升了城市复杂路口多智能体交互场景下的安全性与合规性。

Kuo-Yi Chao, Erik Leo Haß, Melina Gegg, Jiajie Zhang, Ralph Raßhofer, Alois Christian Knoll2026-03-09💻 cs

TEGA: A Tactile-Enhanced Grasping Assistant for Assistive Robotics via Sensor Fusion and Closed-Loop Haptic Feedback

本文提出了 TEGA 系统，这是一种通过融合肌电信号意图识别与视觉触觉感知、并利用可穿戴振动背心提供实时闭环力反馈的辅助遥操作框架，旨在帮助上肢残疾用户更直观、稳定地调节抓取力度，从而显著提升任务成功率。

Hengxu You, Tianyu Zhou, Fang Xu, Kaleb Smith, Eric Jing Du2026-03-09💻 cs

PRISM: Personalized Refinement of Imitation Skills for Manipulation via Human Instructions

PRISM 提出了一种结合模仿学习与强化学习的指令驱动方法，通过大语言模型生成奖励函数并结合人类反馈对策略进行迭代优化，从而在无需大量新数据的情况下高效提升机器人操作策略的泛化能力与鲁棒性。

Arnau Boix-Granell, Alberto San-Miguel-Tello, Magí Dalmau-Moreno, Néstor García2026-03-09🤖 cs.AI

Task Parameter Extrapolation via Learning Inverse Tasks from Forward Demonstrations

该论文提出了一种基于任务逆学习的新颖联合学习方法，通过构建正向与逆向任务的通用表征并利用辅助正向演示，实现了机器人技能策略在未见条件下的准确且高效的外推，在复杂操作任务中表现优于扩散模型。

Serdar Bahar, Fatih Dogangun, Matteo Saveriano, Yukie Nagai, Emre Ugur2026-03-09💻 cs

From Decoupled to Coupled: Robustness Verification for Learning-based Keypoint Detection with Joint Specifications

该论文提出了首个针对基于热力图的关键点检测器的耦合鲁棒性验证框架，通过混合整数线性规划将验证问题转化为联合偏差约束下的反例搜索，从而克服了传统解耦方法在连续坐标输出和高维输入下的局限性，实现了对关键点间依赖关系及下游任务需求的更紧确且有效的鲁棒性证明。

Xusheng Luo, Changliu Liu2026-03-09🤖 cs.LG

RACAS: Controlling Diverse Robots With a Single Agentic System

该论文提出了 RACAS 系统，这是一种通过自然语言交互的协作智能体架构，仅需机器人描述、动作定义和任务指令即可在不修改代码或模型权重的情况下，实现对轮式地面机器人、多关节机械臂及水下车辆等多样化平台的统一闭环控制。

Dylan R. Ashley, Jan Przepióra, Yimeng Chen, Ali Abualsaud, Nurzhan Yesmagambet, Shinkyu Park, Eric Feron, Jürgen Schmidhuber2026-03-09🤖 cs.AI

Control Lyapunov Functions for Underactuated Soft Robots

本文提出了一种针对欠驱动软体机器人的通用控制框架，通过在满足动力学约束和致动器限幅的前提下将快速指数稳定控制李雅普诺夫函数作为凸不等式约束，实现了在输入受限条件下具有稳定性保证的任务空间调节与跟踪，并在多种平台上验证了其优于现有基准方法的性能。

Huy Pham, Zach J. Patterson2026-03-09💻 cs

RFM-HRI : A Multimodal Dataset of Medical Robot Failure, User Reaction and Recovery Preferences for Item Retrieval Tasks

本文介绍了 RFM-HRI 多模态数据集，该数据集通过在医院和实验室环境中对 41 名参与者进行Wizard-of-Oz 研究，系统记录了医疗机器人在物品检索任务中发生四类交互失败时用户的言语与非言语反应及恢复偏好，揭示了失败对情感效价和感知控制的负面影响，并为安全关键场景下的故障检测与恢复策略提供了基础。

Yashika Batra, Giuliano Pioldi, Promise Ekpo, Arman Sayatqyzy, Purnjay Maruur, Shalom Otieno, Kevin Ching, Angelique Taylor2026-03-09💻 cs

Relational Semantic Reasoning on 3D Scene Graphs for Open World Interactive Object Search

本文提出了名为 SCOUT 的新方法，通过从大语言模型蒸馏结构化关系知识并直接在 3D 场景图上基于关系启发式规则进行效用评分，实现了在开放世界家居环境中高效、实时且具备泛化能力的交互式物体搜索。

Imen Mahdi, Matteo Cassinelli, Fabien Despinoy, Tim Welschehold, Abhinav Valada2026-03-09🤖 cs.AI

TransMASK: Masked State Representation through Learned Transformation

本文提出了一种名为 TransMASK 的自监督方法，通过联合训练策略与可学习掩码，将观测状态转化为偏向任务相关要素的潜在表示，从而无需额外标签即可提升机器人在新环境中的泛化能力和鲁棒性。

Sagar Parekh, Preston Culbertson, Dylan P. Losey2026-03-09💻 cs

Contact-Grounded Policy: Dexterous Visuotactile Policy with Generative Contact Grounding

该论文提出了一种接触接地策略（CGP），通过预测机器人状态与触觉反馈并利用学习到的接触一致性映射，将多触点预测转化为合规控制器可执行的指令，从而实现了基于视觉触觉的精细灵巧操作。

Zhengtong Xu, Yeping Wang, Ben Abbatematteo, Jom Preechayasomboon, Sonny Chan, Nick Colonnese, Amirhossein H. Memar2026-03-09💻 cs

Introducing the transitional autonomous vehicle lane-changing dataset: Empirical Experiments

本文介绍了 NC-tALC 数据集，该数据集包含 152 次高分辨率受控实验，旨在填补过渡期自动驾驶车辆（tAVs）在强制变道场景下与人类驾驶车辆及自适应巡航控制车辆交互行为数据的空白，为评估其决策与动态特性提供实证基础。

Abhinav Sharma, Zijun He, Danjue Chen2026-03-09💻 cs

Environment-Aware Path Generation for Robotic Additive Manufacturing of Structures

该论文提出了一种环境感知的路径生成框架，通过结合四种路径规划算法在线生成适应动态障碍环境的机器人增材制造工具路径，并评估了不同规划器在复杂场景下的可行性及关键结构性能指标。

Mahsa Rabiei, Reza Moini2026-03-09💻 cs

Vision-Language System using Open-Source LLMs for Gestures in Medical Interpreter Robots

该论文提出了一种基于本地部署开源大语言模型的隐私保护视觉语言框架，用于医疗翻译机器人，通过新构建的临床对话手势数据集实现了对同意和指令等言语行为的高精度识别，并生成了比基线更具拟人化且恰当的机器人手势。

Thanh-Tung Ngo, Emma Murphy, Robert J. Ross2026-03-09💻 cs

Safe-Night VLA: Seeing the Unseen via Thermal-Perceptive Vision-Language-Action Models for Safety-Critical Manipulation

本文提出了 Safe-Night VLA 框架，通过融合长波红外热感知与语言模型实现语义推理，并结合控制障碍函数安全过滤器，使机器人在非结构化环境中能够“看见”不可见目标并安全执行热感知操作。

Dian Yu, Qingchuan Zhou, Bingkun Huang, Majid Khadiv, Zewen Yang2026-03-09💻 cs

EmboAlign: Aligning Video Generation with Compositional Constraints for Zero-Shot Manipulation

EmboAlign 提出了一种无需数据的框架，通过利用视觉语言模型提取的组合作为约束条件，在推理阶段对视频生成模型的输出进行筛选和轨迹优化，从而显著提升了零样本机器人操作的成功率。

Gehao Zhang, Zhenyang Ni, Payal Mohapatra, Han Liu, Ruohan Zhang, Qi Zhu2026-03-09💻 cs

Multi-Robot Trajectory Planning via Constrained Bayesian Optimization and Local Cost Map Learning with STL-Based Conflict Resolution

该论文提出了一种结合约束贝叶斯优化树搜索与 STL 增强冲突基搜索的两阶段框架，通过局部代价地图学习和形式化 STL 推理，在满足运动学动力学约束及信号时序逻辑规范的前提下，实现了多机器人轨迹规划的高效性、安全性与可扩展性。

Sourav Raxit, Abdullah Al Redwan Newaz, Jose Fuentes, Paulo Padrao, Ana Cavalcanti, Leonardo Bobadilla2026-03-09💻 cs