ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers

本文提出了名为 ViTaPEs 的基于 Transformer 的架构,通过引入包含模态内局部编码与跨模态全局编码的两阶段位置注入机制,实现了任务无关的视触觉表征学习,在多项真实世界数据集的识别任务及机器人抓取场景中均展现出超越现有最先进方法的性能与零样本泛化能力。

Fotios Lygerakis, Ozan Özdenizci, Elmar RückertTue, 10 Ma🤖 cs.LG

DemoDiffusion: One-Shot Human Imitation using pre-trained Diffusion Policy

DemoDiffusion 提出了一种无需特定任务训练或人机配对数据即可实现单样本人类模仿的机器人操作新方法,该方法通过运动学重定向将人类手势转化为粗略轨迹,并利用预训练扩散策略将其修正为符合机器人动作分布的可行轨迹,在 8 项真实世界任务中取得了 83.8% 的平均成功率。

Sungjae Park, Homanga Bharadhwaj, Shubham TulsianiTue, 10 Ma🤖 cs.LG

Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification

该论文揭示了多模态大语言模型(MLLM)作为验证器时普遍存在的“同意偏差”问题,并提出了一种名为自我 grounded 验证(SGV)的两步生成方法,通过先独立生成行为先验再评估轨迹,显著提升了验证准确性及智能体在网页导航、计算机操作和机器人等领域的任务完成表现。

Moises Andrade, Joonhyuk Cha, Brandon Ho, Vriksha Srihari, Karmesh Yadav, Zsolt KiraTue, 10 Ma🤖 cs.LG

ORN-CBF: Learning Observation-conditioned Residual Neural Control Barrier Functions via Hypernetworks

本文提出了一种基于哈密顿 - 雅可比可达性分析的观测条件残差神经控制障碍函数(ORN-CBF)方法,利用超网络架构确保预测安全集不与观测到的失效集相交,从而在部分可观测环境中近似恢复最大安全集,并通过仿真与硬件实验验证了其在提升地面机器人与四旋翼飞行器安全性及泛化能力方面的有效性。

Bojan Derajic, Sebastian Bernhard, Wolfgang HönigTue, 10 Ma🤖 cs.LG

CroSTAta: Cross-State Transition Attention Transformer for Robotic Manipulation

本文提出了一种名为 CroSTAta 的跨状态转换注意力 Transformer,通过引入新颖的状态转换注意力(STA)机制并结合训练时的时序掩码策略,使机器人策略能够显式建模演示中的时序结构(如失败与恢复模式),从而在模拟环境中显著提升了处理执行变化及精密任务的能力。

Giovanni Minelli, Giulio Turrisi, Victor Barasuol, Claudio SeminiTue, 10 Ma🤖 cs.LG

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

本文提出了名为 TimeSpot 的基准测试,旨在评估视觉语言模型在真实世界场景下仅凭视觉输入推断地理位置和时间信息的能力,结果显示当前最先进的模型在此类任务上表现不足,亟需新方法以实现鲁棒的地理时空理解。

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan ParvezTue, 10 Ma💬 cs.CL

Dynamic Targeting of Satellite Observations Using Supplemental Geostationary Satellite Data and Hierarchical Planning

本文提出了一种结合地球静止轨道卫星数据与分层规划方法的动态目标观测新策略,通过利用长达 35 分钟的超前信息制定长期观测蓝图并结合星载传感器进行短期优化,显著提升了云规避和风暴追踪等场景下的观测性能(最高提升 41%)。

Akseli Kangaslahti, Itai Zilberstein, Alberto Candela, Steve ChienTue, 10 Ma💻 cs

Robotic Foundation Models for Industrial Control: A Comprehensive Survey and Readiness Assessment Framework

这篇论文全面综述了机器人基础模型(RFM)的工业适用性,提出了包含 149 项具体标准的评估框架,并通过大规模评估发现当前 RFM 在工业领域的成熟度有限且发展不均衡,强调未来的进步应依赖于将安全、实时性、鲁棒感知及系统集成等要素系统性地纳入可审计的部署堆栈中。

David Kube, Simon Hadwiger, Tobias MeisenTue, 10 Ma💻 cs