RFM-HRI : A Multimodal Dataset of Medical Robot Failure, User Reaction and Recovery Preferences for Item Retrieval Tasks

Cette présentation du jeu de données multimodal RFM-HRI analyse les réactions verbales et non verbales des utilisateurs face à divers échecs d'un robot médical lors de tâches de récupération d'objets, afin d'éclairer le développement de stratégies de récupération plus efficaces et sûres.

Yashika Batra, Giuliano Pioldi, Promise Ekpo, Arman Sayatqyzy, Purnjay Maruur, Shalom Otieno, Kevin Ching, Angelique Taylor2026-03-09💻 cs

Relational Semantic Reasoning on 3D Scene Graphs for Open World Interactive Object Search

Le papier présente SCOUT, une méthode novatrice qui utilise des graphes de scènes 3D et une distillation de connaissances à partir de modèles de langage pour réaliser une recherche interactive d'objets en monde ouvert efficace et généralisable, surpassant les approches par similarité d'embeddings tout en évitant la lourdeur computationnelle des LLM.

Imen Mahdi, Matteo Cassinelli, Fabien Despinoy, Tim Welschehold, Abhinav Valada2026-03-09🤖 cs.AI

Contact-Grounded Policy: Dexterous Visuotactile Policy with Generative Contact Grounding

Le papier présente la Contact-Grounded Policy (CGP), une méthode permettant une manipulation dextre riche en contacts en prédisant l'état du robot et le retour tactile pour générer des cibles exécutables via une cartographie d'incohérence apprise, et ce pour des capteurs tactiles denses ou visuels.

Zhengtong Xu, Yeping Wang, Ben Abbatematteo, Jom Preechayasomboon, Sonny Chan, Nick Colonnese, Amirhossein H. Memar2026-03-09💻 cs

Vision-Language System using Open-Source LLMs for Gestures in Medical Interpreter Robots

Cet article présente un cadre de vision-langage respectueux de la vie privée, basé sur des modèles open-source déployés localement, qui permet aux robots interprètes médicaux de détecter les actes de parole et de générer des gestes robotiques adaptés, surpassant les méthodes existantes en termes d'efficacité computationnelle et de naturalisme humain.

Thanh-Tung Ngo, Emma Murphy, Robert J. Ross2026-03-09💻 cs

Safe-Night VLA: Seeing the Unseen via Thermal-Perceptive Vision-Language-Action Models for Safety-Critical Manipulation

Le papier présente Safe-Night VLA, un cadre multimodal intégrant la vision thermique et des filtres de sécurité basés sur des fonctions de barrière de contrôle, permettant aux robots de manipuler des objets de manière sûre et robuste dans des environnements non structurés en détectant des signaux invisibles à l'œil nu.

Dian Yu, Qingchuan Zhou, Bingkun Huang, Majid Khadiv, Zewen Yang2026-03-09💻 cs

EmboAlign: Aligning Video Generation with Compositional Constraints for Zero-Shot Manipulation

Le papier présente EmboAlign, un cadre sans données qui aligne les modèles de génération vidéo avec des contraintes compositionnelles extraites par des modèles vision-langage pour sélectionner des déroulés physiquement plausibles et optimiser les trajectoires robotiques, améliorant ainsi considérablement le taux de réussite des tâches de manipulation en zéro-shot.

Gehao Zhang, Zhenyang Ni, Payal Mohapatra, Han Liu, Ruohan Zhang, Qi Zhu2026-03-09💻 cs

Multi-Robot Trajectory Planning via Constrained Bayesian Optimization and Local Cost Map Learning with STL-Based Conflict Resolution

Cet article propose un cadre de planification de trajectoires multi-robots intégrant l'optimisation bayésienne contrainte et l'apprentissage de cartes de coûts locaux pour générer des trajectoires efficaces, tout en utilisant une recherche de conflits basée sur la logique temporelle signal (STL) pour garantir le respect des spécifications formelles et la résolution des conflits dans des environnements incertains.

Sourav Raxit, Abdullah Al Redwan Newaz, Jose Fuentes, Paulo Padrao, Ana Cavalcanti, Leonardo Bobadilla2026-03-09💻 cs

Task-Level Decisions to Gait Level Control: A Hierarchical Policy Approach for Quadruped Navigation

Ce papier présente TDGC, une architecture de politique hiérarchique pour la navigation des robots quadrupèdes qui résout le décalage d'échelle entre les décisions de haut niveau et le contrôle de la démarche en utilisant un apprentissage par renforcement en simulation et un curriculum structuré pour améliorer la robustesse et l'adaptabilité sur des terrains complexes.

Sijia Li, Haoyu Wang, Shenghai Yuan, Yizhuo Yang, Thien-Minh Nguyen2026-03-09💻 cs

OpenHEART: Opening Heterogeneous Articulated Objects with a Legged Manipulator

Ce papier propose OpenHEART, un cadre robuste et économe en échantillons permettant à un manipulateur à pattes d'ouvrir divers objets articulés hétérogènes grâce à une extraction de caractéristiques abstraite basée sur l'échantillonnage (SAFE) et un estimateur d'informations d'articulation (ArtIEst) qui fusionnent adaptativement la proprioception et l'extéroception.

Seonghyeon Lim, Hyeonwoo Lee, Seunghyun Lee, I Made Aswin Nahrendra, Hyun Myung2026-03-09💻 cs

Terrain characterization and locomotion adaptation in a small-scale lizard-inspired robot

Ce papier présente le SILA Bot, un robot miniature inspiré du lézard capable de s'adapter à des terrains granulaires de profondeur variable en utilisant des signaux proprioceptifs pour estimer la profondeur et un contrôleur linéaire simple pour moduler son mouvement, établissant ainsi un cadre efficace pour la locomotion autonome à petite échelle.

Duncan Andrews, Landon Zimmerman, Evan Martin, Joe DiGennaro, Baxi Chong2026-03-09💻 cs

Expert Knowledge-driven Reinforcement Learning for Autonomous Racing via Trajectory Guidance and Dynamics Constraints

Ce papier propose la méthode TraD-RL, une approche d'apprentissage par renforcement guidée par l'expertise et contrainte par la dynamique du véhicule, qui améliore la stabilité et la performance des voitures de course autonomes en intégrant des lignes de trajectoire expertes et des barrières de contrôle pour un apprentissage sécurisé et performant.

Bo Leng, Weiqi Zhang, Zhuoren Li, Lu Xiong, Guizhe Jin, Ran Yu, Chen Lv2026-03-09💻 cs

AnyCamVLA: Zero-Shot Camera Adaptation for Viewpoint Robust Vision-Language-Action Models

Ce papier présente AnyCamVLA, un cadre d'adaptation de caméra en zéro-shot qui améliore la robustesse des modèles Vision-Language-Action face aux changements de point de vue en synthétisant virtuellement les observations de test pour correspondre à la configuration d'entraînement, sans nécessiter de nouvelles données, d'affinage ou de modifications architecturales.

Hyeongjun Heo, Seungyeon Woo, Sang Min Kim, Junho Kim, Junho Lee, Yonghyeon Lee, Young Min Kim2026-03-09💻 cs