cs.RO articles | Gist.Science

Multimodal Behavior Tree Generation: A Small Vision-Language Model for Robot Task Planning

Cet article présente une méthode utilisant un petit modèle vision-langage (VLM) de 4 milliards de paramètres, affiné sur un nouveau dataset généré à partir d'épisodes robotiques, pour produire des arbres de comportement exécutables qui atteignent un taux de réussite de 87 % dans des tâches ménagères simulées, rivalisant ainsi avec des modèles fermés beaucoup plus coûteux.

Cristiano Battistini, Riccardo Andrea Izzo, Gianluca Bardaro, Matteo Matteucci2026-03-09💻 cs

Sticky-Glance: Robust Intent Recognition for Human Robot Collaboration via Single-Glance

Ce papier propose « Sticky-Glance », un cadre de reconnaissance d'intention robuste pour la collaboration humain-robot qui stabilise le suivi des regards vers des objets grâce à un algorithme « sticky-glance » et à une interaction multimodale, permettant une sélection précise avec très peu d'échantillons et réduisant la durée des tâches de près de 10 %.

Yuzhi Lai, Shenghai Yuan, Peizheng Li, Andreas Zell2026-03-09💻 cs

A Hazard-Informed Data Pipeline for Robotics Physical Safety

Ce rapport présente un cadre structuré pour la sécurité physique des robots qui aligne l'ingénierie de sécurité classique, la simulation de jumeaux numériques et la génération de données synthétiques pour entraîner des modèles d'apprentissage machine fondés sur une ontologie formalisée des dangers.

Alexei Odinokov, Rostislav Yavorskiy2026-03-09🤖 cs.AI

Dual-Agent Multiple-Model Reinforcement Learning for Event-Triggered Human-Robot Co-Adaptation in Decoupled Task Spaces

Cet article présente une politique de contrôle partagé pour la rééducation, baptisée DAMMRL, qui utilise un apprentissage par renforcement à double agent et à modèles multiples pour optimiser l'adaptation conjointe humain-robot dans des tâches de rééducation du membre supérieur en déclenchant les actions de manière événementielle et en découplant les espaces de tâche afin de supprimer les oscillations et d'améliorer l'efficacité.

Yaqi Li, Zhengqi Han, Huifang Liu, Steven W. Su2026-03-09💻 cs

DreamToNav: Generalizable Navigation for Robots via Generative Video Planning

Le papier présente DreamToNav, un cadre de navigation robotique généralisable qui utilise des modèles de génération vidéo pour transformer des instructions naturelles en trajectoires exécutables, permettant ainsi à des robots de « rêver » visuellement leurs mouvements avant l'exécution avec un taux de réussite de 76,7 %.

Valerii Serpiva, Jeffrin Sam, Chidera Simon, Hajira Amjad, Iana Zhura, Artem Lykov, Dzmitry Tsetserukou2026-03-09💻 cs

KISS-IMU: Self-supervised Inertial Odometry with Motion-balanced Learning and Uncertainty-aware Inference

Le papier présente KISS-IMU, un cadre d'odométrie inertielle auto-supervisé qui élimine la dépendance aux données de vérité terrain en utilisant l'enregistrement ICP LiDAR comme signal d'apprentissage, tout en assurant robustesse et généralisation grâce à un équilibrage du mouvement et une pondération adaptative basée sur l'incertitude.

Jiwon Choi, Hogyun Kim, Geonmo Yang, Juhui Lee, Younggun Cho2026-03-09💻 cs

VG3S: Visual Geometry Grounded Gaussian Splatting for Semantic Occupancy Prediction

Le papier présente VG3S, un cadre novateur qui améliore la prédiction d'occupation sémantique 3D en intégrant des repères géométriques robustes issus de modèles de fondation visuels via un adaptateur hiérarchique, permettant d'obtenir des performances significativement supérieures sur le benchmark nuScenes.

Xiaoyang Yan, Muleilan Pei, Shaojie Shen2026-03-09💻 cs

Few-Shot Neural Differentiable Simulator: Real-to-Sim Rigid-Contact Modeling

Cet article propose un simulateur différentiable à base de réseaux de neurones graphiques et d'apprentissage par quelques exemples, qui combine la cohérence physique des modèles analytiques avec la capacité d'apprentissage des données réelles pour améliorer la fidélité des simulations de contacts rigides et l'efficacité de l'apprentissage de politiques robotiques.

Zhenhao Huang, Siyuan Luo, Bingyang Zhou, Ziqiu Zeng, Jason Pho, Fan Shi2026-03-09💻 cs

TaPD: Temporal-adaptive Progressive Distillation for Observation-Adaptive Trajectory Forecasting in Autonomous Driving

Le papier propose TaPD, un cadre unifié de distillation progressive adaptative au temps qui améliore la prédiction de trajectoire pour la conduite autonome en reconstruisant explicitement les historiques manquants et en transférant des connaissances de modèles à long terme, permettant ainsi des performances robustes même avec des observations très courtes.

Mingyu Fan, Yi Liu, Hao Zhou, Deheng Qian, Mohammad Haziq Khan, Matthias Raetsch2026-03-09🤖 cs.AI

NOVA: Next-step Open-Vocabulary Autoregression for 3D Multi-Object Tracking in Autonomous Driving

Le papier présente NOVA, une approche innovante de suivi multi-objets 3D qui utilise l'autorégression de modèles de langage pour généraliser la détection à des cibles inconnues en reformulant les trajectoires comme des séquences sémantiques spatio-temporelles, permettant ainsi d'atteindre des performances supérieures sur des catégories nouvelles grâce à un raisonnement sémantique de haut niveau.

Kai Luo, Xu Wang, Rui Fan, Kailun Yang2026-03-09💻 cs

Towards Robotic Lake Maintenance: Integrating SONAR and Satellite Data to Assist Human Operators

Cet article propose une approche en deux étapes combinant des indices satellitaires et un véhicule de surface autonome équipé de sonar pour optimiser la détection et la récolte ciblée de la végétation aquatique dans les plans d'eau artificiels, réduisant ainsi la charge de travail des opérateurs humains.

Ahmed H. Elsayed, Christoph Manss, Tarek A. El-Mihoub, Andrej Lejman, Frederic Stahl2026-03-09💻 cs

Can we Trust Unreliable Voxels? Exploring 3D Semantic Occupancy Prediction under Label Noise

Ce papier présente OccNL, le premier benchmark pour la prédiction d'occupation sémantique 3D sous bruit de labels, et propose DPR-Occ, un cadre robuste qui surpasse les méthodes existantes en maintenant la précision géométrique et sémantique malgré des niveaux de corruption extrêmes.

Wenxin Li, Kunyu Peng, Di Wen, Junwei Zheng, Jiale Wei, Mengfei Duan, Yuheng Zhang, Rui Fan, Kailun Yang2026-03-09💻 cs

SuperSuit: An Isomorphic Bimodal Interface for Scalable Mobile Manipulation

Le papier présente SuperSuit, un cadre bimodal isomorphe qui unifie la téléopération et la démonstration active pour les manipulateurs mobiles, permettant une acquisition de données évolutive et une formation de politiques efficaces grâce à une représentation cinématique cohérente.

Tongqing Chen, Hang Wu, Jiasen Wang, Xiaotao Li, Zhu Jin, Lu Fang2026-03-09💻 cs

Open-Source Based and ETSI Compliant Cooperative, Connected, and Automated Mini-Cars

Cet article propose une plateforme de mini-voitures à l'échelle 1:10, fonctionnant sous ROS2 et intégrant la pile logicielle open-source ETSI-compliant OScar, pour permettre des expérimentations coopératives et connectées à moindre coût, comme démontré par la validation d'une application d'alerte de collision aux intersections.

Lorenzo Farina, Federico Gavioli, Salvatore Iandolo, Francesco Moretti, Giuseppe Perrone, Matteo Piccoli, Francesco Raviglione, Marco Rapelli, Antonio Solida, Paolo Burgio, Carlo Augusto Grazia, Alessandro Bazzi2026-03-09💻 cs

Safe Consensus of Cooperative Manipulation with Hierarchical Event-Triggered Control Barrier Functions

Cet article présente un cadre de contrôle distribué garantissant la sécurité et le consensus pour la manipulation coopérative par plusieurs bras robotiques, en utilisant des fonctions barrières de contrôle hiérarchiques à déclenchement événementiel pour réduire les coûts de calcul et de communication tout en évitant les obstacles.

Simiao Zhuang, Bingkun Huang, Zewen Yang2026-03-09💻 cs

Data Analogies Enable Efficient Cross-Embodiment Transfer

Cet article démontre que l'utilisation de données analogiques, c'est-à-dire des démonstrations appariées alignant scènes, tâches et trajectoires entre différents robots, permet d'améliorer significativement le transfert de compétences cross-embodiment par rapport à l'ajout simple de données diversifiées non appariées.

Jonathan Yang, Chelsea Finn, Dorsa Sadigh2026-03-09💻 cs

History-Conditioned Spatio-Temporal Visual Token Pruning for Efficient Vision-Language Navigation

Cet article propose un cadre d'élagage de tokens visuels spatio-temporels sans réentraînement qui améliore l'efficacité et la latence des modèles de navigation vision-langage tout en préservant leur précision, comme démontré par des benchmarks et un déploiement réel sur un robot quadrupède.

Qitong Wang, Yijun Liang, Ming Li, Tianyi Zhou, Christopher Rasmussen2026-03-09💻 cs

Control Barrier Corridors: From Safety Functions to Safe Sets

Cet article introduit le concept de « corridors de barrières de contrôle » qui unifie les fonctions de barrière de contrôle et les corridors de mouvement sûrs en convertissant les premières en régions de but locales pour permettre une sélection de cibles persistante et vérifiablement sûre lors de la navigation autonome dans des environnements inconnus.

Ömür Arslan, Nikolay Atanasov2026-03-09💻 cs

A Unified Low-Dimensional Design Embedding for Joint Optimization of Shape, Material, and Actuation in Soft Robots

Cet article propose une représentation d'embedding de conception unifiée et de faible dimension qui permet l'optimisation conjointe efficace de la forme, des matériaux et de l'actionnement des robots souples en surmontant les défis computationnels liés à la mécanique non linéaire et en surpassant les approches séquentielles ainsi que les méthodes basées sur des réseaux de neurones.

Vittorio Candiello, Manuel Mekkattu, Mike Y. Michelis, Robert K. Katzschmann2026-03-09💻 cs

CFEAR-Teach-and-Repeat: Fast and Accurate Radar-only Localization

L'article présente CFEAR-TR, une méthode de localisation autonome rapide et précise utilisant uniquement un radar rotatif pour s'aligner sur des cartes préalables et des trames récentes, offrant ainsi une navigation robuste dans des conditions météorologiques adverses avec des performances proches de celles du LiDAR.

Maximilian Hilger, Daniel Adolfsson, Ralf Becker, Henrik Andreasson, Achim J. Lilienthal2026-03-09💻 cs

← Précédent Suivant →