Multimodal Behavior Tree Generation: A Small Vision-Language Model for Robot Task Planning

Cet article présente une méthode utilisant un petit modèle vision-langage (VLM) de 4 milliards de paramètres, affiné sur un nouveau dataset généré à partir d'épisodes robotiques, pour produire des arbres de comportement exécutables qui atteignent un taux de réussite de 87 % dans des tâches ménagères simulées, rivalisant ainsi avec des modèles fermés beaucoup plus coûteux.

Cristiano Battistini, Riccardo Andrea Izzo, Gianluca Bardaro, Matteo Matteucci2026-03-09💻 cs

Sticky-Glance: Robust Intent Recognition for Human Robot Collaboration via Single-Glance

Ce papier propose « Sticky-Glance », un cadre de reconnaissance d'intention robuste pour la collaboration humain-robot qui stabilise le suivi des regards vers des objets grâce à un algorithme « sticky-glance » et à une interaction multimodale, permettant une sélection précise avec très peu d'échantillons et réduisant la durée des tâches de près de 10 %.

Yuzhi Lai, Shenghai Yuan, Peizheng Li, Andreas Zell2026-03-09💻 cs

Dual-Agent Multiple-Model Reinforcement Learning for Event-Triggered Human-Robot Co-Adaptation in Decoupled Task Spaces

Cet article présente une politique de contrôle partagé pour la rééducation, baptisée DAMMRL, qui utilise un apprentissage par renforcement à double agent et à modèles multiples pour optimiser l'adaptation conjointe humain-robot dans des tâches de rééducation du membre supérieur en déclenchant les actions de manière événementielle et en découplant les espaces de tâche afin de supprimer les oscillations et d'améliorer l'efficacité.

Yaqi Li, Zhengqi Han, Huifang Liu, Steven W. Su2026-03-09💻 cs

DreamToNav: Generalizable Navigation for Robots via Generative Video Planning

Le papier présente DreamToNav, un cadre de navigation robotique généralisable qui utilise des modèles de génération vidéo pour transformer des instructions naturelles en trajectoires exécutables, permettant ainsi à des robots de « rêver » visuellement leurs mouvements avant l'exécution avec un taux de réussite de 76,7 %.

Valerii Serpiva, Jeffrin Sam, Chidera Simon, Hajira Amjad, Iana Zhura, Artem Lykov, Dzmitry Tsetserukou2026-03-09💻 cs

KISS-IMU: Self-supervised Inertial Odometry with Motion-balanced Learning and Uncertainty-aware Inference

Le papier présente KISS-IMU, un cadre d'odométrie inertielle auto-supervisé qui élimine la dépendance aux données de vérité terrain en utilisant l'enregistrement ICP LiDAR comme signal d'apprentissage, tout en assurant robustesse et généralisation grâce à un équilibrage du mouvement et une pondération adaptative basée sur l'incertitude.

Jiwon Choi, Hogyun Kim, Geonmo Yang, Juhui Lee, Younggun Cho2026-03-09💻 cs

Few-Shot Neural Differentiable Simulator: Real-to-Sim Rigid-Contact Modeling

Cet article propose un simulateur différentiable à base de réseaux de neurones graphiques et d'apprentissage par quelques exemples, qui combine la cohérence physique des modèles analytiques avec la capacité d'apprentissage des données réelles pour améliorer la fidélité des simulations de contacts rigides et l'efficacité de l'apprentissage de politiques robotiques.

Zhenhao Huang, Siyuan Luo, Bingyang Zhou, Ziqiu Zeng, Jason Pho, Fan Shi2026-03-09💻 cs

TaPD: Temporal-adaptive Progressive Distillation for Observation-Adaptive Trajectory Forecasting in Autonomous Driving

Le papier propose TaPD, un cadre unifié de distillation progressive adaptative au temps qui améliore la prédiction de trajectoire pour la conduite autonome en reconstruisant explicitement les historiques manquants et en transférant des connaissances de modèles à long terme, permettant ainsi des performances robustes même avec des observations très courtes.

Mingyu Fan, Yi Liu, Hao Zhou, Deheng Qian, Mohammad Haziq Khan, Matthias Raetsch2026-03-09🤖 cs.AI

NOVA: Next-step Open-Vocabulary Autoregression for 3D Multi-Object Tracking in Autonomous Driving

Le papier présente NOVA, une approche innovante de suivi multi-objets 3D qui utilise l'autorégression de modèles de langage pour généraliser la détection à des cibles inconnues en reformulant les trajectoires comme des séquences sémantiques spatio-temporelles, permettant ainsi d'atteindre des performances supérieures sur des catégories nouvelles grâce à un raisonnement sémantique de haut niveau.

Kai Luo, Xu Wang, Rui Fan, Kailun Yang2026-03-09💻 cs

Towards Robotic Lake Maintenance: Integrating SONAR and Satellite Data to Assist Human Operators

Cet article propose une approche en deux étapes combinant des indices satellitaires et un véhicule de surface autonome équipé de sonar pour optimiser la détection et la récolte ciblée de la végétation aquatique dans les plans d'eau artificiels, réduisant ainsi la charge de travail des opérateurs humains.

Ahmed H. Elsayed, Christoph Manss, Tarek A. El-Mihoub, Andrej Lejman, Frederic Stahl2026-03-09💻 cs

Can we Trust Unreliable Voxels? Exploring 3D Semantic Occupancy Prediction under Label Noise

Ce papier présente OccNL, le premier benchmark pour la prédiction d'occupation sémantique 3D sous bruit de labels, et propose DPR-Occ, un cadre robuste qui surpasse les méthodes existantes en maintenant la précision géométrique et sémantique malgré des niveaux de corruption extrêmes.

Wenxin Li, Kunyu Peng, Di Wen, Junwei Zheng, Jiale Wei, Mengfei Duan, Yuheng Zhang, Rui Fan, Kailun Yang2026-03-09💻 cs

Open-Source Based and ETSI Compliant Cooperative, Connected, and Automated Mini-Cars

Cet article propose une plateforme de mini-voitures à l'échelle 1:10, fonctionnant sous ROS2 et intégrant la pile logicielle open-source ETSI-compliant OScar, pour permettre des expérimentations coopératives et connectées à moindre coût, comme démontré par la validation d'une application d'alerte de collision aux intersections.

Lorenzo Farina, Federico Gavioli, Salvatore Iandolo, Francesco Moretti, Giuseppe Perrone, Matteo Piccoli, Francesco Raviglione, Marco Rapelli, Antonio Solida, Paolo Burgio, Carlo Augusto Grazia, Alessandro Bazzi2026-03-09💻 cs

Safe Consensus of Cooperative Manipulation with Hierarchical Event-Triggered Control Barrier Functions

Cet article présente un cadre de contrôle distribué garantissant la sécurité et le consensus pour la manipulation coopérative par plusieurs bras robotiques, en utilisant des fonctions barrières de contrôle hiérarchiques à déclenchement événementiel pour réduire les coûts de calcul et de communication tout en évitant les obstacles.

Simiao Zhuang, Bingkun Huang, Zewen Yang2026-03-09💻 cs

A Unified Low-Dimensional Design Embedding for Joint Optimization of Shape, Material, and Actuation in Soft Robots

Cet article propose une représentation d'embedding de conception unifiée et de faible dimension qui permet l'optimisation conjointe efficace de la forme, des matériaux et de l'actionnement des robots souples en surmontant les défis computationnels liés à la mécanique non linéaire et en surpassant les approches séquentielles ainsi que les méthodes basées sur des réseaux de neurones.

Vittorio Candiello, Manuel Mekkattu, Mike Y. Michelis, Robert K. Katzschmann2026-03-09💻 cs