HarvestFlex: Strawberry Harvesting via Vision-Language-Action Policy Adaptation in the Wild

Cette étude présente HarvestFlex, le premier système à transférer des politiques vision-langage-action vers la récolte réelle de fraises en serre, atteignant un taux de réussite de 74 % grâce à une adaptation de modèle sur seulement 3,71 heures de données téléopérées et une architecture de perception RGB sans calibration géométrique explicite.

Ziyang Zhao, Shuheng Wang, Zhonghua Miao, Ya Xiong2026-03-09💻 cs

MagRobot:An Open Simulator for Magnetically Navigated Robots

Le papier présente MagRobot, le premier simulateur open-source universel conçu pour faciliter la conception, la visualisation et l'évaluation comparative des robots navigués par aimant dans des applications médicales minimales invasives, en offrant un environnement flexible pour tester des algorithmes et des configurations matérielles variées dans des anatomies déformables.

Heng Wang (South China University of Technology), Haoyu Song (South China University of Technology), Jiatao Zheng (South China University of Technology), Yuxiang Han (South China University of Technology), Kunli Wang (South China University of Technology)2026-03-09💻 cs

Moving Through Clutter: Scaling Data Collection and Benchmarking for 3D Scene-Aware Humanoid Locomotion via Virtual Reality

Ce papier présente « Moving Through Clutter », un cadre open-source basé sur la réalité virtuelle pour la collecte de données et l'évaluation de la locomotion de humanoïdes dans des environnements 3D encombrés, incluant un jeu de données de 348 trajectoires et des benchmarks pour étudier l'adaptation aux contraintes géométriques.

Beichen Wang, Yuanjie Lu, Linji Wang, Liuchuan Yu, Xuesu Xiao2026-03-09💻 cs

Devil is in Narrow Policy: Unleashing Exploration in Driving VLA Models

Le papier propose Curious-VLA, un cadre en deux étapes intégrant l'expansion de trajectoires faisables et un échantillonnage adaptatif pour surmonter les limitations des politiques étroites dans les modèles VLA de conduite autonome et atteindre des performances record sur le benchmark Navsim.

Canyu Chen, Yuguang Yang, Zhewen Tan, Yizhi Wang, Ruiyi Zhan, Haiyan Liu, Xuanyao Mao, Jason Bao, Xinyue Tang, Linlin Yang, Bingchuan Sun, Yan Wang, Baochang Zhang2026-03-09💻 cs

Multimodal Behavior Tree Generation: A Small Vision-Language Model for Robot Task Planning

Cet article présente une méthode utilisant un petit modèle vision-langage (VLM) de 4 milliards de paramètres, affiné sur un nouveau dataset généré à partir d'épisodes robotiques, pour produire des arbres de comportement exécutables qui atteignent un taux de réussite de 87 % dans des tâches ménagères simulées, rivalisant ainsi avec des modèles fermés beaucoup plus coûteux.

Cristiano Battistini, Riccardo Andrea Izzo, Gianluca Bardaro, Matteo Matteucci2026-03-09💻 cs

Sticky-Glance: Robust Intent Recognition for Human Robot Collaboration via Single-Glance

Ce papier propose « Sticky-Glance », un cadre de reconnaissance d'intention robuste pour la collaboration humain-robot qui stabilise le suivi des regards vers des objets grâce à un algorithme « sticky-glance » et à une interaction multimodale, permettant une sélection précise avec très peu d'échantillons et réduisant la durée des tâches de près de 10 %.

Yuzhi Lai, Shenghai Yuan, Peizheng Li, Andreas Zell2026-03-09💻 cs

Dual-Agent Multiple-Model Reinforcement Learning for Event-Triggered Human-Robot Co-Adaptation in Decoupled Task Spaces

Cet article présente une politique de contrôle partagé pour la rééducation, baptisée DAMMRL, qui utilise un apprentissage par renforcement à double agent et à modèles multiples pour optimiser l'adaptation conjointe humain-robot dans des tâches de rééducation du membre supérieur en déclenchant les actions de manière événementielle et en découplant les espaces de tâche afin de supprimer les oscillations et d'améliorer l'efficacité.

Yaqi Li, Zhengqi Han, Huifang Liu, Steven W. Su2026-03-09💻 cs

DreamToNav: Generalizable Navigation for Robots via Generative Video Planning

Le papier présente DreamToNav, un cadre de navigation robotique généralisable qui utilise des modèles de génération vidéo pour transformer des instructions naturelles en trajectoires exécutables, permettant ainsi à des robots de « rêver » visuellement leurs mouvements avant l'exécution avec un taux de réussite de 76,7 %.

Valerii Serpiva, Jeffrin Sam, Chidera Simon, Hajira Amjad, Iana Zhura, Artem Lykov, Dzmitry Tsetserukou2026-03-09💻 cs

KISS-IMU: Self-supervised Inertial Odometry with Motion-balanced Learning and Uncertainty-aware Inference

Le papier présente KISS-IMU, un cadre d'odométrie inertielle auto-supervisé qui élimine la dépendance aux données de vérité terrain en utilisant l'enregistrement ICP LiDAR comme signal d'apprentissage, tout en assurant robustesse et généralisation grâce à un équilibrage du mouvement et une pondération adaptative basée sur l'incertitude.

Jiwon Choi, Hogyun Kim, Geonmo Yang, Juhui Lee, Younggun Cho2026-03-09💻 cs

Few-Shot Neural Differentiable Simulator: Real-to-Sim Rigid-Contact Modeling

Cet article propose un simulateur différentiable à base de réseaux de neurones graphiques et d'apprentissage par quelques exemples, qui combine la cohérence physique des modèles analytiques avec la capacité d'apprentissage des données réelles pour améliorer la fidélité des simulations de contacts rigides et l'efficacité de l'apprentissage de politiques robotiques.

Zhenhao Huang, Siyuan Luo, Bingyang Zhou, Ziqiu Zeng, Jason Pho, Fan Shi2026-03-09💻 cs

TaPD: Temporal-adaptive Progressive Distillation for Observation-Adaptive Trajectory Forecasting in Autonomous Driving

Le papier propose TaPD, un cadre unifié de distillation progressive adaptative au temps qui améliore la prédiction de trajectoire pour la conduite autonome en reconstruisant explicitement les historiques manquants et en transférant des connaissances de modèles à long terme, permettant ainsi des performances robustes même avec des observations très courtes.

Mingyu Fan, Yi Liu, Hao Zhou, Deheng Qian, Mohammad Haziq Khan, Matthias Raetsch2026-03-09🤖 cs.AI

NOVA: Next-step Open-Vocabulary Autoregression for 3D Multi-Object Tracking in Autonomous Driving

Le papier présente NOVA, une approche innovante de suivi multi-objets 3D qui utilise l'autorégression de modèles de langage pour généraliser la détection à des cibles inconnues en reformulant les trajectoires comme des séquences sémantiques spatio-temporelles, permettant ainsi d'atteindre des performances supérieures sur des catégories nouvelles grâce à un raisonnement sémantique de haut niveau.

Kai Luo, Xu Wang, Rui Fan, Kailun Yang2026-03-09💻 cs