Diffusion Policy through Conditional Proximal Policy Optimization

Cet article propose une méthode novatrice et efficace, nommée Diffusion Policy through Conditional Proximal Policy Optimization, qui permet d'entraîner des politiques de diffusion en apprentissage par renforcement on-policy en alignant l'itération de la politique sur le processus de diffusion, surmontant ainsi les défis de calcul de vraisemblance et permettant une génération d'actions multimodales performante.

Ben Liu, Shunpeng Yang, Hua Chen2026-03-06💻 cs

On the Strengths and Weaknesses of Data for Open-set Embodied Assistance

Cet article examine les forces et faiblesses des données pour l'assistance ouverte en corps, démontrant que des modèles multimodaux fine-tunés sur des données synthétiques variées (incluant l'ancrage multimodal et l'inférence de défauts) peuvent généraliser efficacement à de nouveaux comportements utilisateurs et configurations dans des tâches d'assistance corrective.

Pradyumna Tambwekar, Andrew Silva, Deepak Gopinath + 3 more2026-03-06🤖 cs.AI

Task-Relevant and Irrelevant Region-Aware Augmentation for Generalizable Vision-Based Imitation Learning in Agricultural Manipulation

Ce papier présente DRAIL, un cadre d'augmentation d'apprentissage par imitation qui améliore la généralisation des robots agricoles en séparant et en traitant différemment les régions visuelles pertinentes pour la tâche et le fond pour surmonter les variations d'apparence des cultures et les changements de contexte.

Shun Hattori, Hikaru Sasaki, Takumi Hachimine + 2 more2026-03-06💻 cs

VPWEM: Non-Markovian Visuomotor Policy with Working and Episodic Memory

Ce papier présente VPWEM, une politique visuomotrice non markovienne qui intègre une mémoire de travail et une mémoire épisodique compressée via un mécanisme Transformer pour surmonter les limites des approches actuelles dans les tâches robotiques nécessitant une mémoire à long terme, surpassant ainsi les modèles de l'état de l'art sur plusieurs benchmarks.

Yuheng Lei, Zhixuan Liang, Hongyuan Zhang + 1 more2026-03-06🤖 cs.AI

Beyond the Patch: Exploring Vulnerabilities of Visuomotor Policies via Viewpoint-Consistent 3D Adversarial Object

Cet article propose une méthode d'optimisation de textures adverses 3D cohérentes avec le point de vue, utilisant un rendu différentiable et une stratégie de curriculum de grossier à fin, pour révéler et exploiter les vulnérabilités des politiques visuomotrices robotiques face à des changements de perspectives dynamiques.

Chanmi Lee, Minsung Yoon, Woojae Kim + 2 more2026-03-06💻 cs

U-OBCA: Uncertainty-Aware Optimization-Based Collision Avoidance via Wasserstein Distributionally Robust Chance Constraints

Cet article présente U-OBCA, une méthode de planification de trajectoire qui améliore l'efficacité de la navigation des robots dans des environnements encombrés en éliminant les approximations géométriques conservatrices et en traitant les incertitudes via des contraintes de risque probabilistes basées sur la robustesse distributionnelle de Wasserstein.

Zehao Wang, Yuxuan Tang, Han Zhang + 2 more2026-03-06🔢 math

Integrated cooperative localization of heterogeneous measurement swarm: A unified data-driven method

Cet article propose une méthode unifiée et pilotée par les données pour la localisation coopérative de systèmes robotiques hétérogènes, permettant d'estimer les positions relatives et globales même avec des topologies de mesure directionnelles et faiblement connectées, surpassant ainsi les limitations géométriques des approches existantes.

Kunrui Ze, Wei Wang, Guibin Sun + 3 more2026-03-06💻 cs

Person Detection and Tracking from an Overhead Crane LiDAR

Cet article présente la création d'un jeu de données spécifique pour la détection et le suivi de personnes à l'aide d'un LiDAR monté sur une grue aérienne, en adaptant des détecteurs 3D existants pour combler le fossé entre les benchmarks de conduite et la vision industrielle en vue plongeante, tout en validant la faisabilité temps réel et en rendant les ressources disponibles publiquement.

Nilusha Jayawickrama, Henrik Toikka, Risto Ojala2026-03-06🤖 cs.LG

CoIn3D: Revisiting Configuration-Invariant Multi-Camera 3D Object Detection

Le papier présente CoIn3D, un cadre généralisable pour la détection d'objets 3D multi-caméras qui améliore le transfert vers des configurations inédites en intégrant explicitement les disparités des priors spatiaux (intrinsèques, extrinsèques et agencement) via une modulation de caractéristiques spatiales et une augmentation de données par synthèse d'images.

Zhaonian Kuang, Rui Ding, Haotian Wang + 3 more2026-03-06💻 cs

Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models

Ce papier propose un cadre d'inférence adaptatif pour les modèles Vision-Language-Action qui, en analysant la complexité de l'état perçu via des embeddings visuels, permet de décider dynamiquement d'agir immédiatement, de raisonner sur des scénarios ambigus ou de s'abstenir d'agir pour éviter les échecs catastrophiques, optimisant ainsi l'allocation des ressources computationnelles.

Riccardo Andrea Izzo, Gianluca Bardaro, Matteo Matteucci2026-03-06💻 cs