PanoAffordanceNet: Towards Holistic Affordance Grounding in 360{\deg} Indoor Environments

Ce papier présente PanoAffordanceNet, un cadre novateur et un nouveau jeu de données 360-AGD conçus pour résoudre les défis de l'ancrage holistique des affordances dans les environnements intérieurs panoramiques en surmontant les distorsions géométriques et la dispersion sémantique grâce à des mécanismes de calibration et de densification spécifiques.

Guoliang Zhu, Wanjun Jia, Caoyang Shao, Yuheng Zhang, Zhiyong Li, Kailun Yang2026-03-11⚡ eess

MuxGel: Simultaneous Dual-Modal Visuo-Tactile Sensing via Spatially Multiplexing and Deep Reconstruction

Le papier présente MuxGel, un capteur tactile visuel à haute fidélité qui surmonte le compromis traditionnel entre vision et toucher en utilisant un motif de damier pour multiplexer spatialement les signaux, permettant ainsi la récupération simultanée d'informations visuelles externes et de données tactiles via une seule caméra et un cadre de reconstruction profond.

Zhixian Hu, Zhengtong Xu, Sheeraz Athar, Juan Wachs, Yu She2026-03-11💻 cs

TIMID: Time-Dependent Mistake Detection in Videos of Robot Executions

Ce papier présente TIMID, une nouvelle architecture de détection d'anomalies vidéo capable d'identifier des erreurs temporelles dans les exécutions de robots grâce à une supervision faible et à une évaluation sim-to-real sur un jeu de données multi-robots.

Nerea Gallego (University of Zaragoza), Fernando Salanova (University of Zaragoza), Claudio Mannarano (University of Zaragoza, University of Torino), Cristian Mahulea (University of Zaragoza), Eduardo Montijano (University of Zaragoza)2026-03-11💻 cs

Emerging Extrinsic Dexterity in Cluttered Scenes via Dynamics-aware Policy Learning

Cet article présente le cadre DAPL, une méthode d'apprentissage par renforcement qui modélise explicitement les dynamiques induites par les contacts pour permettre à un robot d'acquérir une dextérité extrinsèque efficace dans des scènes encombrées, surpassant ainsi les approches existantes tant en simulation que dans le monde réel.

Yixin Zheng, Jiangran Lyu, Yifan Zhang, Jiayi Chen, Mi Yan, Yuntian Deng, Xuesong Shi, Xiaoguang Zhao, Yizhou Wang, Zhizheng Zhang, He Wang2026-03-11🤖 cs.AI

Robust Cooperative Localization in Featureless Environments: A Comparative Study of DCL, StCL, CCL, CI, and Standard-CL

Cette étude comparative évalue cinq approches de localisation coopérative en environnements sans caractéristiques, révélant que la méthode CI offre le meilleur équilibre entre précision et cohérence, tandis que les méthodes StCL et Standard-CL, bien que plus précises, souffrent d'incohérences critiques pour les applications de sécurité.

Nivand Khosravi, Meysam Basiri, Rodrigo Ventura2026-03-11💻 cs

Kinodynamic Motion Retargeting for Humanoid Locomotion via Multi-Contact Whole-Body Trajectory Optimization

Ce papier présente KDMR, un cadre novateur de rétargeting de mouvement cinodynamique qui, en formulant le problème comme une optimisation de trajectoire corporelle entière à contacts multiples intégrant la dynamique des corps rigides et les forces de réaction au sol, génère des trajectoires de locomotion pour humanoïdes physiquement cohérentes et supérieures aux méthodes cinématiques traditionnelles pour l'apprentissage par imitation.

Xiaoyu Zhang, Steven Haener, Varun Madabushi, Maegan Tucker2026-03-11💻 cs

TiPToP: A Modular Open-Vocabulary Planning System for Robotic Manipulation

Le papier présente TiPToP, un système de planification modulaire et open-vocabulary qui combine des modèles de vision préentraînés avec un planificateur TAMP pour exécuter des tâches de manipulation robotique complexes à partir d'images et d'instructions naturelles, surpassant ou égalant les performances d'un modèle VLA entraîné sur des données spécifiques sans nécessiter aucune donnée robotique.

William Shen, Nishanth Kumar, Sahit Chintalapudi, Jie Wang, Christopher Watson, Edward Hu, Jing Cao, Dinesh Jayaraman, Leslie Pack Kaelbling, Tomás Lozano-Pérez2026-03-11💻 cs

xTED: Cross-Domain Adaptation via Diffusion-Based Trajectory Editing

Le papier présente xTED, un cadre innovant utilisant un modèle de diffusion pour adapter directement les trajectoires d'un domaine source à un domaine cible, comblant ainsi les écarts de domaine au niveau des données tout en préservant le sens sémantique et en facilitant l'apprentissage de politiques sans nécessiter d'architectures complexes.

Haoyi Niu, Qimao Chen, Tenglong Liu, Jianxiong Li, Guyue Zhou, Yi Zhang, Jianming Hu, Xianyuan Zhan2026-03-10🤖 cs.LG

Variational approach to nonholonomic and inequality-constrained mechanics

Cet article propose une formulation variationnelle générale et explicite pour les systèmes mécaniques non holonomes et à contraintes d'inégalité, inspirée de l'action de Schwinger-Keldysh, qui permet de retrouver les équations de Lagrange-d'Alembert par l'extremisation d'une action scalaire et d'optimiser directement les trajectoires sans passer par les équations du mouvement.

A. Rothkopf, W. A. Horowitz2026-03-10🔢 math

Optimizing Locomotor Task Sets in Biological Joint Moment Estimation for Hip Exoskeleton Applications

Cette étude propose une stratégie d'optimisation des tâches locomotrices basée sur l'analyse de clusters pour identifier un ensemble minimal de tâches permettant d'estimer avec précision les moments articulaires de la hanche à l'aide de réseaux de neurones, réduisant ainsi considérablement le besoin en données de collecte tout en maintenant des performances comparables à celles obtenues avec un ensemble complet de tâches.

Jimin An, Changseob Song, Eni Halilaj + 1 more2026-03-10🤖 cs.LG

From Pixels to Predicates: Learning Symbolic World Models via Pretrained Vision-Language Models

Cet article propose une méthode permettant d'apprendre des modèles du monde symboliques abstraits à partir de démonstrations visuelles et de modèles vision-langage préentraînés, afin de résoudre par planification des tâches de prise de décision à long horizon dans des environnements robotiques complexes avec une généralisation zéro-shot.

Ashay Athalye, Nishanth Kumar, Tom Silver, Yichao Liang, Jiuguang Wang, Tomás Lozano-Pérez, Leslie Pack Kaelbling2026-03-10🤖 cs.LG

ViLAM: Distilling Vision-Language Reasoning into Attention Maps for Social Robot Navigation

Le papier présente ViLAM, une méthode novatrice qui distille le raisonnement vision-langage de grands modèles dans des cartes d'attention spatiale pour guider la navigation de robots sociaux, démontrant ainsi une amélioration significative du taux de réussite par rapport aux méthodes existantes lors d'expériences réelles.

Mohamed Elnoor, Kasun Weerakoon, Gershom Seneviratne, Jing Liang, Vignesh Rajagopal, Dinesh Manocha2026-03-10💻 cs