cs.RO articles | Gist.Science

IMPACT: Intelligent Motion Planning with Acceptable Contact Trajectories via Vision-Language Models

Cet article présente IMPACT, un cadre de planification de mouvement innovant qui utilise des modèles vision-langage pour générer des cartes de coût anisotropes et permettre à un robot de trouver des trajectoires riches en contacts sûrs et efficaces dans des environnements encombrés.

Yiyang Ling, Karan Owalekar, Oluwatobiloba Adesanya, Erdem Bıyık, Daniel Seita2026-03-10🤖 cs.LG

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

Ce papier présente EgoDex, le plus grand ensemble de données à ce jour pour la manipulation dextre, constitué de 829 heures de vidéos egocentriques annotées avec des poses 3D des mains collectées via Apple Vision Pro, afin de pallier le manque de données à grande échelle et de faire progresser l'apprentissage par imitation en robotique.

Ryan Hoque, Peide Huang, David J. Yoon, Mouli Sivapurapu, Jian Zhang2026-03-10🤖 cs.LG

ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers

Le papier présente ViTaPEs, une architecture transformer innovante qui améliore l'alignement cross-modal et la généralisation zéro-shot en intégrant un schéma d'encodage positionnel à deux étapes (local et global) pour fusionner efficacement les perceptions visuelle et tactile.

Fotios Lygerakis, Ozan Özdenizci, Elmar Rückert2026-03-10🤖 cs.LG

ActivePusher: Active Learning and Planning with Residual Physics for Nonprehensile Manipulation

Le papier présente ActivePusher, un cadre novateur combinant la modélisation par physique résiduelle et l'apprentissage actif basé sur l'incertitude pour améliorer l'efficacité des données et la réussite de la planification à long terme dans la manipulation non préhensile.

Zhuoyun Zhong, Seyedali Golestaneh, Constantinos Chamzas2026-03-10🤖 cs.LG

DemoDiffusion: One-Shot Human Imitation using pre-trained Diffusion Policy

Le papier présente DemoDiffusion, une méthode simple permettant aux robots d'imiter une unique démonstration humaine pour accomplir des tâches de manipulation sans entraînement spécifique, en combinant un retargeting cinématique avec une politique de diffusion pré-entraînée pour atteindre un taux de réussite de 83,8 % sur des tâches variées.

Sungjae Park, Homanga Bharadhwaj, Shubham Tulsiani2026-03-10🤖 cs.LG

Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification

Ce papier identifie le biais d'adhésion limitant les vérificateurs basés sur les MLLM et propose la méthode SGV, qui améliore significativement la détection des échecs et les performances d'agents autonomes en générant d'abord des priors indépendants avant d'évaluer les trajectoires.

Moises Andrade, Joonhyuk Cha, Brandon Ho, Vriksha Srihari, Karmesh Yadav, Zsolt Kira2026-03-10🤖 cs.LG

Improving the Resilience of Quadrotors in Underground Environments by Combining Learning-based and Safety Controllers

Cet article présente une méthode améliorant la résilience des quadrotors en environnements souterrains en combinant un contrôleur basé sur l'apprentissage avec un contrôleur de sécurité, où un modèle de flux normalisé détecte les situations hors distribution pour déclencher un basculement automatique assurant à la fois l'efficacité de la navigation et la sécurité des collisions.

Isaac Ronald Ward, Mark Paral, Kristopher Riordan + 1 more2026-03-10⚡ eess

Classification of Driver Behaviour Using External Observation Techniques for Autonomous Vehicles

Cette étude présente un système novateur de classification du comportement des conducteurs pour les véhicules autonomes, utilisant des techniques de vision par ordinateur externes pour détecter la distraction et l'altération sans dépendre de la communication inter-véhiculaire.

Ian Nell, Shane Gilroy2026-03-10⚡ eess

ORN-CBF: Learning Observation-conditioned Residual Neural Control Barrier Functions via Hypernetworks

Cet article propose une méthode d'apprentissage de fonctions de barrière neuronales conditionnées par l'observation, fondée sur l'analyse de la faisabilité de Hamilton-Jacobi et une architecture de type hyper-réseau, qui garantit des ensembles sûrs optimaux et améliore la sécurité des systèmes autonomes dans des environnements partiellement observables.

Bojan Derajic, Sebastian Bernhard, Wolfgang Hönig2026-03-10🤖 cs.LG

Efficient Construction of Implicit Surface Models From a Single Image for Motion Generation

Cet article présente FINS, un cadre léger capable de reconstruire des surfaces implicites et des champs de distance signée à partir d'une seule image en quelques secondes, surpassant les méthodes existantes en rapidité et en précision pour des applications robotiques comme la génération de mouvement.

Wei-Teng Chu, Tianyi Zhang, Matthew Johnson-Roberson, Weiming Zhi2026-03-10💻 cs

CroSTAta: Cross-State Transition Attention Transformer for Robotic Manipulation

Le papier propose CroSTAta, un transformateur d'attention de transition d'états croisés qui améliore la robustesse des politiques de manipulation robotique en modulant l'attention selon les schémas d'évolution d'état appris et en utilisant un masquage temporel pour renforcer le raisonnement contextuel, surpassant ainsi les méthodes d'attention standard et les réseaux récurrents.

Giovanni Minelli, Giulio Turrisi, Victor Barasuol, Claudio Semini2026-03-10🤖 cs.LG

Pretraining in Actor-Critic Reinforcement Learning for Robot Locomotion

Ce papier propose une méthode de préentraînement basée sur un modèle inverse de dynamique proprioceptif (PIDM) entraîné via une exploration sans tâche, permettant d'améliorer significativement l'efficacité des échantillons et les performances des algorithmes actor-critic pour la locomotion robotique par rapport à une initialisation aléatoire.

Jiale Fan, Andrei Cramariuc, Tifanny Portela, Marco Hutter2026-03-10🤖 cs.LG

Vectorized Online POMDP Planning

Ce papier présente VOPP, un nouveau planificateur en ligne POMDP vectorisé qui exploite le parallélisme massif via des calculs tensoriels pour éliminer les goulots d'étranglement de synchronisation, surpassant ainsi les solveurs parallèles et séquentiels de l'état de l'art avec une efficacité et une économie de budget de calcul considérables.

Marcus Hoerger, Muhammad Sudrajat, Hanna Kurniawati2026-03-10💻 cs

Whole-Brain Connectomic Graph Model Enables Whole-Body Locomotion Control in Fruit Fly

Cette étude présente le FlyGM, un modèle de graphe connectomique du cerveau entier de la drosophile qui, intégré à un modèle biomécanique, permet un contrôle efficace et échantillonné de la locomotion corporelle complète sans ajustement architectural spécifique.

Zehao Jin, Yaoye Zhu, Chen Zhang, Yanan Sui2026-03-10🤖 cs.LG

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

Le papier présente TimeSpot, un nouveau benchmark évaluant la capacité des modèles vision-langage à déduire des attributs géographiques et temporels à partir d'images réelles, révélant ainsi des lacunes significatives dans leur raisonnement spatio-temporel physique.

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan Parvez2026-03-10💬 cs.CL

One-Shot Badminton Shuttle Detection for Mobile Robots

Cet article présente un cadre robuste de détection en un seul tir de volant de badminton pour robots mobiles, incluant un nouveau jeu de données annoté semi-automatiquement et un modèle YOLOv8 optimisé pour gérer les vues égocentriques dynamiques et les environnements variés.

Florentin Dipner, William Talbot, Turcan Tuna, Andrei Cramariuc, Marco Hutter2026-03-10💻 cs

A Pivot-Based Kirigami Utensil for Hand-Held and Robot-Assisted Feeding

Ce papier présente le kiri-spoon, une cuillère réinventée à pivot qui, grâce à un mécanisme de pincement inspiré des pinces, permet aux personnes souffrant de tremblements ou de limitations motrices de saisir et de transporter des aliments sans renversement, aussi bien en version manuelle que robotisée.

Keone Leao, Grace Brotherson, Iain Mischel, Sagar Parekh, Dylan P. Losey2026-03-10💻 cs

Dynamic Targeting of Satellite Observations Using Supplemental Geostationary Satellite Data and Hierarchical Planning

Cet article propose une approche de planification hiérarchique qui améliore le ciblage dynamique des satellites en combinant des données géostationnaires pour une vision à long terme et des capteurs embarqués pour l'ajustement à court terme, permettant d'augmenter les retours scientifiques jusqu'à 41 % dans des scénarios complexes comme l'évitement des nuages ou la chasse aux tempêtes.

Akseli Kangaslahti, Itai Zilberstein, Alberto Candela, Steve Chien2026-03-10💻 cs

Don't Freeze, Don't Crash: Extending the Safe Operating Range of Neural Navigation in Dense Crowds

Ce papier propose une approche d'apprentissage par renforcement pour la navigation en foule dense qui généralise à des densités non vues lors de l'entraînement grâce à un codage d'observation invariant à la densité et à un entraînement randomisé, permettant ainsi d'éviter les collisions et les blocages tout en surpassant les méthodes existantes.

Jiefu Zhang, Yang Xu, Vaneet Aggarwal2026-03-10🤖 cs.LG

Improved Constrained Generation by Bridging Pretrained Generative Models

Cet article propose un cadre de génération contrainte qui affine un modèle génératif préentraîné pour produire des échantillons réalistes directement au sein de régions faisables complexes, telles que les cartes routières, en trouvant un compromis optimal entre le respect des contraintes et la qualité de l'échantillonnage.

Xiaoxuan Liang, Saeid Naderiparizi, Yunpeng Liu, Berend Zwartsenberg, Frank Wood2026-03-10🤖 cs.LG

← Précédent Suivant →