cs.RO articles | Gist.Science

ViLAM: Distilling Vision-Language Reasoning into Attention Maps for Social Robot Navigation

Le papier présente ViLAM, une méthode novatrice qui distille le raisonnement vision-langage de grands modèles dans des cartes d'attention spatiale pour guider la navigation de robots sociaux, démontrant ainsi une amélioration significative du taux de réussite par rapport aux méthodes existantes lors d'expériences réelles.

Mohamed Elnoor, Kasun Weerakoon, Gershom Seneviratne, Jing Liang, Vignesh Rajagopal, Dinesh ManochaTue, 10 Ma💻 cs

IMPACT: Intelligent Motion Planning with Acceptable Contact Trajectories via Vision-Language Models

Cet article présente IMPACT, un cadre de planification de mouvement innovant qui utilise des modèles vision-langage pour générer des cartes de coût anisotropes et permettre à un robot de trouver des trajectoires riches en contacts sûrs et efficaces dans des environnements encombrés.

Yiyang Ling, Karan Owalekar, Oluwatobiloba Adesanya, Erdem Bıyık, Daniel SeitaTue, 10 Ma🤖 cs.LG

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

Ce papier présente EgoDex, le plus grand ensemble de données à ce jour pour la manipulation dextre, constitué de 829 heures de vidéos egocentriques annotées avec des poses 3D des mains collectées via Apple Vision Pro, afin de pallier le manque de données à grande échelle et de faire progresser l'apprentissage par imitation en robotique.

Ryan Hoque, Peide Huang, David J. Yoon, Mouli Sivapurapu, Jian ZhangTue, 10 Ma🤖 cs.LG

ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers

Le papier présente ViTaPEs, une architecture transformer innovante qui améliore l'alignement cross-modal et la généralisation zéro-shot en intégrant un schéma d'encodage positionnel à deux étapes (local et global) pour fusionner efficacement les perceptions visuelle et tactile.

Fotios Lygerakis, Ozan Özdenizci, Elmar RückertTue, 10 Ma🤖 cs.LG

ActivePusher: Active Learning and Planning with Residual Physics for Nonprehensile Manipulation

Le papier présente ActivePusher, un cadre novateur combinant la modélisation par physique résiduelle et l'apprentissage actif basé sur l'incertitude pour améliorer l'efficacité des données et la réussite de la planification à long terme dans la manipulation non préhensile.

Zhuoyun Zhong, Seyedali Golestaneh, Constantinos ChamzasTue, 10 Ma🤖 cs.LG

DemoDiffusion: One-Shot Human Imitation using pre-trained Diffusion Policy

Le papier présente DemoDiffusion, une méthode simple permettant aux robots d'imiter une unique démonstration humaine pour accomplir des tâches de manipulation sans entraînement spécifique, en combinant un retargeting cinématique avec une politique de diffusion pré-entraînée pour atteindre un taux de réussite de 83,8 % sur des tâches variées.

Sungjae Park, Homanga Bharadhwaj, Shubham TulsianiTue, 10 Ma🤖 cs.LG

Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification

Ce papier identifie le biais d'adhésion limitant les vérificateurs basés sur les MLLM et propose la méthode SGV, qui améliore significativement la détection des échecs et les performances d'agents autonomes en générant d'abord des priors indépendants avant d'évaluer les trajectoires.

Moises Andrade, Joonhyuk Cha, Brandon Ho, Vriksha Srihari, Karmesh Yadav, Zsolt KiraTue, 10 Ma🤖 cs.LG

ORN-CBF: Learning Observation-conditioned Residual Neural Control Barrier Functions via Hypernetworks

Cet article propose une méthode d'apprentissage de fonctions de barrière neuronales conditionnées par l'observation, fondée sur l'analyse de la faisabilité de Hamilton-Jacobi et une architecture de type hyper-réseau, qui garantit des ensembles sûrs optimaux et améliore la sécurité des systèmes autonomes dans des environnements partiellement observables.

Bojan Derajic, Sebastian Bernhard, Wolfgang HönigTue, 10 Ma🤖 cs.LG

Efficient Construction of Implicit Surface Models From a Single Image for Motion Generation

Cet article présente FINS, un cadre léger capable de reconstruire des surfaces implicites et des champs de distance signée à partir d'une seule image en quelques secondes, surpassant les méthodes existantes en rapidité et en précision pour des applications robotiques comme la génération de mouvement.

Wei-Teng Chu, Tianyi Zhang, Matthew Johnson-Roberson, Weiming ZhiTue, 10 Ma💻 cs

CroSTAta: Cross-State Transition Attention Transformer for Robotic Manipulation

Le papier propose CroSTAta, un transformateur d'attention de transition d'états croisés qui améliore la robustesse des politiques de manipulation robotique en modulant l'attention selon les schémas d'évolution d'état appris et en utilisant un masquage temporel pour renforcer le raisonnement contextuel, surpassant ainsi les méthodes d'attention standard et les réseaux récurrents.

Giovanni Minelli, Giulio Turrisi, Victor Barasuol, Claudio SeminiTue, 10 Ma🤖 cs.LG

Pretraining in Actor-Critic Reinforcement Learning for Robot Locomotion

Ce papier propose une méthode de préentraînement basée sur un modèle inverse de dynamique proprioceptif (PIDM) entraîné via une exploration sans tâche, permettant d'améliorer significativement l'efficacité des échantillons et les performances des algorithmes actor-critic pour la locomotion robotique par rapport à une initialisation aléatoire.

Jiale Fan, Andrei Cramariuc, Tifanny Portela, Marco HutterTue, 10 Ma🤖 cs.LG

Vectorized Online POMDP Planning

Ce papier présente VOPP, un nouveau planificateur en ligne POMDP vectorisé qui exploite le parallélisme massif via des calculs tensoriels pour éliminer les goulots d'étranglement de synchronisation, surpassant ainsi les solveurs parallèles et séquentiels de l'état de l'art avec une efficacité et une économie de budget de calcul considérables.

Marcus Hoerger, Muhammad Sudrajat, Hanna KurniawatiTue, 10 Ma💻 cs

Whole-Brain Connectomic Graph Model Enables Whole-Body Locomotion Control in Fruit Fly

Cette étude présente le FlyGM, un modèle de graphe connectomique du cerveau entier de la drosophile qui, intégré à un modèle biomécanique, permet un contrôle efficace et échantillonné de la locomotion corporelle complète sans ajustement architectural spécifique.

Zehao Jin, Yaoye Zhu, Chen Zhang, Yanan SuiTue, 10 Ma🤖 cs.LG

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

Le papier présente TimeSpot, un nouveau benchmark évaluant la capacité des modèles vision-langage à déduire des attributs géographiques et temporels à partir d'images réelles, révélant ainsi des lacunes significatives dans leur raisonnement spatio-temporel physique.

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan ParvezTue, 10 Ma💬 cs.CL

One-Shot Badminton Shuttle Detection for Mobile Robots

Cet article présente un cadre robuste de détection en un seul tir de volant de badminton pour robots mobiles, incluant un nouveau jeu de données annoté semi-automatiquement et un modèle YOLOv8 optimisé pour gérer les vues égocentriques dynamiques et les environnements variés.

Florentin Dipner, William Talbot, Turcan Tuna, Andrei Cramariuc, Marco HutterTue, 10 Ma💻 cs

A Pivot-Based Kirigami Utensil for Hand-Held and Robot-Assisted Feeding

Ce papier présente le kiri-spoon, une cuillère réinventée à pivot qui, grâce à un mécanisme de pincement inspiré des pinces, permet aux personnes souffrant de tremblements ou de limitations motrices de saisir et de transporter des aliments sans renversement, aussi bien en version manuelle que robotisée.

Keone Leao, Grace Brotherson, Iain Mischel, Sagar Parekh, Dylan P. LoseyTue, 10 Ma💻 cs

Dynamic Targeting of Satellite Observations Using Supplemental Geostationary Satellite Data and Hierarchical Planning

Cet article propose une approche de planification hiérarchique qui améliore le ciblage dynamique des satellites en combinant des données géostationnaires pour une vision à long terme et des capteurs embarqués pour l'ajustement à court terme, permettant d'augmenter les retours scientifiques jusqu'à 41 % dans des scénarios complexes comme l'évitement des nuages ou la chasse aux tempêtes.

Akseli Kangaslahti, Itai Zilberstein, Alberto Candela, Steve ChienTue, 10 Ma💻 cs

Don't Freeze, Don't Crash: Extending the Safe Operating Range of Neural Navigation in Dense Crowds

Ce papier propose une approche d'apprentissage par renforcement pour la navigation en foule dense qui généralise à des densités non vues lors de l'entraînement grâce à un codage d'observation invariant à la densité et à un entraînement randomisé, permettant ainsi d'éviter les collisions et les blocages tout en surpassant les méthodes existantes.

Jiefu Zhang, Yang Xu, Vaneet AggarwalTue, 10 Ma🤖 cs.LG

Improved Constrained Generation by Bridging Pretrained Generative Models

Cet article propose un cadre de génération contrainte qui affine un modèle génératif préentraîné pour produire des échantillons réalistes directement au sein de régions faisables complexes, telles que les cartes routières, en trouvant un compromis optimal entre le respect des contraintes et la qualité de l'échantillonnage.

Xiaoxuan Liang, Saeid Naderiparizi, Yunpeng Liu, Berend Zwartsenberg, Frank WoodTue, 10 Ma🤖 cs.LG

Robotic Foundation Models for Industrial Control: A Comprehensive Survey and Readiness Assessment Framework

Cette étude de référence évalue la maturité industrielle des modèles de base robotiques en analysant leur paysage et en appliquant un cadre d'évaluation rigoureux à 324 modèles, révélant que leur adoption à grande échelle est actuellement limitée par des lacunes critiques en matière de sécurité, de temps réel et d'intégration systémique.

David Kube, Simon Hadwiger, Tobias MeisenTue, 10 Ma💻 cs

← Précédent Suivant →