ViLAM: Distilling Vision-Language Reasoning into Attention Maps for Social Robot Navigation

Le papier présente ViLAM, une méthode novatrice qui distille le raisonnement vision-langage de grands modèles dans des cartes d'attention spatiale pour guider la navigation de robots sociaux, démontrant ainsi une amélioration significative du taux de réussite par rapport aux méthodes existantes lors d'expériences réelles.

Mohamed Elnoor, Kasun Weerakoon, Gershom Seneviratne, Jing Liang, Vignesh Rajagopal, Dinesh ManochaTue, 10 Ma💻 cs

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

Ce papier présente EgoDex, le plus grand ensemble de données à ce jour pour la manipulation dextre, constitué de 829 heures de vidéos egocentriques annotées avec des poses 3D des mains collectées via Apple Vision Pro, afin de pallier le manque de données à grande échelle et de faire progresser l'apprentissage par imitation en robotique.

Ryan Hoque, Peide Huang, David J. Yoon, Mouli Sivapurapu, Jian ZhangTue, 10 Ma🤖 cs.LG

ORN-CBF: Learning Observation-conditioned Residual Neural Control Barrier Functions via Hypernetworks

Cet article propose une méthode d'apprentissage de fonctions de barrière neuronales conditionnées par l'observation, fondée sur l'analyse de la faisabilité de Hamilton-Jacobi et une architecture de type hyper-réseau, qui garantit des ensembles sûrs optimaux et améliore la sécurité des systèmes autonomes dans des environnements partiellement observables.

Bojan Derajic, Sebastian Bernhard, Wolfgang HönigTue, 10 Ma🤖 cs.LG

CroSTAta: Cross-State Transition Attention Transformer for Robotic Manipulation

Le papier propose CroSTAta, un transformateur d'attention de transition d'états croisés qui améliore la robustesse des politiques de manipulation robotique en modulant l'attention selon les schémas d'évolution d'état appris et en utilisant un masquage temporel pour renforcer le raisonnement contextuel, surpassant ainsi les méthodes d'attention standard et les réseaux récurrents.

Giovanni Minelli, Giulio Turrisi, Victor Barasuol, Claudio SeminiTue, 10 Ma🤖 cs.LG

Pretraining in Actor-Critic Reinforcement Learning for Robot Locomotion

Ce papier propose une méthode de préentraînement basée sur un modèle inverse de dynamique proprioceptif (PIDM) entraîné via une exploration sans tâche, permettant d'améliorer significativement l'efficacité des échantillons et les performances des algorithmes actor-critic pour la locomotion robotique par rapport à une initialisation aléatoire.

Jiale Fan, Andrei Cramariuc, Tifanny Portela, Marco HutterTue, 10 Ma🤖 cs.LG

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

Le papier présente TimeSpot, un nouveau benchmark évaluant la capacité des modèles vision-langage à déduire des attributs géographiques et temporels à partir d'images réelles, révélant ainsi des lacunes significatives dans leur raisonnement spatio-temporel physique.

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan ParvezTue, 10 Ma💬 cs.CL

Dynamic Targeting of Satellite Observations Using Supplemental Geostationary Satellite Data and Hierarchical Planning

Cet article propose une approche de planification hiérarchique qui améliore le ciblage dynamique des satellites en combinant des données géostationnaires pour une vision à long terme et des capteurs embarqués pour l'ajustement à court terme, permettant d'augmenter les retours scientifiques jusqu'à 41 % dans des scénarios complexes comme l'évitement des nuages ou la chasse aux tempêtes.

Akseli Kangaslahti, Itai Zilberstein, Alberto Candela, Steve ChienTue, 10 Ma💻 cs

Don't Freeze, Don't Crash: Extending the Safe Operating Range of Neural Navigation in Dense Crowds

Ce papier propose une approche d'apprentissage par renforcement pour la navigation en foule dense qui généralise à des densités non vues lors de l'entraînement grâce à un codage d'observation invariant à la densité et à un entraînement randomisé, permettant ainsi d'éviter les collisions et les blocages tout en surpassant les méthodes existantes.

Jiefu Zhang, Yang Xu, Vaneet AggarwalTue, 10 Ma🤖 cs.LG

Improved Constrained Generation by Bridging Pretrained Generative Models

Cet article propose un cadre de génération contrainte qui affine un modèle génératif préentraîné pour produire des échantillons réalistes directement au sein de régions faisables complexes, telles que les cartes routières, en trouvant un compromis optimal entre le respect des contraintes et la qualité de l'échantillonnage.

Xiaoxuan Liang, Saeid Naderiparizi, Yunpeng Liu, Berend Zwartsenberg, Frank WoodTue, 10 Ma🤖 cs.LG

Robotic Foundation Models for Industrial Control: A Comprehensive Survey and Readiness Assessment Framework

Cette étude de référence évalue la maturité industrielle des modèles de base robotiques en analysant leur paysage et en appliquant un cadre d'évaluation rigoureux à 324 modèles, révélant que leur adoption à grande échelle est actuellement limitée par des lacunes critiques en matière de sécurité, de temps réel et d'intégration systémique.

David Kube, Simon Hadwiger, Tobias MeisenTue, 10 Ma💻 cs