cs.RO articles | Gist.Science

Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards

Cet article présente CoHet, un algorithme de reinforcement learning multi-agents décentralisé qui utilise une motivation intrinsèque pilotée par des réseaux de neurones graphiques pour améliorer la coopération entre agents hétérogènes dans des environnements à observabilité partielle et à récompenses rares.

Jahir Sadik Monon, Deeparghya Dutta Barua, Md. Mosaddek KhanWed, 11 Ma🤖 cs.AI

Learning responsibility allocations for multi-agent interactions: A differentiable optimization approach with control barrier functions

Cet article propose une approche d'optimisation différentiable basée sur les fonctions de barrière de contrôle pour apprendre de manière interprétable, à partir de données, comment les agents multi-agents allouent leur responsabilité afin d'assurer des interactions sûres et efficaces.

Isaac Remy, David Fridovich-Keil, Karen LeungWed, 11 Ma🤖 cs.LG

Open-World Task and Motion Planning via Vision-Language Model Genereated Constraints

Le papier présente OWL-TAMP, une approche qui intègre des modèles vision-langage pour générer des contraintes discrètes et continues afin d'améliorer la planification tâche-mouvement dans des environnements ouverts et de résoudre des tâches de manipulation complexes à long terme spécifiées en langage naturel.

Nishanth Kumar, William Shen, Fabio Ramos, Dieter Fox, Tomás Lozano-Pérez, Leslie Pack Kaelbling, Caelan Reed GarrettWed, 11 Ma💻 cs

Image Compression Using Novel View Synthesis Priors

Ce papier propose une technique de compression d'images basée sur la synthèse de nouvelles vues et l'optimisation par descente de gradient pour permettre un retour visuel en temps réel des véhicules téléopérés sous-marins, surpassant les méthodes existantes en termes de ratio de compression et de qualité d'image.

Luyuan Peng, Mandar Chitre, Hari Vishnu, Yuen Min Too, Bharath Kalyan, Rajat Mishra, Soo Pieng TanWed, 11 Ma⚡ eess

Morphological-Symmetry-Equivariant Heterogeneous Graph Neural Network for Robotic Dynamics Learning

Cet article présente le MS-HGNN, un réseau de neurones sur graphes hétérogènes équivariant aux symétries morphologiques qui intègre les structures cinématiques et les symétries des robots pour apprendre efficacement leur dynamique avec une grande généralisabilité, comme validé par des expériences sur des robots quadrupèdes.

Fengze Xie, Sizhe Wei, Yue Song, Yisong Yue, Lu GanWed, 11 Ma🤖 cs.LG

CuriousBot: Interactive Mobile Exploration via Actionable 3D Relational Object Graph

Ce papier présente CuriousBot, un système de robotique mobile qui utilise un graphe d'objets relationnels 3D pour surmonter les limites des méthodes actuelles en permettant une exploration interactive et généralisable au-delà des scènes de table, surpassant ainsi les approches basées uniquement sur les modèles vision-langage.

Yixuan Wang, Leonor Fermoselle, Tarik Kelestemur, Jiuguang Wang, Yunzhu LiWed, 11 Ma🤖 cs.LG

Unveiling the Potential of iMarkers: Invisible Fiducial Markers for Advanced Robotics

Ce papier présente les iMarkers, des marqueurs de fiduciation invisibles pour l'œil humain mais détectables par les robots, conçus pour résoudre le problème esthétique des marqueurs traditionnels tout en offrant une grande flexibilité de production et une détection robuste dans divers scénarios robotiques.

Ali Tourani, Deniz Isinsu Avsar, Hriday Bavle, Jose Luis Sanchez-Lopez, Jan Lagerwall, Holger VoosWed, 11 Ma💻 cs

A Distributional Treatment of Real2Sim2Real for Object-Centric Agent Adaptation in Vision-Driven Deformable Linear Object Manipulation

Cet article présente un cadre intégré de type Real2Sim2Real pour la manipulation d'objets linéaires déformables, qui utilise l'inférence sans vraisemblance pour estimer les paramètres physiques à partir de données visuelles et proprioceptives afin d'entraîner des politiques visuomotrices en simulation et de les déployer avec succès dans le monde réel sans ajustement supplémentaire.

Georgios Kamaras, Subramanian RamamoorthyWed, 11 Ma🤖 cs.LG

LLM-Advisor: An LLM Benchmark for Cost-efficient Path Planning across Multiple Terrains

Ce papier présente LLM-Advisor, un cadre innovant utilisant des modèles de langage comme conseillers post-traitement pour optimiser l'efficacité énergétique de la planification de trajectoire robotique sur des terrains hétérogènes, comblant ainsi les lacunes en raisonnement spatial des LLMs seuls.

Ling Xiao, Toshihiko YamasakiWed, 11 Ma🤖 cs.AI

Physics-Conditioned Grasping for Stable Tool Use

Ce papier présente iTuP, un cadre qui améliore la réussite de l'utilisation d'outils par les robots en sélectionnant des prises stables grâce à une optimisation du couple d'interaction prédit via le SDG-Net, surpassant ainsi les approches basées uniquement sur la perception géométrique.

Noah Trupin, Zixing Wang, Ahmed H. QureshiWed, 11 Ma💻 cs

Latent Policy Steering with Embodiment-Agnostic Pretrained World Models

Cet article présente la Latent Policy Steering (LPS), une méthode qui améliore les politiques robotiques en faible quantité de données en pré-entraînant un modèle du monde avec des flux optiques pour exploiter des données hétérogènes, puis en affinant ce modèle sur des démonstrations cibles pour sélectionner les meilleures actions et surpasser significativement les approches par imitation comportementale.

Yiqi Wang, Mrinal Verghese, Jeff SchneiderWed, 11 Ma🤖 cs.AI

You Only Pose Once: A Minimalist's Detection Transformer for Monocular RGB Category-level 9D Multi-Object Pose Estimation

Le papier présente YOPO, une méthode unifiée et minimaliste basée sur les transformers qui réalise l'estimation de pose 9D de catégorie pour plusieurs objets à partir d'une seule image RGB, atteignant des performances de pointe sans recourir à des données de profondeur ou à des modèles CAD.

Hakjin Lee, Junghoon Seo, Jaehoon SimWed, 11 Ma💻 cs

Multi-Quadruped Cooperative Object Transport: Learning Decentralized Pinch-Lift-Move

Cet article présente une approche décentralisée permettant à des équipes de robots quadrupèdes d'armes de transporter coopérativement des objets non saisissables uniquement par contact physique, en utilisant une architecture de politique hiérarchique et une formulation de récompense astucieuse pour coordonner le pincement, le soulèvement et le déplacement sans communication ni contrôle centralisé.

Bikram Pandit, Aayam Kumar Shrestha, Alan FernWed, 11 Ma💻 cs

Robot Control Stack: A Lean Ecosystem for Robot Learning at Scale

Ce papier présente RCS, un écosystème logiciel léger et modulaire conçu pour combler le fossé entre les simulations et les robots réels, afin de faciliter l'entraînement à grande échelle et le déploiement de politiques robotiques généralistes basées sur des modèles vision-langage-action (VLA).

Tobias Jülg, Pierre Krack, Seongjin Bien, Yannik Blei, Khaled Gamal, Ken Nakahara, Johannes Hechtl, Roberto Calandra, Wolfram Burgard, Florian WalterWed, 11 Ma🤖 cs.LG

Automated Coral Spawn Monitoring for Reef Restoration: The Coral Spawn and Larvae Imaging Camera System (CSLICS)

Ce papier présente le CSLICS, un système de caméra automatisé et peu coûteux utilisant l'intelligence artificielle pour compter précisément les pontes de coraux, réduisant ainsi considérablement la charge de travail manuelle et facilitant l'upscaling des efforts de restauration des récifs coralliens.

Dorian Tsai, Christopher A. Brunner, Riki Lamont, F. Mikaela Nordborg, Andrea Severati, Java Terry, Karen Jackel, Matthew Dunbabin, Tobias Fischer, Scarlett RaineWed, 11 Ma💻 cs

Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition

Ce papier présente la Composition Générale des Politiques (GPC), une méthode sans entraînement qui améliore les performances des robots en combinant de manière convexes les scores de distribution de plusieurs politiques pré-entraînées, permettant ainsi de dépasser les capacités de chaque politique individuelle sans coût de données supplémentaire.

Jiahang Cao, Yize Huang, Hanzhong Guo, Rui Zhang, Mu Nan, Weijian Mai, Jiaxu Wang, Hao Cheng, Jingkai Sun, Gang Han, Wen Zhao, Qiang Zhang, Yijie Guo, Qihao Zheng, Chunfeng Song, Xiao Li, Ping Luo, Andrew F. LuoWed, 11 Ma🤖 cs.LG

Connectivity Maintenance and Recovery for Multi-Robot Motion Planning

Cet article présente un algorithme de planification de mouvement en temps réel nommé MPC-CLF-CBF, basé sur des courbes de Bézier, qui permet à des essaims de robots de maintenir ou de rétablir leur connectivité tout en naviguant efficacement dans des environnements encombrés, comme démontré par des simulations et une expérience physique avec huit quadrotors Crazyflie.

Yutong Wang, Lishuo Pan, Yichun Qu, Tengxiang Wang, Nora AyanianWed, 11 Ma💻 cs

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

Ce papier présente NavSpace, une nouvelle norme d'évaluation conçue pour mesurer les capacités de perception et de raisonnement spatial des agents de navigation, ainsi que SNav, un modèle innovant qui surpasse les solutions existantes sur ce benchmark et lors de tests réels.

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao DongWed, 11 Ma🤖 cs.AI

Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels

Cet article présente DuNe, un cadre d'apprentissage dual innovant qui résout le problème de la généralisation de domaine pour la segmentation sémantique LiDAR en présence de labels bruités, surpassant les méthodes existantes grâce à une cohérence au niveau des caractéristiques et un filtrage des prédictions basé sur la confiance.

Weitong Kong, Zichao Zeng, Di Wen, Jiale Wei, Kunyu Peng, June Moh Goo, Jan Boehm, Rainer StiefelhagenWed, 11 Ma🤖 cs.LG

Asset-Centric Metric-Semantic Maps of Indoor Environments

Cet article propose une approche hybride utilisant un robot quadrupède pour générer des cartes métriques et sémantiques centrées sur les objets, offrant un compromis optimal entre la précision des détails individuels et le contexte global de la scène, ce qui améliore la compréhension et la planification des tâches par les grands modèles de langage (LLM) tout en surpassant les méthodes existantes en termes de précision et d'efficacité.

Christopher D. Hsu, Pratik ChaudhariWed, 11 Ma💻 cs