cs.RO artículos | Gist.Science

Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards

El artículo presenta CoHet, un algoritmo que utiliza motivación intrínseca basada en Redes Neuronales de Grafos para mejorar la cooperación descentralizada entre agentes heterogéneos en entornos de aprendizaje por refuerzo multiagente con observabilidad parcial y recompensas escasas.

Jahir Sadik Monon, Deeparghya Dutta Barua, Md. Mosaddek KhanWed, 11 Ma🤖 cs.AI

Learning responsibility allocations for multi-agent interactions: A differentiable optimization approach with control barrier functions

Este trabajo propone un enfoque de optimización diferenciable basado en funciones de barrera de control para aprender de forma eficiente y cuantitativa la asignación de responsabilidad de los agentes en interacciones multiagente, permitiendo modelar su disposición a ajustar su comportamiento para garantizar la seguridad de los demás.

Isaac Remy, David Fridovich-Keil, Karen LeungWed, 11 Ma🤖 cs.LG

Open-World Task and Motion Planning via Vision-Language Model Genereated Constraints

El artículo presenta OWL-TAMP, un enfoque que integra Modelos Visuales-Lingüísticos (VLMs) en sistemas de Planificación de Tareas y Movimientos (TAMP) para generar restricciones que permiten a los robots resolver problemas de manipulación a largo plazo en entornos abiertos a partir de objetivos en lenguaje natural.

Nishanth Kumar, William Shen, Fabio Ramos, Dieter Fox, Tomás Lozano-Pérez, Leslie Pack Kaelbling, Caelan Reed GarrettWed, 11 Ma💻 cs

Image Compression Using Novel View Synthesis Priors

Este artículo propone una técnica de compresión de imágenes basada en modelos que utiliza la síntesis de nuevas vistas y la optimización por descenso de gradiente para aprovechar la información previa de la misión, logrando así una compresión superior y robusta para la transmisión en tiempo real de vehículos operados remotamente sin cableado en entornos submarinos.

Luyuan Peng, Mandar Chitre, Hari Vishnu, Yuen Min Too, Bharath Kalyan, Rajat Mishra, Soo Pieng TanWed, 11 Ma⚡ eess

Morphological-Symmetry-Equivariant Heterogeneous Graph Neural Network for Robotic Dynamics Learning

Este artículo presenta MS-HGNN, una red neuronal heterogénea basada en grafos que integra las estructuras cinemáticas y las simetrías morfológicas de los robots para aprender dinámicas con alta generalización y eficiencia, demostrando su efectividad en múltiples sistemas robóticos mediante datos reales y simulados.

Fengze Xie, Sizhe Wei, Yue Song, Yisong Yue, Lu GanWed, 11 Ma🤖 cs.LG

CuriousBot: Interactive Mobile Exploration via Actionable 3D Relational Object Graph

Este trabajo presenta a CuriousBot, un sistema que utiliza un grafo relacional de objetos 3D para superar las limitaciones de los métodos actuales de exploración móvil al permitir la interacción activa en entornos complejos y diversos, demostrando una mayor eficacia y generalización que las soluciones basadas únicamente en modelos de visión y lenguaje.

Yixuan Wang, Leonor Fermoselle, Tarik Kelestemur, Jiuguang Wang, Yunzhu LiWed, 11 Ma🤖 cs.LG

Unveiling the Potential of iMarkers: Invisible Fiducial Markers for Advanced Robotics

Este artículo presenta iMarkers, marcadores fiduciales invisibles para humanos pero detectables por robots y dispositivos de realidad aumentada, que resuelven el problema estético de los marcadores tradicionales mediante diseños de hardware y algoritmos de software de código abierto que garantizan una detección robusta y adaptable en diversos escenarios.

Ali Tourani, Deniz Isinsu Avsar, Hriday Bavle, Jose Luis Sanchez-Lopez, Jan Lagerwall, Holger VoosWed, 11 Ma💻 cs

A Distributional Treatment of Real2Sim2Real for Object-Centric Agent Adaptation in Vision-Driven Deformable Linear Object Manipulation

Este artículo presenta un marco integrado de Real2Sim2Real para la manipulación de objetos lineales deformables que utiliza inferencia libre de verosimilitud para estimar distribuciones posteriores de parámetros físicos y entrenar políticas visuomotoras en simulación, logrando un rendimiento exitoso en el mundo real sin ajuste adicional.

Georgios Kamaras, Subramanian RamamoorthyWed, 11 Ma🤖 cs.LG

LLM-Advisor: An LLM Benchmark for Cost-efficient Path Planning across Multiple Terrains

El artículo presenta LLM-Advisor, un marco basado en modelos de lenguaje que actúa como asesor de post-procesamiento para refinar rutas de planificación de costos en terrenos diversos, logrando mejoras significativas en la eficiencia sin modificar los planificadores subyacentes y superando las limitaciones de razonamiento espacial de los LLMs en modo cero disparos.

Ling Xiao, Toshihiko YamasakiWed, 11 Ma🤖 cs.AI

Physics-Conditioned Grasping for Stable Tool Use

El artículo presenta iTuP y SDG-Net, un marco que mejora el uso de herramientas robóticas al seleccionar agarres que minimizan el torque y el deslizamiento inducidos por la dinámica de la tarea, superando así las limitaciones de los sistemas basados únicamente en percepción o geometría estática.

Noah Trupin, Zixing Wang, Ahmed H. QureshiWed, 11 Ma💻 cs

Latent Policy Steering with Embodiment-Agnostic Pretrained World Models

El artículo presenta "Latent Policy Steering" (LPS), un enfoque que mejora las políticas visuomotoras en regímenes de pocos datos mediante el preentrenamiento de un modelo de mundo con representaciones de acción agnósticas al cuerpo (como el flujo óptico) y su posterior ajuste fino para guiar la selección de acciones, logrando mejoras significativas tanto en simulación como en robots reales.

Yiqi Wang, Mrinal Verghese, Jeff SchneiderWed, 11 Ma🤖 cs.AI

You Only Pose Once: A Minimalist's Detection Transformer for Monocular RGB Category-level 9D Multi-Object Pose Estimation

El artículo presenta YOPO, un marco unificado de un solo paso basado en transformadores que logra un estado del arte en la estimación de pose 9D de múltiples objetos a nivel de categoría a partir de una sola imagen RGB, eliminando la necesidad de modelos CAD, profundidad o etapas cascada.

Hakjin Lee, Junghoon Seo, Jaehoon SimWed, 11 Ma💻 cs

Multi-Quadruped Cooperative Object Transport: Learning Decentralized Pinch-Lift-Move

Este artículo presenta un enfoque de aprendizaje descentralizado que permite a equipos de robots cuadrúpedos cooperar mediante contacto físico para transportar objetos no manipulables, utilizando una arquitectura jerárquica y un diseño de recompensas que fomenta un comportamiento de agarre rígido sin necesidad de comunicación ni acoplamiento mecánico.

Bikram Pandit, Aayam Kumar Shrestha, Alan FernWed, 11 Ma💻 cs

Robot Control Stack: A Lean Ecosystem for Robot Learning at Scale

Este trabajo presenta el Robot Control Stack (RCS), un ecosistema ligero y modular diseñado para cerrar la brecha entre el entrenamiento a gran escala de modelos de aprendizaje por refuerzo y visión-idioma-acción en simulación y su implementación en robots físicos, facilitando así la transferencia sim-real.

Tobias Jülg, Pierre Krack, Seongjin Bien, Yannik Blei, Khaled Gamal, Ken Nakahara, Johannes Hechtl, Roberto Calandra, Wolfram Burgard, Florian WalterWed, 11 Ma🤖 cs.LG

Automated Coral Spawn Monitoring for Reef Restoration: The Coral Spawn and Larvae Imaging Camera System (CSLICS)

Este artículo presenta el Sistema de Cámara de Imágenes de Desove y Larvas de Coral (CSLICS), una solución automatizada de bajo costo que utiliza visión por computadora para contar desoves de coral con precisión, reduciendo drásticamente el trabajo manual y facilitando la restauración de arrecifes a gran escala.

Dorian Tsai, Christopher A. Brunner, Riki Lamont, F. Mikaela Nordborg, Andrea Severati, Java Terry, Karen Jackel, Matthew Dunbabin, Tobias Fischer, Scarlett RaineWed, 11 Ma💻 cs

Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition

Este trabajo presenta la Composición General de Políticas (GPC), un método sin entrenamiento que mejora el rendimiento de las políticas robóticas basadas en difusión o flujo mediante la combinación convexa de sus puntuaciones distribucionales en tiempo de prueba, logrando resultados superiores a los de las políticas individuales sin necesidad de nuevos datos de interacción.

Jiahang Cao, Yize Huang, Hanzhong Guo, Rui Zhang, Mu Nan, Weijian Mai, Jiaxu Wang, Hao Cheng, Jingkai Sun, Gang Han, Wen Zhao, Qiang Zhang, Yijie Guo, Qihao Zheng, Chunfeng Song, Xiao Li, Ping Luo, Andrew F. LuoWed, 11 Ma🤖 cs.LG

Connectivity Maintenance and Recovery for Multi-Robot Motion Planning

Los autores proponen un algoritmo de planificación de movimiento en tiempo real basado en curvas Bézier y funciones de barrera y Lyapunov (MPC-CLF-CBF) que garantiza la conectividad y mejora la navegación de flotas de robots en entornos cluttered, permitiendo la recuperación ante pérdidas de conexión y validándose mediante simulaciones y experimentos físicos con ocho cuadricópteros Crazyflie.

Yutong Wang, Lishuo Pan, Yichun Qu, Tengxiang Wang, Nora AyanianWed, 11 Ma💻 cs

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

El artículo presenta NavSpace, un nuevo benchmark diseñado para evaluar sistemáticamente la inteligencia espacial de los agentes de navegación, y propone SNav, un modelo que supera a los existentes tanto en este benchmark como en pruebas con robots reales.

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao DongWed, 11 Ma🤖 cs.AI

Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels

Este artículo presenta DuNe, un marco de aprendizaje dual que aborda el desafío de la generalización de dominio en la segmentación semántica 3D de LiDAR bajo etiquetas ruidosas, logrando un rendimiento superior al estado del arte en múltiples conjuntos de datos mediante la consistencia de características y el filtrado basado en confianza.

Weitong Kong, Zichao Zeng, Di Wen, Jiale Wei, Kunyu Peng, June Moh Goo, Jan Boehm, Rainer StiefelhagenWed, 11 Ma🤖 cs.LG

Asset-Centric Metric-Semantic Maps of Indoor Environments

Este artículo presenta un sistema de mapeo métrico-semántico centrado en activos para entornos interiores que combina mallas detalladas de objetos con sus categorías y poses, logrando una precisión superior a los métodos basados en modelos fundamentales y una integración eficiente con modelos de lenguaje grandes para la navegación y planificación robótica.

Christopher D. Hsu, Pratik ChaudhariWed, 11 Ma💻 cs