cs.RO artigos | Gist.Science

Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards

O artigo propõe o algoritmo CoHet, que utiliza motivação intrínseca baseada em Redes Neurais de Grafos (GNN) para aprimorar a cooperação entre agentes heterogêneos em ambientes de Aprendizado por Reforço Multiagente Descentralizado, superando desafios como observabilidade parcial e escassez de recompensas.

Jahir Sadik Monon, Deeparghya Dutta Barua, Md. Mosaddek KhanWed, 11 Ma🤖 cs.AI

Learning responsibility allocations for multi-agent interactions: A differentiable optimization approach with control barrier functions

Este trabalho propõe uma abordagem baseada em otimização diferenciável e funções de barreira de controle para aprender, a partir de dados, alocações de responsabilidade que quantificam como agentes autônomos ajustam seu comportamento para garantir interações seguras e socialmente alinhadas.

Isaac Remy, David Fridovich-Keil, Karen LeungWed, 11 Ma🤖 cs.LG

Open-World Task and Motion Planning via Vision-Language Model Genereated Constraints

O artigo apresenta o OWL-TAMP, uma abordagem que integra Modelos Visuais-Linguísticos (VLMs) a sistemas de Planejamento de Tarefa e Movimento (TAMP) para gerar restrições discretas e contínuas, permitindo que robôs realizem manipulações de longo horizonte em ambientes abertos com base em objetivos expressos em linguagem natural.

Nishanth Kumar, William Shen, Fabio Ramos, Dieter Fox, Tomás Lozano-Pérez, Leslie Pack Kaelbling, Caelan Reed GarrettWed, 11 Ma💻 cs

Image Compression Using Novel View Synthesis Priors

Este artigo propõe uma técnica de compressão de imagens baseada em modelos que utiliza síntese de novas vistas e otimização por descida de gradiente para permitir o feedback visual em tempo real no controle de veículos operados remotamente subaquáticos, superando as limitações de largura de banda da comunicação acústica.

Luyuan Peng, Mandar Chitre, Hari Vishnu, Yuen Min Too, Bharath Kalyan, Rajat Mishra, Soo Pieng TanWed, 11 Ma⚡ eess

Morphological-Symmetry-Equivariant Heterogeneous Graph Neural Network for Robotic Dynamics Learning

O artigo apresenta o MS-HGNN, uma rede neural gráfica heterogênea que incorpora estruturas cinemáticas e simetrias morfológicas como restrições de aprendizado para garantir alta generalização e eficiência no aprendizado da dinâmica de robôs, com validação experimental em robôs quadrúpedes.

Fengze Xie, Sizhe Wei, Yue Song, Yisong Yue, Lu GanWed, 11 Ma🤖 cs.LG

CuriousBot: Interactive Mobile Exploration via Actionable 3D Relational Object Graph

O artigo apresenta o CuriousBot, um sistema que utiliza um grafo de objetos relacionais 3D para superar as limitações da exploração móvel baseada apenas em percepção, permitindo que robôs interajam ativamente com o ambiente em espaços complexos e superando métodos que dependem exclusivamente de modelos de linguagem e visão.

Yixuan Wang, Leonor Fermoselle, Tarik Kelestemur, Jiuguang Wang, Yunzhu LiWed, 11 Ma🤖 cs.LG

Unveiling the Potential of iMarkers: Invisible Fiducial Markers for Advanced Robotics

Este artigo apresenta os iMarkers, marcadores fiduciais invisíveis ao olho humano mas detectáveis por robôs e dispositivos de realidade aumentada, que oferecem uma solução discreta e versátil para navegação e reconhecimento de objetos sem comprometer a estética do ambiente.

Ali Tourani, Deniz Isinsu Avsar, Hriday Bavle, Jose Luis Sanchez-Lopez, Jan Lagerwall, Holger VoosWed, 11 Ma💻 cs

A Distributional Treatment of Real2Sim2Real for Object-Centric Agent Adaptation in Vision-Driven Deformable Linear Object Manipulation

Este artigo apresenta um framework integrado de Real2Sim2Real que utiliza inferência sem verossimilhança para estimar distribuições de parâmetros físicos de objetos lineares deformáveis (DLOs) a partir de dados visuais e proprioceptivos, permitindo o treinamento de políticas visuomotoras em simulação que são transferidas com sucesso para o mundo real de forma zero-shot.

Georgios Kamaras, Subramanian RamamoorthyWed, 11 Ma🤖 cs.LG

LLM-Advisor: An LLM Benchmark for Cost-efficient Path Planning across Multiple Terrains

O artigo apresenta o LLM-Advisor, um framework que utiliza modelos de linguagem grandes como consultores pós-processamento para refinar o planejamento de caminhos em terrenos heterogêneos, demonstrando melhorias significativas na eficiência de custos em comparação com métodos tradicionais, apesar das limitações de raciocínio espacial dos LLMs em cenários zero-shot.

Ling Xiao, Toshihiko YamasakiWed, 11 Ma🤖 cs.AI

Physics-Conditioned Grasping for Stable Tool Use

O artigo apresenta o iTuP, um método que utiliza a rede SDG-Net para selecionar agarramentos de ferramentas que minimizam o torque e o deslizamento induzidos pela dinâmica da tarefa, superando significativamente as abordagens baseadas apenas em geometria ou percepção ao garantir a estabilidade do uso de ferramentas em robôs.

Noah Trupin, Zixing Wang, Ahmed H. QureshiWed, 11 Ma💻 cs

Latent Policy Steering with Embodiment-Agnostic Pretrained World Models

O artigo apresenta a Latent Policy Steering (LPS), uma abordagem que aprimora políticas visuomotoras em cenários com poucos dados ao pré-treinar um Modelo de Mundo usando fluxo óptico como representação de ação agnóstica ao corpo, permitindo aproveitar dados de múltiplas efetuações e, subsequentemente, selecionar as melhores ações para o robô-alvo, resultando em melhorias significativas de desempenho tanto em simulação quanto no mundo real.

Yiqi Wang, Mrinal Verghese, Jeff SchneiderWed, 11 Ma🤖 cs.AI

You Only Pose Once: A Minimalist's Detection Transformer for Monocular RGB Category-level 9D Multi-Object Pose Estimation

O artigo apresenta o YOPO, um método de detecção baseado em transformers que unifica a detecção 2D e a estimativa de pose 9D de objetos em nível de categoria a partir de imagens RGB monoculares em uma única etapa, alcançando desempenho superior ao estado da arte sem depender de dados adicionais como profundidade ou modelos CAD.

Hakjin Lee, Junghoon Seo, Jaehoon SimWed, 11 Ma💻 cs

Multi-Quadruped Cooperative Object Transport: Learning Decentralized Pinch-Lift-Move

Este artigo apresenta uma abordagem de aprendizado descentralizado que permite a equipes de robôs quadrúpedes coordenarem o transporte de objetos não manipuláveis apenas por meio de contato físico, utilizando uma política hierárquica e um esquema de recompensas que simula conexões rígidas sem necessidade de comunicação ou controle centralizado.

Bikram Pandit, Aayam Kumar Shrestha, Alan FernWed, 11 Ma💻 cs

Robot Control Stack: A Lean Ecosystem for Robot Learning at Scale

Este trabalho apresenta o Robot Control Stack (RCS), um ecossistema leve e modular projetado para superar os gargalos dos frameworks tradicionais de robótica, permitindo a pesquisa e o treinamento em larga escala de políticas generalistas baseadas em modelos Visão-Linguagem-Ação (VLAs) com transferência eficiente entre simulação e realidade.

Tobias Jülg, Pierre Krack, Seongjin Bien, Yannik Blei, Khaled Gamal, Ken Nakahara, Johannes Hechtl, Roberto Calandra, Wolfram Burgard, Florian WalterWed, 11 Ma🤖 cs.LG

Automated Coral Spawn Monitoring for Reef Restoration: The Coral Spawn and Larvae Imaging Camera System (CSLICS)

Este artigo apresenta o Sistema de Câmera de Imagem de Desova e Larvas de Coral (CSLICS), uma solução automatizada de baixo custo que utiliza visão computacional para contar desovas de coral com precisão, reduzindo drasticamente o trabalho manual e facilitando a restauração de recifes em grande escala.

Dorian Tsai, Christopher A. Brunner, Riki Lamont, F. Mikaela Nordborg, Andrea Severati, Java Terry, Karen Jackel, Matthew Dunbabin, Tobias Fischer, Scarlett RaineWed, 11 Ma💻 cs

Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition

Este artigo apresenta a Composição Geral de Políticas (GPC), um método livre de treinamento que melhora o desempenho de políticas robóticas baseadas em difusão ou fluxo, combinando suas distribuições de scores em tempo de teste para superar o desempenho de políticas individuais sem a necessidade de novos dados de interação.

Jiahang Cao, Yize Huang, Hanzhong Guo, Rui Zhang, Mu Nan, Weijian Mai, Jiaxu Wang, Hao Cheng, Jingkai Sun, Gang Han, Wen Zhao, Qiang Zhang, Yijie Guo, Qihao Zheng, Chunfeng Song, Xiao Li, Ping Luo, Andrew F. LuoWed, 11 Ma🤖 cs.LG

Connectivity Maintenance and Recovery for Multi-Robot Motion Planning

Este artigo propõe um algoritmo de planejamento de movimento em tempo real baseado em curvas de Bézier e funções de barreira de controle (MPC-CLF-CBF) que garante a conectividade de frotas de robôs em ambientes com obstáculos, permitindo a recuperação de conexões perdidas e melhorando significativamente a taxa de sucesso na navegação, conforme validado em simulações e experimentos físicos com oito quadricópteros Crazyflie.

Yutong Wang, Lishuo Pan, Yichun Qu, Tengxiang Wang, Nora AyanianWed, 11 Ma💻 cs

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

Este trabalho apresenta o benchmark NavSpace para avaliar sistematicamente a inteligência espacial de agentes de navegação e propõe o modelo SNav, que supera os agentes existentes tanto no benchmark quanto em testes com robôs reais.

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao DongWed, 11 Ma🤖 cs.AI

Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels

Este artigo apresenta o DuNe, um novo framework de dupla visão que alcança o estado da arte na segmentação semântica de LiDAR com generalização de domínio sob rótulos ruidosos, superando as limitações dos métodos existentes ao lidar com a estrutura esparsa e irregular de nuvens de pontos.

Weitong Kong, Zichao Zeng, Di Wen, Jiale Wei, Kunyu Peng, June Moh Goo, Jan Boehm, Rainer StiefelhagenWed, 11 Ma🤖 cs.LG

Asset-Centric Metric-Semantic Maps of Indoor Environments

Este artigo apresenta um método para criar mapas métrico-semânticos baseados em ativos de ambientes internos, que combinam detalhes de malhas de objetos com contexto global para superar abordagens existentes em precisão e velocidade, permitindo que robôs realizem navegação e planejamento complexos ao interagir com Grandes Modelos de Linguagem (LLMs).

Christopher D. Hsu, Pratik ChaudhariWed, 11 Ma💻 cs