Learning responsibility allocations for multi-agent interactions: A differentiable optimization approach with control barrier functions

Este trabalho propõe uma abordagem baseada em otimização diferenciável e funções de barreira de controle para aprender, a partir de dados, alocações de responsabilidade que quantificam como agentes autônomos ajustam seu comportamento para garantir interações seguras e socialmente alinhadas.

Isaac Remy, David Fridovich-Keil, Karen LeungWed, 11 Ma🤖 cs.LG

Open-World Task and Motion Planning via Vision-Language Model Genereated Constraints

O artigo apresenta o OWL-TAMP, uma abordagem que integra Modelos Visuais-Linguísticos (VLMs) a sistemas de Planejamento de Tarefa e Movimento (TAMP) para gerar restrições discretas e contínuas, permitindo que robôs realizem manipulações de longo horizonte em ambientes abertos com base em objetivos expressos em linguagem natural.

Nishanth Kumar, William Shen, Fabio Ramos, Dieter Fox, Tomás Lozano-Pérez, Leslie Pack Kaelbling, Caelan Reed GarrettWed, 11 Ma💻 cs

Image Compression Using Novel View Synthesis Priors

Este artigo propõe uma técnica de compressão de imagens baseada em modelos que utiliza síntese de novas vistas e otimização por descida de gradiente para permitir o feedback visual em tempo real no controle de veículos operados remotamente subaquáticos, superando as limitações de largura de banda da comunicação acústica.

Luyuan Peng, Mandar Chitre, Hari Vishnu, Yuen Min Too, Bharath Kalyan, Rajat Mishra, Soo Pieng TanWed, 11 Ma⚡ eess

CuriousBot: Interactive Mobile Exploration via Actionable 3D Relational Object Graph

O artigo apresenta o CuriousBot, um sistema que utiliza um grafo de objetos relacionais 3D para superar as limitações da exploração móvel baseada apenas em percepção, permitindo que robôs interajam ativamente com o ambiente em espaços complexos e superando métodos que dependem exclusivamente de modelos de linguagem e visão.

Yixuan Wang, Leonor Fermoselle, Tarik Kelestemur, Jiuguang Wang, Yunzhu LiWed, 11 Ma🤖 cs.LG

A Distributional Treatment of Real2Sim2Real for Object-Centric Agent Adaptation in Vision-Driven Deformable Linear Object Manipulation

Este artigo apresenta um framework integrado de Real2Sim2Real que utiliza inferência sem verossimilhança para estimar distribuições de parâmetros físicos de objetos lineares deformáveis (DLOs) a partir de dados visuais e proprioceptivos, permitindo o treinamento de políticas visuomotoras em simulação que são transferidas com sucesso para o mundo real de forma zero-shot.

Georgios Kamaras, Subramanian RamamoorthyWed, 11 Ma🤖 cs.LG

LLM-Advisor: An LLM Benchmark for Cost-efficient Path Planning across Multiple Terrains

O artigo apresenta o LLM-Advisor, um framework que utiliza modelos de linguagem grandes como consultores pós-processamento para refinar o planejamento de caminhos em terrenos heterogêneos, demonstrando melhorias significativas na eficiência de custos em comparação com métodos tradicionais, apesar das limitações de raciocínio espacial dos LLMs em cenários zero-shot.

Ling Xiao, Toshihiko YamasakiWed, 11 Ma🤖 cs.AI

Latent Policy Steering with Embodiment-Agnostic Pretrained World Models

O artigo apresenta a Latent Policy Steering (LPS), uma abordagem que aprimora políticas visuomotoras em cenários com poucos dados ao pré-treinar um Modelo de Mundo usando fluxo óptico como representação de ação agnóstica ao corpo, permitindo aproveitar dados de múltiplas efetuações e, subsequentemente, selecionar as melhores ações para o robô-alvo, resultando em melhorias significativas de desempenho tanto em simulação quanto no mundo real.

Yiqi Wang, Mrinal Verghese, Jeff SchneiderWed, 11 Ma🤖 cs.AI

You Only Pose Once: A Minimalist's Detection Transformer for Monocular RGB Category-level 9D Multi-Object Pose Estimation

O artigo apresenta o YOPO, um método de detecção baseado em transformers que unifica a detecção 2D e a estimativa de pose 9D de objetos em nível de categoria a partir de imagens RGB monoculares em uma única etapa, alcançando desempenho superior ao estado da arte sem depender de dados adicionais como profundidade ou modelos CAD.

Hakjin Lee, Junghoon Seo, Jaehoon SimWed, 11 Ma💻 cs

Multi-Quadruped Cooperative Object Transport: Learning Decentralized Pinch-Lift-Move

Este artigo apresenta uma abordagem de aprendizado descentralizado que permite a equipes de robôs quadrúpedes coordenarem o transporte de objetos não manipuláveis apenas por meio de contato físico, utilizando uma política hierárquica e um esquema de recompensas que simula conexões rígidas sem necessidade de comunicação ou controle centralizado.

Bikram Pandit, Aayam Kumar Shrestha, Alan FernWed, 11 Ma💻 cs

Robot Control Stack: A Lean Ecosystem for Robot Learning at Scale

Este trabalho apresenta o Robot Control Stack (RCS), um ecossistema leve e modular projetado para superar os gargalos dos frameworks tradicionais de robótica, permitindo a pesquisa e o treinamento em larga escala de políticas generalistas baseadas em modelos Visão-Linguagem-Ação (VLAs) com transferência eficiente entre simulação e realidade.

Tobias Jülg, Pierre Krack, Seongjin Bien, Yannik Blei, Khaled Gamal, Ken Nakahara, Johannes Hechtl, Roberto Calandra, Wolfram Burgard, Florian WalterWed, 11 Ma🤖 cs.LG

Automated Coral Spawn Monitoring for Reef Restoration: The Coral Spawn and Larvae Imaging Camera System (CSLICS)

Este artigo apresenta o Sistema de Câmera de Imagem de Desova e Larvas de Coral (CSLICS), uma solução automatizada de baixo custo que utiliza visão computacional para contar desovas de coral com precisão, reduzindo drasticamente o trabalho manual e facilitando a restauração de recifes em grande escala.

Dorian Tsai, Christopher A. Brunner, Riki Lamont, F. Mikaela Nordborg, Andrea Severati, Java Terry, Karen Jackel, Matthew Dunbabin, Tobias Fischer, Scarlett RaineWed, 11 Ma💻 cs

Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition

Este artigo apresenta a Composição Geral de Políticas (GPC), um método livre de treinamento que melhora o desempenho de políticas robóticas baseadas em difusão ou fluxo, combinando suas distribuições de scores em tempo de teste para superar o desempenho de políticas individuais sem a necessidade de novos dados de interação.

Jiahang Cao, Yize Huang, Hanzhong Guo, Rui Zhang, Mu Nan, Weijian Mai, Jiaxu Wang, Hao Cheng, Jingkai Sun, Gang Han, Wen Zhao, Qiang Zhang, Yijie Guo, Qihao Zheng, Chunfeng Song, Xiao Li, Ping Luo, Andrew F. LuoWed, 11 Ma🤖 cs.LG

Connectivity Maintenance and Recovery for Multi-Robot Motion Planning

Este artigo propõe um algoritmo de planejamento de movimento em tempo real baseado em curvas de Bézier e funções de barreira de controle (MPC-CLF-CBF) que garante a conectividade de frotas de robôs em ambientes com obstáculos, permitindo a recuperação de conexões perdidas e melhorando significativamente a taxa de sucesso na navegação, conforme validado em simulações e experimentos físicos com oito quadricópteros Crazyflie.

Yutong Wang, Lishuo Pan, Yichun Qu, Tengxiang Wang, Nora AyanianWed, 11 Ma💻 cs

Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels

Este artigo apresenta o DuNe, um novo framework de dupla visão que alcança o estado da arte na segmentação semântica de LiDAR com generalização de domínio sob rótulos ruidosos, superando as limitações dos métodos existentes ao lidar com a estrutura esparsa e irregular de nuvens de pontos.

Weitong Kong, Zichao Zeng, Di Wen, Jiale Wei, Kunyu Peng, June Moh Goo, Jan Boehm, Rainer StiefelhagenWed, 11 Ma🤖 cs.LG