cs.RO articoli | Gist.Science

Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards

Il paper propone CoHet, un algoritmo di apprendimento per rinforzo multi-agente decentralizzato che utilizza una ricompensa intrinseca basata su Reti Neurali su Grafi per migliorare la cooperazione tra agenti eterogenei in ambienti con osservabilità parziale e segnali di reward radi, ottenendo prestazioni superiori rispetto allo stato dell'arte.

Jahir Sadik Monon, Deeparghya Dutta Barua, Md. Mosaddek KhanWed, 11 Ma🤖 cs.AI

Learning responsibility allocations for multi-agent interactions: A differentiable optimization approach with control barrier functions

Questo lavoro propone un approccio basato su funzioni di barriera di controllo e ottimizzazione differenziabile per apprendere in modo efficiente e interpretabile le allocazioni di responsabilità degli agenti nelle interazioni multi-agente, permettendo di codificare fattori sociali e contestuali per garantire interazioni sicure ed efficienti.

Isaac Remy, David Fridovich-Keil, Karen LeungWed, 11 Ma🤖 cs.LG

Open-World Task and Motion Planning via Vision-Language Model Genereated Constraints

Il paper presenta OWL-TAMP, un approccio che integra i Modelli Vision-Language per generare vincoli di linguaggio che potenziano i sistemi di pianificazione di compiti e movimento, permettendo ai robot di risolvere compiti di manipolazione a lungo termine in ambienti aperti specificati direttamente in linguaggio naturale.

Nishanth Kumar, William Shen, Fabio Ramos, Dieter Fox, Tomás Lozano-Pérez, Leslie Pack Kaelbling, Caelan Reed GarrettWed, 11 Ma💻 cs

Image Compression Using Novel View Synthesis Priors

Questo lavoro propone una tecnica di compressione delle immagini basata sulla sintesi di nuove viste per abilitare il feedback visivo in tempo reale nel controllo remoto di veicoli sottomarini, superando i limiti di larghezza di banda delle comunicazioni acustiche grazie all'uso di modelli di apprendimento automatico e ottimizzazione tramite discesa del gradiente.

Luyuan Peng, Mandar Chitre, Hari Vishnu, Yuen Min Too, Bharath Kalyan, Rajat Mishra, Soo Pieng TanWed, 11 Ma⚡ eess

Morphological-Symmetry-Equivariant Heterogeneous Graph Neural Network for Robotic Dynamics Learning

Il paper presenta MS-HGNN, una rete neurale su grafo eterogeneo che integra le simmetrie morfologiche e le strutture cinematiche dei robot per apprendere la dinamica con elevata generalizzabilità ed efficienza, validando l'approccio su diversi sistemi quadrupedi reali e simulati.

Fengze Xie, Sizhe Wei, Yue Song, Yisong Yue, Lu GanWed, 11 Ma🤖 cs.LG

CuriousBot: Interactive Mobile Exploration via Actionable 3D Relational Object Graph

Il paper introduce CuriousBot, un sistema robotico mobile che supera i limiti delle attuali metodologie basate sulla sola percezione attiva, utilizzando un grafo relazionale di oggetti 3D per abilitare un'esplorazione interattiva efficace e generalizzabile in ambienti complessi.

Yixuan Wang, Leonor Fermoselle, Tarik Kelestemur, Jiuguang Wang, Yunzhu LiWed, 11 Ma🤖 cs.LG

Unveiling the Potential of iMarkers: Invisible Fiducial Markers for Advanced Robotics

Il paper presenta gli iMarkers, nuovi marcatori fiduciali invisibili agli umani ma rilevabili da robot e dispositivi AR, che risolvono il problema estetico dei marcatori tradizionali offrendo flessibilità di produzione, algoritmi di rilevamento open-source e robustezza in scenari robotici diversificati.

Ali Tourani, Deniz Isinsu Avsar, Hriday Bavle, Jose Luis Sanchez-Lopez, Jan Lagerwall, Holger VoosWed, 11 Ma💻 cs

A Distributional Treatment of Real2Sim2Real for Object-Centric Agent Adaptation in Vision-Driven Deformable Linear Object Manipulation

Il paper presenta un framework end-to-end che utilizza l'inferenza senza verosimiglianza per stimare le distribuzioni posteriori dei parametri fisici degli oggetti deformabili lineari (DLO), permettendo l'addestramento in simulazione di politiche visuomotorie specifiche per oggetto che vengono poi deployate con successo nel mondo reale in modalità zero-shot.

Georgios Kamaras, Subramanian RamamoorthyWed, 11 Ma🤖 cs.LG

LLM-Advisor: An LLM Benchmark for Cost-efficient Path Planning across Multiple Terrains

Il paper presenta LLM-Advisor, un framework basato su prompt che utilizza i grandi modelli linguistici come consulenti post-elaborazione per ottimizzare l'efficienza dei costi nella pianificazione di percorsi su terreni eterogenei, superando le limitazioni spaziali dei modelli attuali senza modificare i pianificatori sottostanti.

Ling Xiao, Toshihiko YamasakiWed, 11 Ma🤖 cs.AI

Physics-Conditioned Grasping for Stable Tool Use

Il paper introduce iTuP, un approccio che seleziona le prese robotiche per l'uso di strumenti minimizzando le coppie indotte dall'interazione dinamica, migliorando significativamente la stabilità e il successo delle operazioni reali rispetto ai metodi basati solo sulla percezione.

Noah Trupin, Zixing Wang, Ahmed H. QureshiWed, 11 Ma💻 cs

Latent Policy Steering with Embodiment-Agnostic Pretrained World Models

Il paper presenta Latent Policy Steering (LPS), un metodo che migliora le politiche visuomotorie robotiche in scenari con pochi dati preaddestando un modello del mondo su rappresentazioni di flusso ottico agnostiche rispetto all'effettore per sfruttare dati eterogenei, per poi affinare la politica e selezionare le azioni ottimali tramite una funzione di valore appresa.

Yiqi Wang, Mrinal Verghese, Jeff SchneiderWed, 11 Ma🤖 cs.AI

You Only Pose Once: A Minimalist's Detection Transformer for Monocular RGB Category-level 9D Multi-Object Pose Estimation

Il paper presenta YOPO, un metodo end-to-end basato su transformer che unifica rilevamento e stima della posa 9D a livello di categoria da singole immagini RGB, ottenendo prestazioni all'avanguardia su tre benchmark senza richiedere dati aggiuntivi come profondità o modelli CAD.

Hakjin Lee, Junghoon Seo, Jaehoon SimWed, 11 Ma💻 cs

Multi-Quadruped Cooperative Object Transport: Learning Decentralized Pinch-Lift-Move

Questo lavoro propone un approccio decentralizzato per il trasporto cooperativo di oggetti non agganciabili da parte di squadre di robot quadrupedi, utilizzando una politica gerarchica e una formulazione ricompensa innovativa che permette il coordinamento tramite forze di contatto senza comunicazione né vincoli meccanici rigidi, garantendo robustezza e scalabilità fino a dieci robot.

Bikram Pandit, Aayam Kumar Shrestha, Alan FernWed, 11 Ma💻 cs

Robot Control Stack: A Lean Ecosystem for Robot Learning at Scale

Questo lavoro introduce il Robot Control Stack (RCS), un ecosistema leggero e modulare progettato per colmare il divario tra l'addestramento su larga scala di modelli Vision-Language-Action e la loro applicazione nel mondo reale, facilitando il trasferimento sim-to-real e offrendo una valutazione estesa di diverse politiche robotiche.

Tobias Jülg, Pierre Krack, Seongjin Bien, Yannik Blei, Khaled Gamal, Ken Nakahara, Johannes Hechtl, Roberto Calandra, Wolfram Burgard, Florian WalterWed, 11 Ma🤖 cs.LG

Automated Coral Spawn Monitoring for Reef Restoration: The Coral Spawn and Larvae Imaging Camera System (CSLICS)

Il documento presenta il CSLICS, un sistema di imaging automatizzato a basso costo che utilizza tecniche di visione artificiale per contare con precisione le uova di corallo e le larve, riducendo drasticamente il lavoro manuale e facilitando il ripristino delle barriere coralline.

Dorian Tsai, Christopher A. Brunner, Riki Lamont, F. Mikaela Nordborg, Andrea Severati, Java Terry, Karen Jackel, Matthew Dunbabin, Tobias Fischer, Scarlett RaineWed, 11 Ma💻 cs

Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition

Questo lavoro introduce la Composizione Generale delle Politiche (GPC), un metodo senza addestramento che migliora le prestazioni dei robot combinando a tempo di test i punteggi distribuzionali di modelli pre-addestrati eterogenei, dimostrandosi efficace sia in simulazione che nel mondo reale.

Jiahang Cao, Yize Huang, Hanzhong Guo, Rui Zhang, Mu Nan, Weijian Mai, Jiaxu Wang, Hao Cheng, Jingkai Sun, Gang Han, Wen Zhao, Qiang Zhang, Yijie Guo, Qihao Zheng, Chunfeng Song, Xiao Li, Ping Luo, Andrew F. LuoWed, 11 Ma🤖 cs.LG

Connectivity Maintenance and Recovery for Multi-Robot Motion Planning

Il paper propone un algoritmo di pianificazione del movimento in tempo reale basato su curve di Bézier (MPC-CLF-CBF) che garantisce la connettività e la capacità di recupero di flotte robotiche in ambienti ostacolati, superando i limiti dei controllori reattivi e validando l'approccio tramite simulazioni e esperimenti fisici con otto quadricotteri Crazyflie.

Yutong Wang, Lishuo Pan, Yichun Qu, Tengxiang Wang, Nora AyanianWed, 11 Ma💻 cs

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

Il paper introduce NavSpace, un benchmark per valutare le capacità di percezione e ragionamento spaziale degli agenti di navigazione, e propone SNav, un nuovo modello che supera le prestazioni degli agenti esistenti sia sul benchmark che su robot reali.

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao DongWed, 11 Ma🤖 cs.AI

Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels

Questo articolo introduce il nuovo compito di generalizzazione del dominio per la segmentazione semantica LiDAR con etichette rumorose (DGLSS-NL), proponendo il framework DuNe che supera i limiti degli approcci esistenti ottenendo prestazioni all'avanguardia su diversi benchmark.

Weitong Kong, Zichao Zeng, Di Wen, Jiale Wei, Kunyu Peng, June Moh Goo, Jan Boehm, Rainer StiefelhagenWed, 11 Ma🤖 cs.LG

Asset-Centric Metric-Semantic Maps of Indoor Environments

Questo articolo presenta un approccio che combina rappresentazioni metriche dettagliate degli oggetti con informazioni semantiche per creare mappe indoor ad alta precisione, superando i limiti delle metodologie esistenti in termini di accuratezza e velocità, e dimostrando la loro efficacia nel ragionamento dei robot tramite modelli linguistici e nella navigazione semantica.

Christopher D. Hsu, Pratik ChaudhariWed, 11 Ma💻 cs