cs.RO Arbeiten | Gist.Science

Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards

Die vorgestellte Arbeit stellt CoHet vor, einen dezentralen Multi-Agenten-Reinforcement-Learning-Algorithmus, der mittels graphbasierten intrinsischen Belohnungen die Zusammenarbeit heterogener Agenten unter Bedingungen partieller Beobachtbarkeit und seltener Umweltbelohnungen effektiv verbessert.

Jahir Sadik Monon, Deeparghya Dutta Barua, Md. Mosaddek KhanWed, 11 Ma🤖 cs.AI

Learning responsibility allocations for multi-agent interactions: A differentiable optimization approach with control barrier functions

Diese Arbeit stellt einen datengesteuerten Ansatz vor, der auf Control Barrier Functions und differenzierbarer Optimierung basiert, um die Verantwortungszuweisung von Agenten in multi-agenten Interaktionen zu lernen und so ein quantitatives Verständnis dafür zu gewinnen, wie stark Akteure ihr Verhalten anpassen, um die Sicherheit anderer zu gewährleisten.

Isaac Remy, David Fridovich-Keil, Karen LeungWed, 11 Ma🤖 cs.LG

Open-World Task and Motion Planning via Vision-Language Model Genereated Constraints

Die Arbeit stellt OWL-TAMP vor, ein System, das Vision-Language-Modelle nutzt, um diskrete und kontinuierliche Constraints zu generieren, wodurch Task-and-Motion-Planning-Systeme in der Lage sind, komplexe Manipulationsaufgaben basierend auf natürlichen Sprachanweisungen in offenen Umgebungen zu lösen.

Nishanth Kumar, William Shen, Fabio Ramos, Dieter Fox, Tomás Lozano-Pérez, Leslie Pack Kaelbling, Caelan Reed GarrettWed, 11 Ma💻 cs

Image Compression Using Novel View Synthesis Priors

Die Autoren stellen eine modellbasierte Bildkomprimierungsmethode vor, die auf trainierten Modellen zur Synthese neuer Ansichten und Gradientenabstiegs-Optimierung basiert, um die Echtzeit-Übertragung von Bildern für ferngesteuerte Unterwasserfahrzeuge über akustische Kanäle mit begrenzter Bandbreite zu ermöglichen.

Luyuan Peng, Mandar Chitre, Hari Vishnu, Yuen Min Too, Bharath Kalyan, Rajat Mishra, Soo Pieng TanWed, 11 Ma⚡ eess

Morphological-Symmetry-Equivariant Heterogeneous Graph Neural Network for Robotic Dynamics Learning

Die Autoren stellen MS-HGNN vor, ein morphologisch-symmetrie-äquivariantes heterogenes Graph-Neurales Netzwerk, das kinematische Strukturen und morphologische Symmetrien in Roboter-Dynamikmodellen integriert, um Generalisierbarkeit und Effizienz zu steigern, was durch theoretische Beweise und Experimente mit echten und simulierten Quadruped-Robotern validiert wurde.

Fengze Xie, Sizhe Wei, Yue Song, Yisong Yue, Lu GanWed, 11 Ma🤖 cs.LG

CuriousBot: Interactive Mobile Exploration via Actionable 3D Relational Object Graph

Die Arbeit stellt CuriousBot vor, ein mobiles Explorationsystem, das durch einen 3D-relationalen Objektgraphen interaktives Erkunden komplexer Umgebungen ermöglicht und dabei VLM-basierte Ansätze in Bezug auf Generalisierung und Effektivität übertrifft.

Yixuan Wang, Leonor Fermoselle, Tarik Kelestemur, Jiuguang Wang, Yunzhu LiWed, 11 Ma🤖 cs.LG

Unveiling the Potential of iMarkers: Invisible Fiducial Markers for Advanced Robotics

Die Arbeit stellt iMarkers vor, eine innovative Klasse unsichtbarer fiduzieller Marker, die speziell für Roboter und AR-Geräte entwickelt wurden, um die visuelle Ästhetik von Umgebungen zu bewahren, während sie gleichzeitig eine flexible, robuste und für Menschen nicht wahrnehmbare Orientierung und Objekterkennung ermöglichen.

Ali Tourani, Deniz Isinsu Avsar, Hriday Bavle, Jose Luis Sanchez-Lopez, Jan Lagerwall, Holger VoosWed, 11 Ma💻 cs

A Distributional Treatment of Real2Sim2Real for Object-Centric Agent Adaptation in Vision-Driven Deformable Linear Object Manipulation

Diese Arbeit stellt einen integrierten Rahmen vor, der likelihood-freie Inferenz nutzt, um physikalische Parameter deformierbarer linearer Objekte aus visuellen und propriozeptiven Daten zu schätzen und so durch domänenrandomisierte, modellfreie Verstärkungslernen in der Simulation trainierte visuomotorische Strategien für eine Zero-Shot-Übertragung auf reale Manipulationsaufgaben zu ermöglichen.

Georgios Kamaras, Subramanian RamamoorthyWed, 11 Ma🤖 cs.LG

LLM-Advisor: An LLM Benchmark for Cost-efficient Path Planning across Multiple Terrains

Die Arbeit stellt LLM-Advisor vor, ein Prompt-basiertes Framework, das große Sprachmodelle als nicht-entscheidende Nachbearbeitungsberater nutzt, um die Kosteneffizienz von Pfadplanungen über verschiedene Geländetypen zu verbessern und dabei durch spezielle Strategien Halluzinationen minimiert, was in Experimenten zu signifikanten Verbesserungen bestehender Planungsalgorithmen führte.

Ling Xiao, Toshihiko YamasakiWed, 11 Ma🤖 cs.AI

Physics-Conditioned Grasping for Stable Tool Use

Die Arbeit stellt iTuP und SDG-Net vor, ein System, das durch die Minimierung vorhergesagter, aufgabenbedingter Drehmomente und Gleitkräfte stabile Greifpositionen für den Robotereinsatz von Werkzeugen auswählt und so die Erfolgsrate im Vergleich zu rein geometrischen Ansätzen signifikant steigert.

Noah Trupin, Zixing Wang, Ahmed H. QureshiWed, 11 Ma💻 cs

Latent Policy Steering with Embodiment-Agnostic Pretrained World Models

Die Arbeit stellt „Latent Policy Steering" (LPS) vor, eine Methode, die durch Vortraining eines Weltmodells mit embodiment-unabhängigem optischem Fluss und anschließendem Feinabstimmen auf wenigen Zielsystem-Demonstrationen die Leistung visuomotorischer Robotik-Policies in datenarmen Szenarien erheblich verbessert.

Yiqi Wang, Mrinal Verghese, Jeff SchneiderWed, 11 Ma🤖 cs.AI

You Only Pose Once: A Minimalist's Detection Transformer for Monocular RGB Category-level 9D Multi-Object Pose Estimation

Der Artikel stellt YOPO vor, einen minimalistischen, einstufigen Transformer-basierten Ansatz, der die 9-DoF-Pose-Schätzung von Objekten in einer Kategorie aus einzelnen RGB-Bildern direkt mit der Objekterkennung vereint und dabei ohne zusätzliche Tiefendaten oder CAD-Modelle neue State-of-the-Art-Ergebnisse erzielt.

Hakjin Lee, Junghoon Seo, Jaehoon SimWed, 11 Ma💻 cs

Multi-Quadruped Cooperative Object Transport: Learning Decentralized Pinch-Lift-Move

Diese Arbeit stellt einen dezentralen Lernansatz vor, der es Teams von N-Quadruped-Robotern ermöglicht, nicht greifbare Objekte ausschließlich durch physischen Kontakt zu transportieren, indem eine hierarchische Politik und eine spezielle Belohnungsfunktion eine implizite Synchronisation ohne Kommunikation oder mechanische Kopplung gewährleisten.

Bikram Pandit, Aayam Kumar Shrestha, Alan FernWed, 11 Ma💻 cs

Robot Control Stack: A Lean Ecosystem for Robot Learning at Scale

Dieses Paper stellt den Robot Control Stack (RCS) vor, ein schlankes und modulares Ökosystem, das speziell entwickelt wurde, um die Forschung im Bereich des Robot Learning mit großen generalistischen Vision-Language-Action-Modellen zu unterstützen und dabei die Lücke zwischen Simulation und realer Welt zu schließen.

Tobias Jülg, Pierre Krack, Seongjin Bien, Yannik Blei, Khaled Gamal, Ken Nakahara, Johannes Hechtl, Roberto Calandra, Wolfram Burgard, Florian WalterWed, 11 Ma🤖 cs.LG

Automated Coral Spawn Monitoring for Reef Restoration: The Coral Spawn and Larvae Imaging Camera System (CSLICS)

Die Studie stellt das kostengünstige, modulare Kamerasystem CSLICS vor, das mithilfe von Computer-Vision-Techniken und menschlicher Rückkopplung die automatisierte Zählung von Korallenlaich ermöglicht und damit den manuellen Aufwand bei der Riffrestaurierung drastisch reduziert sowie die Überwachung der Larvengesundheit verbessert.

Dorian Tsai, Christopher A. Brunner, Riki Lamont, F. Mikaela Nordborg, Andrea Severati, Java Terry, Karen Jackel, Matthew Dunbabin, Tobias Fischer, Scarlett RaineWed, 11 Ma💻 cs

Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition

Die Arbeit stellt General Policy Composition (GPC) vor, eine trainingsfreie Methode, die durch die testzeitliche konvexe Kombination von Verteilungsscores mehrerer vortrainierter Diffusions- oder Flow-basierter Roboterpolicies deren Leistung über das Niveau der einzelnen Elternmodelle hinaus steigert.

Jiahang Cao, Yize Huang, Hanzhong Guo, Rui Zhang, Mu Nan, Weijian Mai, Jiaxu Wang, Hao Cheng, Jingkai Sun, Gang Han, Wen Zhao, Qiang Zhang, Yijie Guo, Qihao Zheng, Chunfeng Song, Xiao Li, Ping Luo, Andrew F. LuoWed, 11 Ma🤖 cs.LG

Connectivity Maintenance and Recovery for Multi-Robot Motion Planning

Die Autoren stellen einen Echtzeit-Bézier-basierten MPC-CLF-CBF-Planungsalgorithmus vor, der die Konnektivität von Multi-Roboter-Schwärmen in komplexen Umgebungen durch gleichzeitige Trajektorien- und Regelungsplanung sicherstellt, Deadlocks vermeidet und bei Verbindungsverlusten eine erfolgreiche Wiederherstellung ermöglicht.

Yutong Wang, Lishuo Pan, Yichun Qu, Tengxiang Wang, Nora AyanianWed, 11 Ma💻 cs

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

Die Arbeit stellt mit NavSpace ein neues Benchmark-System zur systematischen Evaluierung der räumlichen Intelligenz von Navigationsagenten vor und führt das überlegene Modell SNav ein, das sowohl auf diesem Benchmark als auch in realen Robotertests neue Maßstäbe setzt.

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao DongWed, 11 Ma🤖 cs.AI

Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels

Die Arbeit stellt das neue Forschungsgebiet der Domänengeneralisierung für LiDAR-basierte semantische Segmentierung unter verrauschten Labels vor, führt einen Benchmark ein und schlägt mit DuNe ein dual-sichtiges Framework vor, das durch konsistente Feature-Lernung und konfidenzbasiertes Filtern robuste Ergebnisse unter Domänenverschiebungen und Labelrauschen erzielt.

Weitong Kong, Zichao Zeng, Di Wen, Jiale Wei, Kunyu Peng, June Moh Goo, Jan Boehm, Rainer StiefelhagenWed, 11 Ma🤖 cs.LG

Asset-Centric Metric-Semantic Maps of Indoor Environments

Diese Arbeit stellt eine effiziente, asset-zentrische metrisch-semantische Kartierungsmethode für Innenräume vor, die mit einem Unitree Go2-Roboter detaillierte Objektmeshes erstellt, um sowohl eine höhere Genauigkeit als auch eine bessere LLM-Integration für semantische Navigation zu erreichen als bestehende Ansätze.

Christopher D. Hsu, Pratik ChaudhariWed, 11 Ma💻 cs

Weiter →