cs.RO Arbeiten | Gist.Science

ViLAM: Distilling Vision-Language Reasoning into Attention Maps for Social Robot Navigation

Das Paper stellt ViLAM vor, eine Methode, die durch Wissensdistillation von großen Vision-Sprach-Modellen in räumliche Aufmerksamkeitskarten soziale Navigationsfähigkeiten in Roboter integriert und damit die Erfolgswahrscheinlichkeit bei der sozialen Roboternavigation im Vergleich zu bestehenden Methoden um 14,2 % bis 50 % steigert.

Mohamed Elnoor, Kasun Weerakoon, Gershom Seneviratne, Jing Liang, Vignesh Rajagopal, Dinesh ManochaTue, 10 Ma💻 cs

IMPACT: Intelligent Motion Planning with Acceptable Contact Trajectories via Vision-Language Models

Die Arbeit stellt IMPACT vor, ein neuartiges Bewegungsplanungsframework, das Vision-Language-Modelle nutzt, um semantische Umgebungsinformationen zu erfassen und anisotrope Kostenkarten zu generieren, die es einem kontaktbewussten A*-Planer ermöglichen, in überfüllten Umgebungen stabile und sicherheitsbewusste Kontaktbahnen zu finden.

Yiyang Ling, Karan Owalekar, Oluwatobiloba Adesanya, Erdem Bıyık, Daniel SeitaTue, 10 Ma🤖 cs.LG

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

Die Arbeit stellt EgoDex vor, das derzeit größte und vielfältigste Datenset für geschickte Manipulation, das aus 829 Stunden egozentrischen Videos mit präzisen 3D-Handtracking-Daten besteht, um das Problem der Datenknappheit im Bereich des Imitationslernens für Robotik zu lösen und Benchmarks für den Fortschritt in diesem Bereich zu etablieren.

Ryan Hoque, Peide Huang, David J. Yoon, Mouli Sivapurapu, Jian ZhangTue, 10 Ma🤖 cs.LG

ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers

Die Arbeit stellt ViTaPEs vor, einen Transformer-basierten Ansatz, der durch eine neuartige zweistufige Positionscodierung visuell-taktile Repräsentationen lernt, um die multimodale Ausrichtung zu verbessern und sowohl in verschiedenen Erkennungsaufgaben als auch bei der Generalisierung auf unbekannte Szenarien und Robotergriffaufgaben den aktuellen Stand der Technik zu übertreffen.

Fotios Lygerakis, Ozan Özdenizci, Elmar RückertTue, 10 Ma🤖 cs.LG

ActivePusher: Active Learning and Planning with Residual Physics for Nonprehensile Manipulation

Der Artikel stellt ActivePusher vor, ein Framework, das durch die Kombination von Residual-Physics-Modellierung und unsicherheitsbasiertem Active Learning die Dateneffizienz und Planungserfolgsrate bei nichtgreifenden Manipulationsaufgaben wie Schieben verbessert.

Zhuoyun Zhong, Seyedali Golestaneh, Constantinos ChamzasTue, 10 Ma🤖 cs.LG

DemoDiffusion: One-Shot Human Imitation using pre-trained Diffusion Policy

Der Paper stellt DemoDiffusion vor, eine Methode, die es Robotern ermöglicht, komplexe Manipulationsaufgaben durch Nachahmung einer einzigen menschlichen Demonstration zu erlernen, indem sie eine kinematische Retargeting-Vorlage mit einem vortrainierten Diffusions-Policy kombiniert, um eine robuste Anpassung ohne zusätzliche Trainingsdaten zu erreichen.

Sungjae Park, Homanga Bharadhwaj, Shubham TulsianiTue, 10 Ma🤖 cs.LG

Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification

Die Arbeit identifiziert die „Agreement Bias" als zentrales Hindernis für Multimodale LLMs als Verifizierer und schlägt mit SGV eine zweistufige, selbstverankerte Methode vor, die die Fehlererkennung und Aufgabenabschlussraten in Bereichen wie Webnavigation und Robotik signifikant verbessert.

Moises Andrade, Joonhyuk Cha, Brandon Ho, Vriksha Srihari, Karmesh Yadav, Zsolt KiraTue, 10 Ma🤖 cs.LG

ORN-CBF: Learning Observation-conditioned Residual Neural Control Barrier Functions via Hypernetworks

Die vorgestellte Arbeit führt ORN-CBF ein, eine Methode, die auf Hypernetzwerken und Hamilton-Jacobi-Reichweitenanalysen basiert, um lernbasierte, beobachtungsabhängige neuronale Sicherheitsfilter zu entwickeln, die in teilbeobachtbaren Umgebungen rigorose Sicherheitsgarantien bieten und die maximalen sicheren Mengen approximieren.

Bojan Derajic, Sebastian Bernhard, Wolfgang HönigTue, 10 Ma🤖 cs.LG

Efficient Construction of Implicit Surface Models From a Single Image for Motion Generation

Der Artikel stellt FINS vor, ein leichtgewichtiges Framework, das mithilfe eines vortrainierten Fundamentmodells und eines Multi-Resolution-Hash-Grids aus einem einzigen Bild hochpräzise implizite Oberflächen und SDF-Felder in nur wenigen Sekunden rekonstruiert und damit bestehende Methoden in Geschwindigkeit und Genauigkeit übertrifft.

Wei-Teng Chu, Tianyi Zhang, Matthew Johnson-Roberson, Weiming ZhiTue, 10 Ma💻 cs

CroSTAta: Cross-State Transition Attention Transformer for Robotic Manipulation

Die Arbeit stellt CroSTAta vor, einen Transformer-Ansatz für die robotische Manipulation, der durch eine neuartige State-Transition-Attention-Mechanik und temporale Maskierung die Robustheit gegenüber Abweichungen von Demonstrationsdaten signifikant verbessert und dabei bestehende Methoden wie TCN, LSTM und herkömmliche Cross-Attention übertrifft.

Giovanni Minelli, Giulio Turrisi, Victor Barasuol, Claudio SeminiTue, 10 Ma🤖 cs.LG

Pretraining in Actor-Critic Reinforcement Learning for Robot Locomotion

Diese Arbeit stellt ein Pretraining-Fine-Tuning-Paradigma für das Reinforcement Learning bei der Robotergangart vor, bei dem ein vorab trainiertes propriozeptives inverses Dynamikmodell (PIDM) zur Initialisierung von Actor-Critic-Netzwerken genutzt wird, um die Probeneffizienz und Aufgabenleistung im Vergleich zur zufälligen Initialisierung signifikant zu verbessern.

Jiale Fan, Andrei Cramariuc, Tifanny Portela, Marco HutterTue, 10 Ma🤖 cs.LG

Vectorized Online POMDP Planning

Das Paper stellt VOPP vor, einen vektorisierten Online-POMDP-Planer, der durch die Umwandlung aller Planungsdatenstrukturen in Tensoren und die vollständige Vektorisierung der Berechnungen massive Parallelisierung ohne Synchronisationsengpässe ermöglicht und damit sowohl effizientere Lösungen als auch eine um den Faktor 1000 reduzierte Planungsbudget-Nutzung im Vergleich zu bestehenden Solvern erreicht.

Marcus Hoerger, Muhammad Sudrajat, Hanna KurniawatiTue, 10 Ma💻 cs

Whole-Brain Connectomic Graph Model Enables Whole-Body Locomotion Control in Fruit Fly

Diese Studie stellt das Fly-connectomic Graph Model (FlyGM) vor, das die statische Struktur des vollständigen Gehirns einer adulten Fruchtfliege als gerichteten Graphen nutzt, um ohne aufgabenspezifische Anpassungen eine effiziente und stabile Steuerung der Ganzkörperlokomotion im verstärkten Lernen zu ermöglichen.

Zehao Jin, Yaoye Zhu, Chen Zhang, Yanan SuiTue, 10 Ma🤖 cs.LG

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

Die Arbeit stellt TimeSpot vor, einen Benchmark mit 1.455 Bildern aus 80 Ländern, der zeigt, dass aktuelle Vision-Language-Modelle bei der rein visuellen Inferenz von geografischen und zeitlichen Merkmalen sowie bei der räumlich-zeitlichen Schlussfolgerung in realen Szenarien erhebliche Defizite aufweisen.

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan ParvezTue, 10 Ma💬 cs.CL

One-Shot Badminton Shuttle Detection for Mobile Robots

Diese Arbeit stellt ein robustes One-Shot-Erkennungsframework für Badmintonbälle vor, das auf einem neuartigen, halbautomatisch annotierten Datensatz basiert und speziell für die dynamischen, egozentrischen Sichtwinkel mobiler Roboter optimiert wurde, um als Grundlage für nachgelagerte Aufgaben wie Verfolgung und Trajektorienschätzung zu dienen.

Florentin Dipner, William Talbot, Turcan Tuna, Andrei Cramariuc, Marco HutterTue, 10 Ma💻 cs

A Pivot-Based Kirigami Utensil for Hand-Held and Robot-Assisted Feeding

Die vorgestellte Arbeit stellt einen neuartigen, auf einem Scharniermechanismus basierenden „Kiri-Löffel" vor, der durch seine einfache, druckbare Bauweise sowohl als handgehaltenes als auch als robotergestütztes Besteck dient und durch sein zangenartiges Design die Nahrungsaufnahme für Menschen mit Tremor oder motorischen Einschränkungen sicherer macht.

Keone Leao, Grace Brotherson, Iain Mischel, Sagar Parekh, Dylan P. LoseyTue, 10 Ma💻 cs

Dynamic Targeting of Satellite Observations Using Supplemental Geostationary Satellite Data and Hierarchical Planning

Diese Arbeit stellt einen hierarchischen Planungsansatz vor, der durch die Kombination von geostationären Satellitendaten für eine langfristige Strategie und onboard-Sensordaten für die kurzfristige Verfeinerung die Leistung dynamischer Satellitenbeobachtungsmissionen bis zu 41 % steigert, insbesondere bei spärlich verteilten Zielen.

Akseli Kangaslahti, Itai Zilberstein, Alberto Candela, Steve ChienTue, 10 Ma💻 cs

Don't Freeze, Don't Crash: Extending the Safe Operating Range of Neural Navigation in Dense Crowds

Die Arbeit stellt einen verstärkungslernbasierten Ansatz vor, der durch dichteinvariantes Eingabe-Encoding, zufallsbasiertes Dichte-Training und physikbasierte Belohnungsgestaltung eine sichere Navigation in dichten Menschenmengen ermöglicht und dabei sowohl das Einfrieren analytischer Methoden als auch das Abstürzen herkömmlicher Lernverfahren bei veränderter Dichte überwindet.

Jiefu Zhang, Yang Xu, Vaneet AggarwalTue, 10 Ma🤖 cs.LG

Improved Constrained Generation by Bridging Pretrained Generative Models

Die vorgestellte Arbeit schlägt einen Rahmen vor, der vortrainierte generative Modelle feinabstimmt, um realistische Proben direkt innerhalb komplexer, physikalisch oder sicherheitskritisch eingeschränkter Bereiche zu erzeugen und dabei einen neuen Kompromiss zwischen Constraint-Einhaltung und Probenqualität erreicht.

Xiaoxuan Liang, Saeid Naderiparizi, Yunpeng Liu, Berend Zwartsenberg, Frank WoodTue, 10 Ma🤖 cs.LG

Robotic Foundation Models for Industrial Control: A Comprehensive Survey and Readiness Assessment Framework

Diese Studie bietet einen umfassenden Überblick über robotische Fundamentmodelle für die industrielle Steuerung, entwickelt einen Bewertungsrahmen mit 149 Kriterien und kommt zu dem Schluss, dass die industrielle Reife derzeit begrenzt ist, da selbst die besten Modelle nur einen Bruchteil der Anforderungen erfüllen und systemische Integration von Sicherheit sowie Echtzeitfähigkeit priorisiert werden muss.

David Kube, Simon Hadwiger, Tobias MeisenTue, 10 Ma💻 cs

← Zurück Weiter →