ViLAM: Distilling Vision-Language Reasoning into Attention Maps for Social Robot Navigation

Das Paper stellt ViLAM vor, eine Methode, die durch Wissensdistillation von großen Vision-Sprach-Modellen in räumliche Aufmerksamkeitskarten soziale Navigationsfähigkeiten in Roboter integriert und damit die Erfolgswahrscheinlichkeit bei der sozialen Roboternavigation im Vergleich zu bestehenden Methoden um 14,2 % bis 50 % steigert.

Mohamed Elnoor, Kasun Weerakoon, Gershom Seneviratne, Jing Liang, Vignesh Rajagopal, Dinesh ManochaTue, 10 Ma💻 cs

IMPACT: Intelligent Motion Planning with Acceptable Contact Trajectories via Vision-Language Models

Die Arbeit stellt IMPACT vor, ein neuartiges Bewegungsplanungsframework, das Vision-Language-Modelle nutzt, um semantische Umgebungsinformationen zu erfassen und anisotrope Kostenkarten zu generieren, die es einem kontaktbewussten A*-Planer ermöglichen, in überfüllten Umgebungen stabile und sicherheitsbewusste Kontaktbahnen zu finden.

Yiyang Ling, Karan Owalekar, Oluwatobiloba Adesanya, Erdem Bıyık, Daniel SeitaTue, 10 Ma🤖 cs.LG

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

Die Arbeit stellt EgoDex vor, das derzeit größte und vielfältigste Datenset für geschickte Manipulation, das aus 829 Stunden egozentrischen Videos mit präzisen 3D-Handtracking-Daten besteht, um das Problem der Datenknappheit im Bereich des Imitationslernens für Robotik zu lösen und Benchmarks für den Fortschritt in diesem Bereich zu etablieren.

Ryan Hoque, Peide Huang, David J. Yoon, Mouli Sivapurapu, Jian ZhangTue, 10 Ma🤖 cs.LG

ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers

Die Arbeit stellt ViTaPEs vor, einen Transformer-basierten Ansatz, der durch eine neuartige zweistufige Positionscodierung visuell-taktile Repräsentationen lernt, um die multimodale Ausrichtung zu verbessern und sowohl in verschiedenen Erkennungsaufgaben als auch bei der Generalisierung auf unbekannte Szenarien und Robotergriffaufgaben den aktuellen Stand der Technik zu übertreffen.

Fotios Lygerakis, Ozan Özdenizci, Elmar RückertTue, 10 Ma🤖 cs.LG

DemoDiffusion: One-Shot Human Imitation using pre-trained Diffusion Policy

Der Paper stellt DemoDiffusion vor, eine Methode, die es Robotern ermöglicht, komplexe Manipulationsaufgaben durch Nachahmung einer einzigen menschlichen Demonstration zu erlernen, indem sie eine kinematische Retargeting-Vorlage mit einem vortrainierten Diffusions-Policy kombiniert, um eine robuste Anpassung ohne zusätzliche Trainingsdaten zu erreichen.

Sungjae Park, Homanga Bharadhwaj, Shubham TulsianiTue, 10 Ma🤖 cs.LG

ORN-CBF: Learning Observation-conditioned Residual Neural Control Barrier Functions via Hypernetworks

Die vorgestellte Arbeit führt ORN-CBF ein, eine Methode, die auf Hypernetzwerken und Hamilton-Jacobi-Reichweitenanalysen basiert, um lernbasierte, beobachtungsabhängige neuronale Sicherheitsfilter zu entwickeln, die in teilbeobachtbaren Umgebungen rigorose Sicherheitsgarantien bieten und die maximalen sicheren Mengen approximieren.

Bojan Derajic, Sebastian Bernhard, Wolfgang HönigTue, 10 Ma🤖 cs.LG

Efficient Construction of Implicit Surface Models From a Single Image for Motion Generation

Der Artikel stellt FINS vor, ein leichtgewichtiges Framework, das mithilfe eines vortrainierten Fundamentmodells und eines Multi-Resolution-Hash-Grids aus einem einzigen Bild hochpräzise implizite Oberflächen und SDF-Felder in nur wenigen Sekunden rekonstruiert und damit bestehende Methoden in Geschwindigkeit und Genauigkeit übertrifft.

Wei-Teng Chu, Tianyi Zhang, Matthew Johnson-Roberson, Weiming ZhiTue, 10 Ma💻 cs

CroSTAta: Cross-State Transition Attention Transformer for Robotic Manipulation

Die Arbeit stellt CroSTAta vor, einen Transformer-Ansatz für die robotische Manipulation, der durch eine neuartige State-Transition-Attention-Mechanik und temporale Maskierung die Robustheit gegenüber Abweichungen von Demonstrationsdaten signifikant verbessert und dabei bestehende Methoden wie TCN, LSTM und herkömmliche Cross-Attention übertrifft.

Giovanni Minelli, Giulio Turrisi, Victor Barasuol, Claudio SeminiTue, 10 Ma🤖 cs.LG

Pretraining in Actor-Critic Reinforcement Learning for Robot Locomotion

Diese Arbeit stellt ein Pretraining-Fine-Tuning-Paradigma für das Reinforcement Learning bei der Robotergangart vor, bei dem ein vorab trainiertes propriozeptives inverses Dynamikmodell (PIDM) zur Initialisierung von Actor-Critic-Netzwerken genutzt wird, um die Probeneffizienz und Aufgabenleistung im Vergleich zur zufälligen Initialisierung signifikant zu verbessern.

Jiale Fan, Andrei Cramariuc, Tifanny Portela, Marco HutterTue, 10 Ma🤖 cs.LG

Vectorized Online POMDP Planning

Das Paper stellt VOPP vor, einen vektorisierten Online-POMDP-Planer, der durch die Umwandlung aller Planungsdatenstrukturen in Tensoren und die vollständige Vektorisierung der Berechnungen massive Parallelisierung ohne Synchronisationsengpässe ermöglicht und damit sowohl effizientere Lösungen als auch eine um den Faktor 1000 reduzierte Planungsbudget-Nutzung im Vergleich zu bestehenden Solvern erreicht.

Marcus Hoerger, Muhammad Sudrajat, Hanna KurniawatiTue, 10 Ma💻 cs

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

Die Arbeit stellt TimeSpot vor, einen Benchmark mit 1.455 Bildern aus 80 Ländern, der zeigt, dass aktuelle Vision-Language-Modelle bei der rein visuellen Inferenz von geografischen und zeitlichen Merkmalen sowie bei der räumlich-zeitlichen Schlussfolgerung in realen Szenarien erhebliche Defizite aufweisen.

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan ParvezTue, 10 Ma💬 cs.CL

A Pivot-Based Kirigami Utensil for Hand-Held and Robot-Assisted Feeding

Die vorgestellte Arbeit stellt einen neuartigen, auf einem Scharniermechanismus basierenden „Kiri-Löffel" vor, der durch seine einfache, druckbare Bauweise sowohl als handgehaltenes als auch als robotergestütztes Besteck dient und durch sein zangenartiges Design die Nahrungsaufnahme für Menschen mit Tremor oder motorischen Einschränkungen sicherer macht.

Keone Leao, Grace Brotherson, Iain Mischel, Sagar Parekh, Dylan P. LoseyTue, 10 Ma💻 cs

Dynamic Targeting of Satellite Observations Using Supplemental Geostationary Satellite Data and Hierarchical Planning

Diese Arbeit stellt einen hierarchischen Planungsansatz vor, der durch die Kombination von geostationären Satellitendaten für eine langfristige Strategie und onboard-Sensordaten für die kurzfristige Verfeinerung die Leistung dynamischer Satellitenbeobachtungsmissionen bis zu 41 % steigert, insbesondere bei spärlich verteilten Zielen.

Akseli Kangaslahti, Itai Zilberstein, Alberto Candela, Steve ChienTue, 10 Ma💻 cs

Don't Freeze, Don't Crash: Extending the Safe Operating Range of Neural Navigation in Dense Crowds

Die Arbeit stellt einen verstärkungslernbasierten Ansatz vor, der durch dichteinvariantes Eingabe-Encoding, zufallsbasiertes Dichte-Training und physikbasierte Belohnungsgestaltung eine sichere Navigation in dichten Menschenmengen ermöglicht und dabei sowohl das Einfrieren analytischer Methoden als auch das Abstürzen herkömmlicher Lernverfahren bei veränderter Dichte überwindet.

Jiefu Zhang, Yang Xu, Vaneet AggarwalTue, 10 Ma🤖 cs.LG

Robotic Foundation Models for Industrial Control: A Comprehensive Survey and Readiness Assessment Framework

Diese Studie bietet einen umfassenden Überblick über robotische Fundamentmodelle für die industrielle Steuerung, entwickelt einen Bewertungsrahmen mit 149 Kriterien und kommt zu dem Schluss, dass die industrielle Reife derzeit begrenzt ist, da selbst die besten Modelle nur einen Bruchteil der Anforderungen erfüllen und systemische Integration von Sicherheit sowie Echtzeitfähigkeit priorisiert werden muss.

David Kube, Simon Hadwiger, Tobias MeisenTue, 10 Ma💻 cs