cs.RO Arbeiten | Gist.Science

GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models

Das Paper stellt GST-VLA vor, ein 3D-tiefenbewusstes Vision-Language-Action-Modell, das durch einen Gaussian Spatial Tokenizer für geometrisch strukturierte 3D-Gauß-Primitiven und eine 3D-tiefenbewusste Chain-of-Thought-Argumentation die Robotersteuerung auf Benchmarks wie LIBERO und SimplerEnv signifikant verbessert.

Md Selim Sarowar, Omer Tariq, Sungho KimWed, 11 Ma🤖 cs.AI

Provably Safe Trajectory Generation for Manipulators Under Motion and Environmental Uncertainties

Diese Arbeit stellt ein neuartiges, risikobegrenztes Bewegungsplanungsframework vor, das einen tiefen stochastischen Koopman-Operator mit einer hierarchischen Verifikationsmethode auf Basis von Sum-of-Squares-Programmierung kombiniert, um Manipulatoren in unsicheren und nicht-konvexen Umgebungen provierbar sichere und effiziente Trajektorien zu generieren.

Fei Meng, Zijiang Yang, Xinyu Mao, Haobo Liang, Max Q. -H. MengWed, 11 Ma💻 cs

Latent World Models for Automated Driving: A Unified Taxonomy, Evaluation Framework, and Open Challenges

Dieser Artikel stellt ein einheitliches Taxonomie- und Evaluierungsrahmenwerk für latente Weltmodelle im automatisierten Fahren vor, das verschiedene Repräsentationsformen und strukturelle Priors systematisch kategorisiert, um Herausforderungen wie Robustheit, Generalisierung und Ressourceneffizienz zu adressieren und zukünftige Forschungsrichtungen für verifizierbare Entscheidungssysteme aufzuzeigen.

Rongxiang Zeng, Yongqi DongWed, 11 Ma🤖 cs.AI

PM-Nav: Priori-Map Guided Embodied Navigation in Functional Buildings

Der Paper stellt PM-Nav vor, ein priorikartenbasiertes Framework für die embodied Navigation in funktionalen Gebäuden, das durch semantische Karten, hierarchisches Chain-of-Thought-Prompting und eine multi-modale Kollaboration die Leistung im Vergleich zu bestehenden Ansätzen in Simulation und Realität drastisch verbessert.

Jiang Gao, Xiangyu Dong, Haozhou Li, Haoran Zhao, Yaoming Zhou, Xiaoguang MaWed, 11 Ma🤖 cs.AI

DexHiL: A Human-in-the-Loop Framework for Vision-Language-Action Model Post-Training in Dexterous Manipulation

Der Artikel stellt DexHiL vor, ein bahnbrechendes Framework für das Nachtrainieren von Vision-Language-Action-Modellen, das durch eine integrierte Mensch-im-Loop-Steuerung und gezielte Datensammlung die Erfolgsrate bei komplexen, dexterousen Manipulationsaufgaben im Vergleich zu reinen Offline-Methoden um durchschnittlich 25 % steigert.

Yifan Han, Zhongxi Chen, Yuxuan Zhao, Congsheng Xu, Yanming Shao, Yichuan Peng, Yao Mu, Wenzhao LianWed, 11 Ma🤖 cs.AI

Walking on Rough Terrain with Any Number of Legs

Diese Arbeit stellt eine rechnerisch effiziente Kontrollarchitektur für Roboter mit sechs oder mehr Beinen vor, die durch segmentbasierte Zustandsmaschinen und eine Kopplung zwischen den Segmenten sowohl den festen Bodenkontakt auf unebenem Gelände als auch eine fiktive Fortbewegung bei Kontaktverlust ermöglicht und so eine Brücke zwischen Event-Kaskaden- und CPG-Steuerungen schlägt.

Zhuoyang Chen, Xinyuan Wang, Shai RevzenWed, 11 Ma💻 cs

SPAN-Nav: Generalized Spatial Awareness for Versatile Vision-Language Navigation

Die Arbeit stellt SPAN-Nav vor, ein end-to-end Fundamentmodell, das durch eine neuartige kompakte räumliche Repräsentation und ein CoT-ähnliches Mechanismus robustes räumliches Bewusstsein für die vielseitige vision-sprachbasierte Navigation in komplexen Umgebungen ermöglicht und dabei auf einem massiven Datensatz trainiert wurde, um in verschiedenen Szenarien state-of-the-art Ergebnisse zu erzielen.

Jiahang Liu, Tianyu Xu, Jiawei Chen, Lu Yue, Jiazhao Zhang, Zhiyong Wang, Minghan Li, Qisheng Zhao, Anqi Li, Qi Su, Zhizheng Zhang, He WangWed, 11 Ma💻 cs

ZeroWBC: Learning Natural Visuomotor Humanoid Control Directly from Human Egocentric Video

Das Paper stellt ZeroWBC vor, ein Framework, das mithilfe von feinabgestimmten Vision-Language-Modellen und menschlichen Ego-Videos natürliche Ganzkörpersteuerung für humanoide Roboter ermöglicht, ohne auf teure Teleoperationsdaten angewiesen zu sein.

Haoran Yang, Jiacheng Bao, Yucheng Xin, Haoming Song, Yuyang Tian, Bin Zhao, Dong Wang, Xuelong LiWed, 11 Ma🤖 cs.AI

STONE Dataset: A Scalable Multi-Modal Surround-View 3D Traversability Dataset for Off-Road Robot Navigation

Das Paper stellt STONE vor, einen skalierbaren, multimodalen Datensatz für die Off-Road-Navigation, der durch eine vollautomatische, annotierungsfreie Pipeline 3D-Begehbarkeitskarten aus LiDAR-, Kamera- und Radardaten generiert und damit einen Benchmark für die Vorhersage von Begehbarkeit in komplexen Umgebungen schafft.

Konyul Park, Daehun Kim, Jiyong Oh, Seunghoon Yu, Junseo Park, Jaehyun Park, Hongjae Shin, Hyungchan Cho, Jungho Kim, Jun Won ChoiWed, 11 Ma💻 cs

Robust Spatiotemporal Motion Planning for Multi-Agent Autonomous Racing via Topological Gap Identification and Accelerated MPC

Diese Arbeit stellt einen robusten Rahmen für die räumlich-zeitliche Bewegungsplanung beim autonomen Mehr-Agenten-Rennen vor, der durch die Identifizierung topologischer Lücken mittels SGPs und einen beschleunigten MPC-Lösungsansatz mit Pseudo-Transient-Continuation-Verfahren die Manöverzeit drastisch reduziert, die Überholungsrate in dichten Szenarien erhöht und die Rechenlatenz senkt.

Mingyi Zhang, Cheng Hu, Yiqin Wang, Haotong Qin, Hongye Su, Lei XieWed, 11 Ma💻 cs

WESPR: Wind-adaptive Energy-Efficient Safe Perception & Planning for Robust Flight with Quadrotors

Die Arbeit stellt WESPR vor, ein schnelles Framework, das geometrische Wahrnehmung und lokale Wetterdaten nutzt, um Windfelder vorherzusagen und so eine proaktive, windangepasste Pfadplanung und Steuerung für Quadrotoren zu ermöglichen, was zu einer signifikanten Verbesserung der Flugstabilität und Trajektorienabweichung führt.

Khuzema Habib, Pranav Deshakulkarni Manjunath, Kasra Torshizi, Troi Williams, Pratap TokekarWed, 11 Ma💻 cs

Embodied Human Simulation for Quantitative Design and Analysis of Interactive Robotics

Diese Arbeit stellt einen skalierbaren Simulationsrahmen vor, der ein muskuloskelettales Menschmodell mit Reinforcement Learning kombiniert, um die physische Mensch-Roboter-Interaktion quantitativ zu analysieren und die gleichzeitige Co-Optimierung von Roboterkonstruktion und Steuerung zu ermöglichen.

Chenhui Zuo, Jinhao Xu, Michael Qian Vergnolle, Yanan SuiWed, 11 Ma🤖 cs.AI

TRIP-Bag: A Portable Teleoperation System for Plug-and-Play Robotic Arms and Leaders

Das Paper stellt TRIP-Bag vor, ein tragbares Teleoperationssystem in einem Koffer, das es ermöglicht, mit geringem Aufwand und ohne Embodiment-Lücke hochwertige Manipulationsdaten für das robotische Lernen in verschiedenen Umgebungen zu sammeln.

Noboru Myers, Sankalp Yamsani, Obin Kwon, Joohyung KimWed, 11 Ma💻 cs

MO-Playground: Massively Parallelized Multi-Objective Reinforcement Learning for Robotics

Die Arbeit stellt MORLAX, einen GPU-nativen Multi-Objective-Reinforcement-Learning-Algorithmus, und MO-Playground, eine Sammlung von GPU-beschleunigten Umgebungen, vor, die durch massive Parallelisierung die Berechnung von Pareto-optimalen Politiken für komplexe Roboteraufgaben um das 25- bis 270-fache beschleunigen.

Neil Janwani, Ellen Novoseller, Vernon J. Lawhern, Maegan TuckerWed, 11 Ma💻 cs

RAE-NWM: Navigation World Model in Dense Visual Representation Space

Die Arbeit stellt RAE-NWM vor, ein Navigations-Weltmodell, das die Dynamik in einem dichten visuellen Repräsentationsraum (DINOv2) anstelle eines komprimierten latenten Raums modelliert und dabei einen Conditional Diffusion Transformer mit einem entkoppelten Kopf sowie einem zeitgesteuerten Gate-Modul nutzt, um die strukturelle Stabilität und die Genauigkeit der Aktionsvorhersage für die visuelle Navigation zu verbessern.

Mingkun Zhang, Wangtian Shen, Fan Zhang, Haijian Qin, Zihao Pei, Ziyang MengWed, 11 Ma💻 cs

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

Diese Arbeit stellt ein neuartiges Framework vor, das große Mengen an Web-Videos mit impliziten Geometriedarstellungen kombiniert, um Vision-and-Language-Navigation in realistischen Umgebungen zu skalieren und gleichzeitig den Bedarf an fragiler 3D-Rekonstruktion zu umgehen.

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan LaptevWed, 11 Ma💻 cs

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

Das Paper stellt SPR (See, Plan, Rewind) vor, einen fortschrittsbewussten Vision-Language-Action-Rahmen, der durch dynamische Unterteilung von Aufgaben in räumliche Teilziele und einen geschlossenen Regelkreis aus Beobachtung, Planung und Rücksetzfunktion bei Fehlern die Robustheit und Generalisierung robotischer Manipulation signifikant verbessert.

Tingjun Dai, Mingfei Han, Tingwen Du, Zhiheng Liu, Zhihui Li, Salman Khan, Jun Yu, Xiaojun ChangWed, 11 Ma💻 cs

CORAL: Scalable Multi-Task Robot Learning via LoRA Experts

Die Arbeit stellt CORAL vor, ein skalierbares Framework, das durch das Anbringen eines spezialisierten LoRA-Experten pro Aufgabe an einen eingefrorenen VLA-Hintergrund und eine dynamische Laufzeit-Routing-Strategie Interferenzen im Multi-Task-Learning vermeidet und so eine effiziente, lebenslange Robotik-Lernfähigkeit ohne Katastrophisches Vergessen ermöglicht.

Yuankai Luo, Woping Chen, Tong Liang, Zhenguo LiWed, 11 Ma💻 cs

NLiPsCalib: An Efficient Calibration Framework for High-Fidelity 3D Reconstruction of Curved Visuotactile Sensors

Die Arbeit stellt NLiPsCalib vor, ein effizientes Kalibrierungsframework für gekrümmte visuotaktile Sensoren, das mithilfe von Near-Light Photometric Stereo und alltäglichen Objekten eine hochpräzise 3D-Rekonstruktion ohne aufwendige Spezialgeräte ermöglicht.

Xuhao Qin, Feiyu Zhao, Yatao Leng, Runze Hu, Chenxi XiaoWed, 11 Ma💻 cs

SPAARS: Safer RL Policy Alignment through Abstract Exploration and Refined Exploitation of Action Space

Die Arbeit stellt SPAARS vor, ein Curriculum-Learning-Framework für das Offline-zu-Online-Reinforcement-Learning, das die Exploration zunächst sicher in einem latenten Raum einschränkt und dann nahtlos in den rohen Aktionsraum übergeht, um die durch Decoder-Rekonstruktionsverluste bedingte Leistungsgrenze zu überwinden und gleichzeitig die Sample-Effizienz sowie die Stabilität zu steigern.

Swaminathan S K, Aritra HazraWed, 11 Ma🤖 cs.AI

← Zurück Weiter →