cs.RO articoli | Gist.Science

GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models

Il paper presenta GST-VLA, un modello Vision-Language-Action che introduce un Tokenizzatore Spaziale Gaussiano per rappresentare le osservazioni visive come primitive 3D anisotrope e un meccanismo di ragionamento CoT sensibile alla profondità, ottenendo prestazioni superiori su compiti robotici complessi grazie a una rappresentazione geometrica strutturata e a un'architettura di azione basata sul flow-matching.

Md Selim Sarowar, Omer Tariq, Sungho KimWed, 11 Ma🤖 cs.AI

Provably Safe Trajectory Generation for Manipulators Under Motion and Environmental Uncertainties

Questo articolo propone un nuovo quadro di pianificazione del movimento a rischio limitato che integra un operatore di Koopman stocastico profondo, una verifica gerarchica basata su programmazione SOS e un controllore MPPI per generare traiettorie sicure ed efficienti per manipolatori robotici in ambienti incerti e non convessi, validato sia in simulazione che in esperimenti reali.

Fei Meng, Zijiang Yang, Xinyu Mao, Haobo Liang, Max Q. -H. MengWed, 11 Ma💻 cs

Latent World Models for Automated Driving: A Unified Taxonomy, Evaluation Framework, and Open Challenges

Questo articolo propone un quadro unificato per i modelli di mondo latenti nella guida automatizzata, presentando una tassonomia che organizza le rappresentazioni latenti, delineando cinque meccanismi interni fondamentali, introducendo un framework di valutazione per colmare il divario tra scenari open-loop e closed-loop e identificando le sfide aperte per sistemi decisionali verificabili ed efficienti.

Rongxiang Zeng, Yongqi DongWed, 11 Ma🤖 cs.AI

PM-Nav: Priori-Map Guided Embodied Navigation in Functional Buildings

Il paper propone PM-Nav, un sistema di navigazione embodied guidato da mappe prioritarie che, trasformando le mappe ambientali in rappresentazioni semantiche e utilizzando prompt gerarchici con ragionamento a catena, risolve le sfide della navigazione in edifici funzionali con caratteristiche simili ottenendo miglioramenti significativi rispetto agli approcci esistenti.

Jiang Gao, Xiangyu Dong, Haozhou Li, Haoran Zhao, Yaoming Zhou, Xiaoguang MaWed, 11 Ma🤖 cs.AI

DexHiL: A Human-in-the-Loop Framework for Vision-Language-Action Model Post-Training in Dexterous Manipulation

Il paper presenta DexHiL, un innovativo framework "human-in-the-loop" che integra teleoperazione e campionamento dati intelligente per il post-addestramento di modelli Vision-Language-Action, migliorando significativamente l'affidabilità e il successo delle manipolazioni destre dei robot rispetto alle tecniche di affinamento offline tradizionali.

Yifan Han, Zhongxi Chen, Yuxuan Zhao, Congsheng Xu, Yanming Shao, Yichuan Peng, Yao Mu, Wenzhao LianWed, 11 Ma🤖 cs.AI

Walking on Rough Terrain with Any Number of Legs

Questo articolo presenta un'architettura di controllo computazionalmente efficiente e adattiva per robot multiarticolati con 6 o più zampe, progettata per navigare terreni accidentati combinando il controllo basato su eventi e i generatori di pattern centrali (CPG) attraverso segmenti identici che si adattano dinamicamente al contatto con il suolo.

Zhuoyang Chen, Xinyuan Wang, Shai RevzenWed, 11 Ma💻 cs

SPAN-Nav: Generalized Spatial Awareness for Versatile Vision-Language Navigation

Il paper introduce SPAN-Nav, un modello fondazionale end-to-end che potenzia la navigazione visione-linguaggio con una consapevolezza spaziale 3D universale, ottenendo prestazioni all'avanguardia grazie a un nuovo dataset massivo di annotazioni e a un meccanismo efficiente che utilizza un singolo token spaziale per guidare il ragionamento delle azioni.

Jiahang Liu, Tianyu Xu, Jiawei Chen, Lu Yue, Jiazhao Zhang, Zhiyong Wang, Minghan Li, Qisheng Zhao, Anqi Li, Qi Su, Zhizheng Zhang, He WangWed, 11 Ma💻 cs

ZeroWBC: Learning Natural Visuomotor Humanoid Control Directly from Human Egocentric Video

Il paper presenta ZeroWBC, un nuovo framework che apprende il controllo visuomotorio naturale per humanoid direttamente da video egocentrici umani, eliminando la necessità di costosi dati di teleoperazione robotica e permettendo interazioni versatili come sedersi o calciare.

Haoran Yang, Jiacheng Bao, Yucheng Xin, Haoming Song, Yuyang Tian, Bin Zhao, Dong Wang, Xuelong LiWed, 11 Ma🤖 cs.AI

STONE Dataset: A Scalable Multi-Modal Surround-View 3D Traversability Dataset for Off-Road Robot Navigation

Il paper presenta STONE, un dataset multi-modale su larga scala per la navigazione robotica off-road che offre mappe di traversabilità 3D generate automaticamente e dati sensoriali sincronizzati (LiDAR, telecamere e radar) per abilitare la previsione di terreni percorribili senza annotazione manuale.

Konyul Park, Daehun Kim, Jiyong Oh, Seunghoon Yu, Junseo Park, Jaehyun Park, Hongjae Shin, Hyungchan Cho, Jungho Kim, Jun Won ChoiWed, 11 Ma💻 cs

Robust Spatiotemporal Motion Planning for Multi-Agent Autonomous Racing via Topological Gap Identification and Accelerated MPC

Questo articolo presenta un framework innovativo per la pianificazione del movimento in gare autonome multi-agente ad alta velocità, che combina l'identificazione topologica dei varchi tramite processi gaussiani spaziotemporali e un MPC accelerato per garantire manovre di sorpasso robuste, sicure e computazionalmente efficienti.

Mingyi Zhang, Cheng Hu, Yiqin Wang, Haotong Qin, Hongye Su, Lei XieWed, 11 Ma💻 cs

WESPR: Wind-adaptive Energy-Efficient Safe Perception & Planning for Robust Flight with Quadrotors

Il paper presenta WESPR, un framework rapido che integra percezione geometrica e dati meteorologici per prevedere i campi di vento locali e adattare proattivamente la pianificazione e il controllo dei droni, migliorando significativamente stabilità e precisione di volo in ambienti turbolenti.

Khuzema Habib, Pranav Deshakulkarni Manjunath, Kasra Torshizi, Troi Williams, Pratap TokekarWed, 11 Ma💻 cs

Embodied Human Simulation for Quantitative Design and Analysis of Interactive Robotics

Questo lavoro presenta un framework di simulazione scalabile basato su un modello muscolo-scheletrico completo e controllato da apprendimento per rinforzo, che permette l'analisi quantitativa e la co-ottimizzazione simultanea dei parametri strutturali e delle politiche di controllo nella progettazione di robot interattivi, fornendo metriche biomeccaniche interne altrimenti inaccessibili.

Chenhui Zuo, Jinhao Xu, Michael Qian Vergnolle, Yanan SuiWed, 11 Ma🤖 cs.AI

TRIP-Bag: A Portable Teleoperation System for Plug-and-Play Robotic Arms and Leaders

Il paper presenta TRIP-Bag, un sistema di teleoperazione portatile e pronto all'uso contenuto in una valigiera commerciale che permette la raccolta rapida di dati ad alta fedeltà per l'apprendimento robotico, colmando il divario tra le piattaforme di raccolta e i robot target senza richiedere competenze tecniche avanzate.

Noboru Myers, Sankalp Yamsani, Obin Kwon, Joohyung KimWed, 11 Ma💻 cs

MO-Playground: Massively Parallelized Multi-Objective Reinforcement Learning for Robotics

Il paper presenta MORLAX e MO-Playground, un nuovo algoritmo MORL nativo per GPU e un ambiente di gioco accelerato che sfruttano il parallelismo massivo per ridurre drasticamente i tempi di calcolo e migliorare le prestazioni nella risoluzione di complessi problemi robotici multi-obiettivo.

Neil Janwani, Ellen Novoseller, Vernon J. Lawhern, Maegan TuckerWed, 11 Ma💻 cs

RAE-NWM: Navigation World Model in Dense Visual Representation Space

Il paper propone RAE-NWM, un modello di navigazione che opera nello spazio delle rappresentazioni visive dense di DINOv2 invece che in uno spazio latente compresso, utilizzando un Conditional Diffusion Transformer per migliorare la stabilità strutturale e la precisione delle azioni durante la pianificazione.

Mingkun Zhang, Wangtian Shen, Fan Zhang, Haijian Qin, Zihao Pei, Ziyang MengWed, 11 Ma💻 cs

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

Questo lavoro introduce un framework su larga scala per la navigazione visione-linguaggio che sfrutta video web e rappresentazioni geometriche implicite per superare i limiti dei simulatori, ottenendo prestazioni all'avanguardia e agenti di navigazione zero-shot più robusti.

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan LaptevWed, 11 Ma💻 cs

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

Il paper introduce SPR, un framework visione-linguaggio-azione che migliora la robustezza della manipolazione robotica attraverso un ciclo continuo di osservazione, pianificazione e riavvio basato sul monitoraggio esplicito del progresso del compito, ottenendo risultati superiori rispetto agli stati dell'arte su benchmark complessi.

Tingjun Dai, Mingfei Han, Tingwen Du, Zhiheng Liu, Zhihui Li, Salman Khan, Jun Yu, Xiaojun ChangWed, 11 Ma💻 cs

CORAL: Scalable Multi-Task Robot Learning via LoRA Experts

Il paper presenta CORAL, un framework scalabile per l'apprendimento robotico multi-task che risolve il problema dell'interferenza tra compiti congelando un backbone VLA pre-addestrato e assegnando un esperto LoRA leggero e isolato per ogni attività, permettendo così un adattamento continuo senza dimenticare le competenze precedenti e con un overhead di inferenza nullo.

Yuankai Luo, Woping Chen, Tong Liang, Zhenguo LiWed, 11 Ma💻 cs

NLiPsCalib: An Efficient Calibration Framework for High-Fidelity 3D Reconstruction of Curved Visuotactile Sensors

Il paper presenta NLiPsCalib, un framework di calibrazione efficiente e fisicamente coerente che utilizza la stereo fotometrica con sorgenti luminose vicine per abilitare la ricostruzione 3D ad alta fedeltà di sensori visuotattili curvi attraverso procedure di calibrazione semplici e accessibili.

Xuhao Qin, Feiyu Zhao, Yatao Leng, Runze Hu, Chenxi XiaoWed, 11 Ma💻 cs

SPAARS: Safer RL Policy Alignment through Abstract Exploration and Refined Exploitation of Action Space

Il paper introduce SPAARS, un framework di apprendimento curricolare per l'allineamento delle politiche RL che combina un'esplorazione sicura nello spazio latente con un'ottimizzazione diretta nello spazio delle azioni, superando i limiti di prestazione dei metodi basati su CVAE e dimostrando miglioramenti significativi nell'efficienza del campione e nei risultati su diversi benchmark robotici.

Swaminathan S K, Aritra HazraWed, 11 Ma🤖 cs.AI

← Precedente Successivo →