GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models

Il paper presenta GST-VLA, un modello Vision-Language-Action che introduce un Tokenizzatore Spaziale Gaussiano per rappresentare le osservazioni visive come primitive 3D anisotrope e un meccanismo di ragionamento CoT sensibile alla profondità, ottenendo prestazioni superiori su compiti robotici complessi grazie a una rappresentazione geometrica strutturata e a un'architettura di azione basata sul flow-matching.

Md Selim Sarowar, Omer Tariq, Sungho KimWed, 11 Ma🤖 cs.AI

Provably Safe Trajectory Generation for Manipulators Under Motion and Environmental Uncertainties

Questo articolo propone un nuovo quadro di pianificazione del movimento a rischio limitato che integra un operatore di Koopman stocastico profondo, una verifica gerarchica basata su programmazione SOS e un controllore MPPI per generare traiettorie sicure ed efficienti per manipolatori robotici in ambienti incerti e non convessi, validato sia in simulazione che in esperimenti reali.

Fei Meng, Zijiang Yang, Xinyu Mao, Haobo Liang, Max Q. -H. MengWed, 11 Ma💻 cs

Latent World Models for Automated Driving: A Unified Taxonomy, Evaluation Framework, and Open Challenges

Questo articolo propone un quadro unificato per i modelli di mondo latenti nella guida automatizzata, presentando una tassonomia che organizza le rappresentazioni latenti, delineando cinque meccanismi interni fondamentali, introducendo un framework di valutazione per colmare il divario tra scenari open-loop e closed-loop e identificando le sfide aperte per sistemi decisionali verificabili ed efficienti.

Rongxiang Zeng, Yongqi DongWed, 11 Ma🤖 cs.AI

PM-Nav: Priori-Map Guided Embodied Navigation in Functional Buildings

Il paper propone PM-Nav, un sistema di navigazione embodied guidato da mappe prioritarie che, trasformando le mappe ambientali in rappresentazioni semantiche e utilizzando prompt gerarchici con ragionamento a catena, risolve le sfide della navigazione in edifici funzionali con caratteristiche simili ottenendo miglioramenti significativi rispetto agli approcci esistenti.

Jiang Gao, Xiangyu Dong, Haozhou Li, Haoran Zhao, Yaoming Zhou, Xiaoguang MaWed, 11 Ma🤖 cs.AI

DexHiL: A Human-in-the-Loop Framework for Vision-Language-Action Model Post-Training in Dexterous Manipulation

Il paper presenta DexHiL, un innovativo framework "human-in-the-loop" che integra teleoperazione e campionamento dati intelligente per il post-addestramento di modelli Vision-Language-Action, migliorando significativamente l'affidabilità e il successo delle manipolazioni destre dei robot rispetto alle tecniche di affinamento offline tradizionali.

Yifan Han, Zhongxi Chen, Yuxuan Zhao, Congsheng Xu, Yanming Shao, Yichuan Peng, Yao Mu, Wenzhao LianWed, 11 Ma🤖 cs.AI

SPAN-Nav: Generalized Spatial Awareness for Versatile Vision-Language Navigation

Il paper introduce SPAN-Nav, un modello fondazionale end-to-end che potenzia la navigazione visione-linguaggio con una consapevolezza spaziale 3D universale, ottenendo prestazioni all'avanguardia grazie a un nuovo dataset massivo di annotazioni e a un meccanismo efficiente che utilizza un singolo token spaziale per guidare il ragionamento delle azioni.

Jiahang Liu, Tianyu Xu, Jiawei Chen, Lu Yue, Jiazhao Zhang, Zhiyong Wang, Minghan Li, Qisheng Zhao, Anqi Li, Qi Su, Zhizheng Zhang, He WangWed, 11 Ma💻 cs

STONE Dataset: A Scalable Multi-Modal Surround-View 3D Traversability Dataset for Off-Road Robot Navigation

Il paper presenta STONE, un dataset multi-modale su larga scala per la navigazione robotica off-road che offre mappe di traversabilità 3D generate automaticamente e dati sensoriali sincronizzati (LiDAR, telecamere e radar) per abilitare la previsione di terreni percorribili senza annotazione manuale.

Konyul Park, Daehun Kim, Jiyong Oh, Seunghoon Yu, Junseo Park, Jaehyun Park, Hongjae Shin, Hyungchan Cho, Jungho Kim, Jun Won ChoiWed, 11 Ma💻 cs

Robust Spatiotemporal Motion Planning for Multi-Agent Autonomous Racing via Topological Gap Identification and Accelerated MPC

Questo articolo presenta un framework innovativo per la pianificazione del movimento in gare autonome multi-agente ad alta velocità, che combina l'identificazione topologica dei varchi tramite processi gaussiani spaziotemporali e un MPC accelerato per garantire manovre di sorpasso robuste, sicure e computazionalmente efficienti.

Mingyi Zhang, Cheng Hu, Yiqin Wang, Haotong Qin, Hongye Su, Lei XieWed, 11 Ma💻 cs

WESPR: Wind-adaptive Energy-Efficient Safe Perception & Planning for Robust Flight with Quadrotors

Il paper presenta WESPR, un framework rapido che integra percezione geometrica e dati meteorologici per prevedere i campi di vento locali e adattare proattivamente la pianificazione e il controllo dei droni, migliorando significativamente stabilità e precisione di volo in ambienti turbolenti.

Khuzema Habib, Pranav Deshakulkarni Manjunath, Kasra Torshizi, Troi Williams, Pratap TokekarWed, 11 Ma💻 cs

Embodied Human Simulation for Quantitative Design and Analysis of Interactive Robotics

Questo lavoro presenta un framework di simulazione scalabile basato su un modello muscolo-scheletrico completo e controllato da apprendimento per rinforzo, che permette l'analisi quantitativa e la co-ottimizzazione simultanea dei parametri strutturali e delle politiche di controllo nella progettazione di robot interattivi, fornendo metriche biomeccaniche interne altrimenti inaccessibili.

Chenhui Zuo, Jinhao Xu, Michael Qian Vergnolle, Yanan SuiWed, 11 Ma🤖 cs.AI

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

Questo lavoro introduce un framework su larga scala per la navigazione visione-linguaggio che sfrutta video web e rappresentazioni geometriche implicite per superare i limiti dei simulatori, ottenendo prestazioni all'avanguardia e agenti di navigazione zero-shot più robusti.

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan LaptevWed, 11 Ma💻 cs

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

Il paper introduce SPR, un framework visione-linguaggio-azione che migliora la robustezza della manipolazione robotica attraverso un ciclo continuo di osservazione, pianificazione e riavvio basato sul monitoraggio esplicito del progresso del compito, ottenendo risultati superiori rispetto agli stati dell'arte su benchmark complessi.

Tingjun Dai, Mingfei Han, Tingwen Du, Zhiheng Liu, Zhihui Li, Salman Khan, Jun Yu, Xiaojun ChangWed, 11 Ma💻 cs

SPAARS: Safer RL Policy Alignment through Abstract Exploration and Refined Exploitation of Action Space

Il paper introduce SPAARS, un framework di apprendimento curricolare per l'allineamento delle politiche RL che combina un'esplorazione sicura nello spazio latente con un'ottimizzazione diretta nello spazio delle azioni, superando i limiti di prestazione dei metodi basati su CVAE e dimostrando miglioramenti significativi nell'efficienza del campione e nei risultati su diversi benchmark robotici.

Swaminathan S K, Aritra HazraWed, 11 Ma🤖 cs.AI