ReconDrive: Fast Feed-Forward 4D Gaussian Splatting for Autonomous Driving Scene Reconstruction

Il paper presenta ReconDrive, un framework feed-forward che estende il modello fondazionale VGGT per generare rapidamente rappresentazioni 4D Gaussian Splatting ad alta fedeltà di scene di guida autonome, superando i limiti di scalabilità dei metodi iterativi e la qualità ridotta degli approcci feed-forward esistenti.

Haibao Yu, Kuntao Xiao, Jiahang Wang, Ruiyang Hao, Yuxin Huang, Guoran Hu, Haifang Qin, Bowen Jing, Yuntian Bo, Ping LuoTue, 10 Ma💻 cs

Approximate Imitation Learning for Event-based Quadrotor Flight in Cluttered Environments

Il paper presenta un approccio di apprendimento per imitazione approssimato che permette a un quadrotore di volare ad alta velocità in ambienti affollati utilizzando esclusivamente una camera a eventi, superando i limiti computazionali della simulazione dei dati tramite un addestramento ibrido offline-online.

Nico Messikommer, Jiaxu Xing, Leonard Bauersfeld, Marco Cannici, Elie Aljalbout, Davide ScaramuzzaTue, 10 Ma💻 cs

FeasibleCap: Real-Time Embodiment Constraint Guidance for In-the-Wild Robot Demonstration Collection

Il paper presenta FeasibleCap, un sistema di raccolta dimostrazioni "gripper-in-hand" che fornisce in tempo reale feedback visivo ed aptico per guidare gli operatori verso traiettorie eseguibili su robot target specifici, migliorando così il successo di riproduzione senza richiedere modelli appresi, dispositivi indossabili o hardware robotico durante la fase di acquisizione.

Zi Yin, Fanhong Li, Yun Gui, Jia LiuTue, 10 Ma💻 cs

GeoLoco: Leveraging 3D Geometric Priors from Visual Foundation Model for Robust RGB-Only Humanoid Locomotion

Il paper presenta GeoLoco, un framework di locomozione per umanoidi che utilizza esclusivamente immagini RGB e i priors geometrici di un modello visivo fondazionale per ottenere un trasferimento zero-shot robusto dal simulatore alla realtà, superando le limitazioni dei sensori di profondità attivi e dell'apprendimento per rinforzo end-to-end diretto.

Yufei Liu, Xieyuanli Chen, Hainan Pan, Chenghao Shi, Yanjie Chen, Kaihong Huang, Zhiwen Zeng, Huimin LuTue, 10 Ma💻 cs

PanoDP: Learning Collision-Free Navigation with Panoramic Depth and Differentiable Physics

Il paper presenta PanoDP, un framework di apprendimento senza comunicazione che combina la percezione di profondità panoramica a quattro viste con segnali di fisica differenziabile per ottimizzare la navigazione autonoma collision-free in ambienti affollati e parzialmente osservabili, dimostrando prestazioni superiori rispetto alle baseline esistenti.

Hao Zhong, Pei Chi, Jiang Zhao, Shenghai Yuan, Xuyang Gao, Thien-Minh Nguyen, Lihua XieTue, 10 Ma💻 cs

TempoFit: Plug-and-Play Layer-Wise Temporal KV Memory for Long-Horizon Vision-Language-Action Manipulation

Il paper presenta TempoFit, un metodo di retrofit temporale senza addestramento che migliora le politiche Vision-Language-Action pre-addestrate per compiti di manipolazione a lungo raggio memorizzando e recuperando selettivamente le chiavi e i valori di attenzione a livello di strato, ottenendo così una maggiore robustezza senza aumentare la latenza o richiedere nuovi moduli.

Jun Sun, Boyu Yang, Jiahao Zhang, Ning Ma, Chencheng Wu, Siqing Zhang, Yiou Huang, Qiufeng Wang, Shan Liang, Yaran ChenTue, 10 Ma💻 cs

AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots

Il paper presenta AtomicVLA, un framework unificato di pianificazione ed esecuzione che supera i limiti dei modelli VLA esistenti per compiti robotici a lungo raggio e apprendimento continuo, grazie a una libreria di abilità atomiche scalabile gestita da un mix di esperti guidato dalle competenze (SG-MoE) e a un codificatore di routing flessibile.

Likui Zhang, Tao Tang, Zhihao Zhan, Xiuwei Chen, Zisheng Chen, Jianhua Han, Jiangtong Zhu, Pei Xu, Hang Xu, Hefeng Wu, Liang Lin, Xiaodan LiangTue, 10 Ma💻 cs

Multi-Agent Off-World Exploration for Sparse Evidence Discovery via Gaussian Belief Mapping and Dual-Domain Coverage

Il paper propone un framework di pianificazione di percorsi informativi per esplorazione multi-robot off-world basato su mappatura di credenza Gaussiana e copertura a doppio dominio, che supera le limitazioni delle aree di interesse predefinite e dei rischi ambientali garantendo una scoperta efficiente di prove sparse in ambienti lunari simulati.

Zhuoran Qiao, Tianxin Hu, Thien-Minh Nguyen, Shenghai YuanTue, 10 Ma💻 cs

DAISS: Phase-Aware Imitation Learning for Dual-Arm Robotic Ultrasound-Guided Interventions

Il paper presenta DAISS, un sistema robotico bimanuale che utilizza un apprendimento per imitazione consapevole delle fasi per automatizzare le procedure di intervento guidate da ultrasuoni, permettendo ai robot di apprendere strategie esperte da dimostrazioni limitate e di eseguire movimenti coordinati e precisi in tempo reale.

Feng Li, Pei Liu, Shiting Wang, Ning Wang, Zhongliang Jiang, Nassir Navab, Yuan BiTue, 10 Ma💻 cs

RoboPCA: Pose-centered Affordance Learning from Human Demonstrations for Robot Manipulation

Il paper presenta RoboPCA, un framework di apprendimento delle affordance centrato sulla posa che, sfruttando la pipeline Human2Afford per generare annotazioni da dimostrazioni umane, predice congiuntamente regioni di contatto e pose per la manipolazione robotica, superando le limitazioni dei metodi esistenti e dimostrando elevate prestazioni su dati reali e simulati.

Zhanqi Xiao, Ruiping Wang, Xilin ChenTue, 10 Ma💻 cs

C2^2-Explorer: Contiguity-Driven Task Allocation with Connectivity-Aware Task Representation for Decentralized Multi-UAV Exploration

Il documento presenta C2^2-Explorer, un framework decentralizzato per l'esplorazione multi-UAV che supera i limiti delle comunicazioni limitate e delle strategie di allocazione a breve termine, migliorando significativamente l'efficienza attraverso una rappresentazione dei task basata sulla connettività e un'allocazione guidata dalla contiguità spaziale.

Xinlu Yan, Mingjie Zhang, Yuhao Fang, Yanke Sun, Jun Ma, Youmin Gong, Boyu Zhou, Jie MeiTue, 10 Ma💻 cs

AeroPlace-Flow: Language-Grounded Object Placement for Aerial Manipulators via Visual Foresight and Object Flow

Il paper presenta AeroPlace-Flow, un framework senza addestramento che consente ai manipolatori aerei di posizionare oggetti in modo preciso basandosi su istruzioni linguistiche, unendo la previsione visiva, il ragionamento geometrico 3D e il flusso degli oggetti per generare traiettorie di movimento collision-free senza richiedere coordinate target predefinite.

Sarthak Mishra, Rishabh Dev Yadav, Naveen Nair, Wei Pan, Spandan RoyTue, 10 Ma💻 cs

Residual Control for Fast Recovery from Dynamics Shifts

Il paper propone un'architettura di controllo residuo allineata alla stabilità che, mantenendo invariata una politica RL nominale e regolando un canale additivo tramite un "Stability Alignment Gate", permette ai sistemi robotici di recuperare rapidamente le prestazioni dopo shift dinamici imprevisti senza necessità di riaddestramento.

Nethmi Jayasinghe, Diana Gontero, Francesco Migliarba, Spencer T. Brown, Vinod K. Sangwan, Mark C. Hersam, Amit Ranjan TrivediTue, 10 Ma💻 cs