cs.RO articoli | Gist.Science

Fine-Tuning Robot Policies While Maintaining User Privacy

Il paper presenta PRoP, un framework agnostico al modello che garantisce la privacy nelle politiche robotiche personalizzate trasformando matematicamente i pesi della rete tramite chiavi uniche, permettendo così a ciascun utente di accedere al proprio comportamento preferito senza rivelare i propri dati ad agenti esterni.

Benjamin A. Christie, Sagar Parekh, Dylan P. Losey2026-03-05💻 cs

Category-Level Object Shape and Pose Estimation in Less Than a Millisecond

Il paper presenta un risolutore locale ad alta velocità per la stima della forma e della posa di oggetti a livello di categoria, che combina keypoints semantici appresi con un modello di forma attiva lineare e un metodo iterativo efficiente per garantire l'ottimalità globale in meno di un millisecondo.

Lorenzo Shaikewitz, Tim Nguyen, Luca Carlone2026-03-05💻 cs

RehearseVLA: Simulated Post-Training for VLAs with Physically-Consistent World Model

Il paper presenta RehearseVLA, un framework di post-addestramento basato sul reinforcement learning che utilizza un simulatore di mondo fisicamente coerente e un riflettore guidato da modelli visione-linguaggio per migliorare l'efficienza dei modelli VLA in scenari a dati scarsi e ambienti reali non resettabili, ottenendo prestazioni elevate con pochissime dimostrazioni.

Junjin Xiao, Yandan Yang, Xinyuan Chang + 5 more2026-03-05💻 cs

ELMUR: External Layer Memory with Update/Rewrite for Long-Horizon RL Problems

Il paper presenta ELMUR, un'architettura transformer con memoria esterna strutturata che risolve i problemi di osservabilità parziale e lunghi orizzonti temporali nel reinforcement learning, ottenendo prestazioni superiori rispetto alle basi su task sintetici e robotici complessi.

Egor Cherepanov, Alexey K. Kovalev, Aleksandr I. Panov2026-03-05🤖 cs.AI

TIGeR: Tool-Integrated Geometric Reasoning in Vision-Language Models for Robotics

Il paper presenta TIGeR, un nuovo framework che potenzia i modelli visione-linguaggio per la robotica integrando calcoli geometrici precisi tramite strumenti esterni e un dataset dedicato, superando i limiti delle stime qualitative per raggiungere un'accuratezza centimetrica nelle manipolazioni reali.

Yi Han, Enshen Zhou, Shanyu Rong + 6 more2026-03-05🤖 cs.AI

LaViRA: Language-Vision-Robot Actions Translation for Zero-Shot Vision Language Navigation in Continuous Environments

Il paper presenta LaViRA, un framework zero-shot per la navigazione visione-linguaggio in ambienti continui che supera i limiti degli approcci attuali decomponendo l'azione in una gerarchia di pianificazione linguistica, ancoraggio visivo e controllo robotico, ottenendo così prestazioni superiori e una migliore generalizzazione su ambienti non visti.

Hongyu Ding, Ziming Xu, Yudong Fang + 6 more2026-03-05💻 cs

SoraNav: Adaptive UAV Task-Centric Navigation via Zeroshot VLM Reasoning

Il paper presenta SoraNav, un nuovo framework che abilita la navigazione autonoma di droni UAV basata su istruzioni linguistiche mediante ragionamento zero-shot di modelli VLM, superando le limitazioni spaziali esistenti attraverso annotazioni visive multi-modali e una strategia di decisione adattiva che garantisce prestazioni superiori in ambienti 2.5D e 3D complessi.

Hongyu Song, Rishabh Dev Yadav, Cheng Guo + 1 more2026-03-05💻 cs

Dynamic-ICP: Doppler-Aware Iterative Closest Point Registration for Dynamic Scenes

Il paper presenta Dynamic-ICP, un framework di registrazione basato su ICP e sensibile all'effetto Doppler che utilizza dati LiDAR FMCW per stimare il movimento, filtrare gli oggetti dinamici e migliorare la stabilità rotazionale e l'accuratezza traslazionale in ambienti altamente dinamici senza richiedere sensori esterni.

Dong Wang, Daniel Casado Herraez, Stefan May + 1 more2026-03-05💻 cs

Metric, inertially aligned monocular state estimation via kinetodynamic priors

Questo articolo presenta un metodo di stima dello stato monocularmente metrico e allineato inerzialmente per sistemi robotici flessibili, che integra modelli di deformazione appresi tramite reti neurali e cinematiche a B-spline continue per recuperare con successo le proprietà di sensing inerziale e risolvere il problema della scala metrica e della gravità.

Jiaxin Liu, Min Li, Wanting Xu + 3 more2026-03-05💻 cs

CERNet: Class-Embedding Predictive-Coding RNN for Unified Robot Motion, Recognition, and Confidence Estimation

Il paper propone CERNet, un modello unificato basato su una rete ricorrente a codifica predittiva con vettori di embedding di classe, che permette ai robot umanoidi di generare movimenti, riconoscere intenzioni in tempo reale e stimare la propria incertezza in un unico framework compatto.

Hiroki Sawada, Alexandre Pitti, Mathias Quoy2026-03-05💻 cs

Agile Flight Emerges from Multi-Agent Competitive Racing

Questo lavoro dimostra che la competizione multi-agente con ricompense sparse per la vittoria di una gara è sufficiente per far emergere sia un volo agile che strategie competitive, superando i metodi basati su ricompense individuali e garantendo un trasferimento più efficace dalla simulazione alla realtà.

Vineet Pasumarti, Lorenzo Bianchi, Antonio Loquercio2026-03-05🤖 cs.AI

TOLEBI: Learning Fault-Tolerant Bipedal Locomotion via Online Status Estimation and Fallibility Rewards

Il paper presenta TOLEBI, un framework di apprendimento basato sul reinforcement learning che garantisce la locomozione bipede tollerante ai guasti attraverso la simulazione di malfunzionamenti, un modulo di stima dello stato delle articolazioni in tempo reale e il trasferimento sim-to-real sul robot umanoide TOCABI.

Hokyun Lee, Woo-Jeong Baek, Junhyeok Cha + 1 more2026-03-05💻 cs

Aerial Manipulation with Contact-Aware Onboard Perception and Hybrid Control

Questo lavoro presenta una pipeline completa di percezione e controllo a bordo per la manipolazione aerea, che integra odometria visivo-inerziale aumentata e controllo ibrido forza-movimento per eseguire compiti di contatto precisi senza l'ausilio di sistemi di tracciamento esterni.

Yuanzhu Zhan, Yufei Jiang, Muqing Cao + 1 more2026-03-05💻 cs

H-WM: Robotic Task and Motion Planning Guided by Hierarchical World Model

Il paper propone H-WM, un modello di mondo gerarchico che unisce ragionamento logico ad alto livello e previsione visiva a basso livello per guidare la pianificazione di compiti e movimenti robotici, migliorando la robustezza e riducendo l'accumulo di errori nelle sequenze di azioni a lungo raggio.

Jinbang Huang, Wenyuan Chen, Zhiyuan Li + 9 more2026-03-05💻 cs

Learning Physical Principles from Interaction: Self-Evolving Planning via Test-Time Memory

Il paper presenta PhysMem, un framework di memoria che permette ai pianificatori robotici basati su modelli visione-linguaggio di apprendere e verificare principi fisici durante l'interazione a tempo di test senza aggiornare i parametri del modello, migliorando significativamente il successo nelle attività di manipolazione rispetto alla semplice ricerca di esperienze dirette.

Haoyang Li, Yang You, Hao Su + 1 more2026-03-05🤖 cs.AI

FlowCorrect: Efficient Interactive Correction of Generative Flow Policies for Robotic Manipulation

Il paper presenta FlowCorrect, un approccio modulare di apprendimento per imitazione che consente l'adattamento in tempo reale delle politiche di manipolazione generativa su robot reali tramite correzioni umane sparse, migliorando il successo nei casi falliti senza necessità di riaddestramento del modello.

Edgar Welte, Yitian Shi, Rosa Wolf + 2 more2026-03-05🤖 cs.LG

LiteVLA-Edge: Quantized On-Device Multimodal Control for Embedded Robotics

Il paper presenta LiteVLA-Edge, una pipeline di inferenza on-device per modelli Vision-Language-Action ottimizzata tramite quantizzazione e runtime GPU che permette un controllo robotico multimodale reattivo e offline su hardware embedded come Jetson Orin con una latenza di circa 6,6 Hz.

Justin Williams, Kishor Datta Gupta, Roy George + 1 more2026-03-05🤖 cs.AI

Multi-Agent-Based Simulation of Archaeological Mobility in Uneven Landscapes

Questo articolo presenta un framework di modellazione basato su agenti multipli che simula la mobilità archeologica in paesaggi irregolari, integrando dati topografici reali, agenti eterogenei e strategie di navigazione adattive per analizzare come il terreno e le caratteristiche fisiche influenzino i movimenti e le interazioni umane e animali nel passato.

Chairi Kiourt, Vassilis Evangelidis, Dimitris Grigoropoulos2026-03-05🤖 cs.AI

Phys4D: Fine-Grained Physics-Consistent 4D Modeling from Video Diffusion

Il paper presenta Phys4D, un metodo innovativo che trasforma i modelli di diffusione video in rappresentazioni 4D fisicamente coerenti attraverso un paradigma di addestramento in tre fasi, migliorando significativamente la stabilità dinamica e la plausibilità fisica rispetto ai modelli basati solo sull'aspetto visivo.

Haoran Lu, Shang Wu, Jianshu Zhang + 9 more2026-03-05🤖 cs.AI

Real-time loosely coupled GNSS and IMU integration via Factor Graph Optimization

Il documento propone un'architettura di integrazione GNSS/IMU in tempo reale basata sull'ottimizzazione del grafo dei fattori (FGO) che, pur comportando una lieve riduzione della precisione rispetto ai metodi batch, garantisce un'operatività in tempo reale e una maggiore disponibilità del servizio in ambienti urbani complessi.

Radu-Andrei Cioaca, Cristian Rusu, Paul Irofti + 3 more2026-03-05🤖 cs.LG

← Precedente Successivo →