cs.RO articoli | Gist.Science

3PoinTr: 3D Point Tracks for Robot Manipulation Pretraining from Casual Videos

Il paper presenta 3PoinTr, un metodo che utilizza trasformatori per pre-addestrare politiche robotiche su video umani casuali prevedendo tracce di punti 3D come rappresentazione intermedia, consentendo un apprendimento efficiente e robusto con un numero ridotto di dimostrazioni robotiche.

Adam Hung, Bardienus Pieter Duisterhof, Jeffrey Ichnowski2026-03-10💻 cs

The Neural Compass: Probabilistic Relative Feature Fields for Robotic Search

Il paper presenta ProReFF, un modello che apprende implicitamente le distribuzioni probabilistiche delle co-occorrenze di oggetti da dati non etichettati per guidare un agente robotico nella ricerca di oggetti in ambienti sconosciuti, raggiungendo un'efficienza superiore ai metodi basati su feature e fino all'80% delle prestazioni umane.

Gabriele Somaschini, Adrian Röfer, Abhinav Valada2026-03-10🤖 cs.LG

Interactive World Simulator for Robot Policy Training and Evaluation

Il paper presenta l'Interactive World Simulator, un framework basato su modelli di consistenza che genera simulazioni interattive veloci e fisicamente coerenti, permettendo l'addestramento e la valutazione di politiche robotiche scalabili con prestazioni nel mondo reale comparabili a quelle ottenute con dati reali.

Yixuan Wang, Rhythm Syed, Fangyu Wu, Mengchao Zhang, Aykut Onol, Jose Barreiros, Hooshang Nayyeri, Tony Dear, Huan Zhang, Yunzhu Li2026-03-10🤖 cs.LG

OA-Bug: An Olfactory-Auditory Augmented Bug Algorithm for Swarm Robots in a Denied Environment

Questo articolo propone l'algoritmo OA-Bug, che sfrutta segnali olfattivi e acustici per migliorare l'esplorazione cooperativa di robot sciame in ambienti negati privi di GNSS e mappatura, dimostrando attraverso simulazioni ed esperimenti reali una copertura del 96,93% significativamente superiore rispetto ad algoritmi esistenti.

Siqi Tan, Xiaoya Zhang, Jingyao Li, Ruitao Jing, Mufan Zhao, Yang Liu, Quan Quan2026-03-09💻 cs

RAG-Driver: Generalisable Driving Explanations with Retrieval-Augmented In-Context Learning in Multi-Modal Large Language Model

Il paper presenta RAG-Driver, un modello linguistico multimodale potenziato dal retrieval che utilizza l'apprendimento in contesto per fornire spiegazioni guidabili, previsioni di controllo e una generalizzazione zero-shot eccezionale in ambienti non visti, superando le limitazioni di dati e costi di addestramento tipiche dei sistemi di guida autonoma.

Jianhao Yuan, Shuyang Sun, Daniel Omeiza, Bo Zhao, Paul Newman, Lars Kunze, Matthew Gadd2026-03-09🤖 cs.AI

FALCON: Future-Aware Learning with Contextual Object-Centric Pretraining for UAV Action Recognition

Il paper introduce FALCON, un approccio di preaddestramento auto-supervisionato unificato per il riconoscimento delle azioni dei droni che, integrando la mascheratura orientata agli oggetti e la ricostruzione futura a doppio orizzonte, risolve lo squilibrio spaziale tipico dei video aerei migliorando significativamente l'accuratezza e riducendo i tempi di inferenza rispetto ai metodi supervisionati.

Ruiqi Xian, Xiyang Wu, Tianrui Guan, Xijun Wang, Boqing Gong, Dinesh Manocha2026-03-09🤖 cs.AI

Integrated Hierarchical Decision-Making in Inverse Kinematic Planning and Control

Questo lavoro presenta un innovativo framework di programmazione non lineare che integra in modo efficiente la decisione gerarchica con la pianificazione e il controllo cinematico inverso, sfruttando la struttura gerarchica sparsa e la norma $\ell_0$ per risolvere complessi problemi di selezione discreta senza ricorrere a costosi approcci misti-integer.

Kai Pfeiffer, Quan Zhang, Yuqing Chen, Gordon Boateng, Yuquan Wang, Vincent Bonnet, Aberrahmane Kheddar2026-03-09💻 cs

Generative Predictive Control: Flow Matching Policies for Dynamic and Difficult-to-Demonstrate Tasks

Questo articolo introduce il controllo predittivo generativo, un framework di apprendimento supervisionato che combina il controllo predittivo basato su campionamento e la modellazione generativa per addestrare politiche di flusso di matching su compiti dinamici difficili da dimostrare, permettendo l'uso di dati simulati e garantendo feedback ad alta frequenza.

Vince Kurtz, Joel W. Burdick2026-03-09🤖 cs.AI

CAPS: Context-Aware Priority Sampling for Enhanced Imitation Learning in Autonomous Driving

Il paper introduce CAPS, un metodo innovativo che utilizza VQ-VAE per raggruppare i dati in cluster e applicare un campionamento prioritario contestuale, migliorando significativamente l'efficienza dei dati, la generalizzazione e le prestazioni di guida autonoma in scenari complessi.

Hamidreza Mirkhani, Behzad Khamidehi, Ehsan Ahmadi, Mohammed Elmahgiubi, Weize Zhang, Fazel Arasteh, Umar Rajguru, Kasra Rezaee, Dongfeng Bai2026-03-09🤖 cs.LG

Whole-Body Model-Predictive Control of Legged Robots with MuJoCo

Il paper dimostra l'efficacia sorprendente di un approccio semplice basato sull'algoritmo iLQR con dinamica MuJoCo per il controllo predittivo del modello (MPC) a corpo intero di robot quadrupedi e umanoidi, che riesce a generalizzare facilmente dal simulatore alla realtà senza complesse considerazioni sim-to-real.

John Z. Zhang, Taylor A. Howell, Zeji Yi, Chaoyi Pan, Guanya Shi, Guannan Qu, Tom Erez, Yuval Tassa, Zachary Manchester2026-03-09💻 cs

Graph-based Online Lidar Odometry with Retrospective Map Refinement

Il paper propone un metodo di odometria Lidar online basato su grafi che utilizza una registrazione multipla contro sottomappe sovrapposte e un raffinamento retrospettivo delle mappe per migliorare la precisione e la coerenza a lungo termine, mantenendo al contempo prestazioni in tempo reale.

Aaron Kurda, Simon Steuernagel, Marcus Baum2026-03-09💻 cs

FindAnything: Open-Vocabulary and Object-Centric Mapping for Robot Exploration in Any Environment

Il paper presenta FindAnything, un framework di mappatura open-vocabulary che integra informazioni visive e linguistiche in sottomappe volumetriche centrate sugli oggetti, consentendo una comprensione semantica efficiente e scalabile in tempo reale anche su dispositivi con risorse limitate come i MAV.

Sebastián Barbas Laina, Simon Boche, Sotiris Papatheodorou, Simon Schaefer, Jaehyung Jung, Helen Oleynikova, Stefan Leutenegger2026-03-09🤖 cs.AI

Robustness-Aware Tool Selection and Manipulation Planning with Learned Energy-Informed Guidance

Questo articolo presenta un metodo consapevole della robustezza che integra la selezione degli strumenti e la pianificazione della manipolazione, utilizzando una metrica basata sull'energia per generare traiettorie resilienti alle perturbazioni in compiti di manipolazione complessi.

Yifei Dong, Yan Zhang, Sylvain Calinon, Florian T. Pokorny2026-03-09💻 cs

ROS-related Robotic Systems Development with V-model-based Application of MeROS Metamodel

Questo articolo propone una metodologia strutturata basata sul metamodello MeROS e sul modello a V per integrare l'ingegneria dei sistemi basata su modelli (MBSE) con il Robot Operating System (ROS), al fine di migliorare la tracciabilità e la coordinazione affidabile di sistemi robotici eterogenei complessi.

Tomasz Winiarski, Jan Kaniuka, Daniel Giełdowski, Jakub Ostrysz, Krystian Radlak, Dmytro Kushnir2026-03-09💻 cs

Diverse and Adaptive Behavior Curriculum for Autonomous Driving: A Student-Teacher Framework with Multi-Agent RL

Questo lavoro propone un nuovo framework studente-insegnante basato sull'apprendimento per rinforzo multi-agente che genera automaticamente un curriculum di comportamenti di traffico diversificati e adattivi, permettendo a un agente di guida autonoma di superare le limitazioni degli scenari basati su regole e di acquisire una guida più robusta, assertiva e bilanciata.

Ahmed Abouelazm, Johannes Ratz, Philip Schörner, J. Marius Zöllner2026-03-09🤖 cs.LG

Bridging Simulation and Usability: A User-Friendly Framework for Scenario Generation in CARLA

Questo articolo presenta un framework interattivo senza codice per la generazione di scenari di guida autonoma in CARLA, che utilizza un'interfaccia grafica e una rappresentazione basata su grafi per democratizzare l'accesso alla validazione simulata, consentendo sia la creazione manuale che quella automatizzata di scenari complessi senza richiedere competenze di programmazione.

Ahmed Abouelazm, Mohammad Mahmoud, Conrad Walter, Oleksandr Shchetsura, Erne Hussong, Helen Gremmelmaier, J. Marius Zöllner2026-03-09💻 cs

VEGA: Electric Vehicle Navigation Agent via Physics-Informed Neural Operator and Proximal Policy Optimization

VEGA è un sistema di navigazione per veicoli elettrici che combina un operatore neurale informato dalla fisica per la stima dei parametri del veicolo e un agente di apprendimento per rinforzo basato su PPO per pianificare percorsi e fermate di ricarica, dimostrando un'efficienza superiore e una rapida generalizzazione su reti stradali globali.

Hansol Lim, Minhyeok Im, Jonathan Boyack, Jee Won Lee, Jongseong Brad Choi2026-03-09🤖 cs.LG

Language Conditioning Improves Accuracy of Aircraft Goal Prediction in Non-Towered Airspace

Questo articolo presenta un framework multimodale che integra la comprensione del linguaggio naturale con il ragionamento spaziale per migliorare l'accuratezza della previsione degli obiettivi degli aeromobili nello spazio aereo senza torre di controllo, riducendo significativamente l'errore di previsione rispetto ai metodi basati esclusivamente sulla storia del movimento.

Sundhar Vinodh Sangeetha, Chih-Yuan Chiu, Sarah H. Q. Li, Shreyas Kousik2026-03-09💻 cs

GLIDE: A Coordinated Aerial-Ground Framework for Search and Rescue in Unknown Environments

Il paper presenta GLIDE, un framework cooperativo di ricerca e soccorso che coordina due droni (uno per la rilevazione delle vittime e uno per la ricognizione del terreno) con un veicolo terrestre per ottimizzare la pianificazione del percorso e la sicurezza in ambienti sconosciuti.

Seth Farrell, Chenghao Li, Hesam Mojtahedi, Henrik I. Christensen2026-03-09💻 cs

Decision-Driven Semantic Object Exploration for Legged Robots via Confidence-Calibrated Perception and Topological Subgoal Selection

Questo lavoro propone un approccio basato sulla visione per l'esplorazione semantica di oggetti da parte di robot a zampe, che utilizza un'arbitratura delle evidenze semantiche calibrata sulla confidenza, una memoria topologica a crescita controllata e una selezione di sottobiettivi guidata dall'utilità semantica per prendere decisioni di esplorazione stabili ed eseguibili senza dipendere da ricostruzioni geometriche dense.

Guoyang Zhao, Yudong Li, Weiqing Qi, Kai Zhang, Bonan Liu, Kai Chen, Haoang Li, Jun Ma2026-03-09💻 cs

← Precedente Successivo →