cs.RO articoli | Gist.Science

$M^2$ -Occ: Resilient 3D Semantic Occupancy Prediction for Autonomous Driving with Incomplete Camera Inputs

Il paper presenta $M^2$ -Occ, un framework innovativo per la previsione dell'occupazione semantica 3D che garantisce resilienza e coerenza strutturale in scenari di guida autonoma con input multivista incompleti, grazie a un modulo di ricostruzione mascherata e a una memoria di caratteristiche che recuperano informazioni mancanti senza compromettere le prestazioni in condizioni ottimali.

Kaixin Lin, Kunyu Peng, Di Wen, Yufan Chen, Ruiping Liu, Kailun YangWed, 11 Ma⚡ eess

Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments

Il paper introduce SACA, un nuovo framework di allineamento contrastivo step-aware che risolve le limitazioni degli attuali metodi di addestramento per la navigazione visione-linguaggio in ambienti continui, migliorando la generalizzazione e il recupero dagli errori attraverso una supervisione densa e un'analisi dettagliata dei singoli passaggi.

Haoyuan Li, Rui Liu, Hehe Fan, Yi YangWed, 11 Ma💻 cs

Caterpillar-Inspired Spring-Based Compressive Continuum Robot for Bristle-based Exploration

Questo articolo presenta un robot continuo a compressione ispirato ai bruchi, dotato di un sistema di attuazione a tendini e di sensori a setole artificiali, progettato per migliorare l'esplorazione e l'ispezione di spazi confinati tramite robot commerciali esistenti.

Zhixian Hu, Yu She, Juan WachsWed, 11 Ma💻 cs

PanoAffordanceNet: Towards Holistic Affordance Grounding in 360{\deg} Indoor Environments

Il paper introduce PanoAffordanceNet, un nuovo framework end-to-end e il dataset 360-AGD per il grounding olistico delle affordance in ambienti interni a 360 gradi, superando le sfide delle distorsioni geometriche e della dispersione sematica attraverso modulatori spettrali adattivi e testine di densificazione sferica.

Guoliang Zhu, Wanjun Jia, Caoyang Shao, Yuheng Zhang, Zhiyong Li, Kailun YangWed, 11 Ma⚡ eess

MuxGel: Simultaneous Dual-Modal Visuo-Tactile Sensing via Spatially Multiplexing and Deep Reconstruction

Il paper presenta MuxGel, un sensore visuo-tattile che risolve il compromesso tra visione pre-contatto e rilevamento tattile utilizzando un rivestimento a scacchiera per la multiplexazione spaziale e un framework di ricostruzione basato su U-Net per recuperare simultaneamente segnali visivi e tattili ad alta fedeltà.

Zhixian Hu, Zhengtong Xu, Sheeraz Athar, Juan Wachs, Yu SheWed, 11 Ma💻 cs

TIMID: Time-Dependent Mistake Detection in Videos of Robot Executions

Il paper presenta TIMID, una nuova architettura ispirata alla rilevazione di anomalie video che, sfruttando supervisione debole e un dataset di simulazione multi-robot, supera i limiti dei modelli esistenti nel rilevare errori temporali complessi durante l'esecuzione di compiti robotici ad alto livello.

Nerea Gallego (University of Zaragoza), Fernando Salanova (University of Zaragoza), Claudio Mannarano (University of Zaragoza, University of Torino), Cristian Mahulea (University of Zaragoza), Eduardo Montijano (University of Zaragoza)Wed, 11 Ma💻 cs

Lightweight 3D LiDAR-Based UAV Tracking: An Adaptive Extended Kalman Filtering Approach

Questo articolo presenta un sistema di tracciamento UAV basato su LiDAR 3D leggero e adattivo, che utilizza un Filtro di Kalman Esteso Adattivo (AEKF) per garantire un posizionamento relativo robusto e preciso in ambienti privi di GPS, superando le limitazioni dei metodi convenzionali in termini di carico utile e prestazioni durante manovre aggressive.

Nivand Khosravi, Meysam Basiri, Rodrigo VenturaWed, 11 Ma⚡ eess

Emerging Extrinsic Dexterity in Cluttered Scenes via Dynamics-aware Policy Learning

Questo articolo presenta il framework DAPL, che facilita l'apprendimento di politiche dinamiche consapevoli per abilitare la destrezza estrinseca in scenari affollati, superando i metodi esistenti grazie a una modellazione esplicita delle dinamiche indotte dal contatto e ottenendo risultati superiori sia in simulazione che nel mondo reale.

Yixin Zheng, Jiangran Lyu, Yifan Zhang, Jiayi Chen, Mi Yan, Yuntian Deng, Xuesong Shi, Xiaoguang Zhao, Yizhou Wang, Zhizheng Zhang, He WangWed, 11 Ma🤖 cs.AI

Robust Cooperative Localization in Featureless Environments: A Comparative Study of DCL, StCL, CCL, CI, and Standard-CL

Questo studio propone una valutazione comparativa di cinque approcci per la localizzazione cooperativa in ambienti privi di caratteristiche, evidenziando i compromessi tra accuratezza e consistenza del filtro per guidare la selezione dell'algoritmo in base ai requisiti applicativi.

Nivand Khosravi, Meysam Basiri, Rodrigo VenturaWed, 11 Ma💻 cs

NanoBench: A Multi-Task Benchmark Dataset for Nano-Quadrotor System Identification, Control, and State Estimation

Il paper presenta NanoBench, il primo dataset open-source multi-task che fornisce dati sincronizzati a livello di attuatore, controller e stimatore su un nano-quadrotore Crazyflie 2.1, colmando il divario nei benchmark esistenti per lo studio dell'identificazione di sistema, del controllo e della stima dello stato in condizioni di aerodinamica a basso numero di Reynolds e vincoli computazionali severi.

Syed Izzat Ullah, Jose BacaWed, 11 Ma⚡ eess

Kinodynamic Motion Retargeting for Humanoid Locomotion via Multi-Contact Whole-Body Trajectory Optimization

Il paper presenta KDMR, un nuovo framework per il ridimensionamento cinematico-dinamico della locomozione umanoide che, formulando il problema come ottimizzazione di traiettoria a contatto multiplo e integrando dati di forza di reazione al suolo, genera movimenti fisicamente coerenti che superano i limiti dei metodi puramente cinematici e migliorano l'addestramento delle politiche di controllo.

Xiaoyu Zhang, Steven Haener, Varun Madabushi, Maegan TuckerWed, 11 Ma💻 cs

BEACON: Language-Conditioned Navigation Affordance Prediction under Occlusion

Il paper presenta BEACON, un metodo che supera i limiti delle tecniche di navigazione basate su immagini prevedendo mappe di affordanza in vista dall'alto (BEV) per identificare target nascosti da ostacoli, ottenendo un miglioramento significativo rispetto allo stato dell'arte grazie alla fusione di cue spaziali e modelli visione-linguaggio.

Xinyu Gao, Gang Chen, Javier Alonso-MoraWed, 11 Ma🤖 cs.AI

TiPToP: A Modular Open-Vocabulary Planning System for Robotic Manipulation

Il paper presenta TiPToP, un sistema modulare open-source per la pianificazione robotica che combina modelli visivi preaddestrati e un pianificatore Task and Motion (TAMP) per eseguire compiti di manipolazione complessi da immagini e istruzioni linguistiche senza richiedere dati robotici specifici, dimostrando prestazioni competitive rispetto a modelli VLA addestrati su grandi dataset.

William Shen, Nishanth Kumar, Sahit Chintalapudi, Jie Wang, Christopher Watson, Edward Hu, Jing Cao, Dinesh Jayaraman, Leslie Pack Kaelbling, Tomás Lozano-PérezWed, 11 Ma💻 cs

Utility Theory based Cognitive Modeling in the Application of Robotics: A Survey

Questa rassegna esamina l'applicazione della teoria dell'utilità alla modellazione cognitiva nella robotica, analizzando l'evoluzione dai sistemi basati sul comportamento alle architetture cognitive e ai sistemi di valore, con particolare attenzione al processo decisionale, all'apprendimento e all'interazione in ambienti multi-agente e uomo-robot, proponendo infine nuove direzioni di ricerca e problemi aperti.

Qin YangTue, 10 Ma💻 cs

Influence-Based Reward Modulation for Implicit Communication in Human-Robot Interaction

Questo articolo presenta un metodo basato sull'Entropia di Trasferimento per modulare l'influenza reciproca tra agenti in interazioni uomo-robot, dimostrando come tale approccio favorisca implicitamente la comunicazione, la collaborazione o l'indipendenza sociale senza richiedere modelli espliciti delle intenzioni umane.

Haoyang Jiang, Elizabeth A. Croft, Michael G. BurkeTue, 10 Ma💻 cs

Input-to-State Stable Coupled Oscillator Networks for Closed-form Model-based Control in Latent Space

Questo lavoro propone una rete di oscillatori accoppiati (CON) che, garantendo una struttura lagrangiana, stabilità input-stato e una mappatura invertibile tra input e forze latenti, abilita un controllo efficace nello spazio latente basato su modelli a forma chiusa per sistemi fisici complessi, come dimostrato con successo su un robot soffice utilizzando solo immagini.

Maximilian Stölzle, Cosimo Della SantinaTue, 10 Ma🤖 cs.LG

xTED: Cross-Domain Adaptation via Diffusion-Based Trajectory Editing

Il paper propone xTED, un framework innovativo che utilizza un modello di diffusione per adattare direttamente le traiettorie tra domini diversi a livello dei dati, correggendo le discrepanze senza richiedere architetture complesse e migliorando le prestazioni nell'apprendimento delle politiche.

Haoyi Niu, Qimao Chen, Tenglong Liu, Jianxiong Li, Guyue Zhou, Yi Zhang, Jianming Hu, Xianyuan ZhanTue, 10 Ma🤖 cs.LG

Variational approach to nonholonomic and inequality-constrained mechanics

Questo lavoro presenta un'azione scalare esplicita e generale per sistemi meccanici non olonomi e vincolati da disuguaglianze, derivata dal formalismo quantistico di Schwinger-Keldysh, che permette di recuperare le equazioni di Lagrange-d'Alembert tramite estremizzazione e di validare la dinamica attraverso l'ottimizzazione numerica diretta senza ricorrere alle equazioni del moto.

A. Rothkopf, W. A. HorowitzTue, 10 Ma🔢 math

From Pixels to Predicates: Learning Symbolic World Models via Pretrained Vision-Language Models

Questo lavoro propone un metodo che sfrutta modelli visione-linguaggio preaddestrati per apprendere modelli del mondo simbolici astratti da dimostrazioni brevi, consentendo a sistemi robotici di pianificare e risolvere compiti decisionali a lungo termine con una generalizzazione zero-shot in scenari complessi e non visti in precedenza.

Ashay Athalye, Nishanth Kumar, Tom Silver, Yichao Liang, Jiuguang Wang, Tomás Lozano-Pérez, Leslie Pack KaelblingTue, 10 Ma🤖 cs.LG

Strengthening Generative Robot Policies through Predictive World Modeling

Il paper presenta GPC, un framework di controllo generativo che combina clonazione comportamentale, modelli predittivi del mondo e pianificazione online per superare le prestazioni della clonazione comportamentale in compiti di manipolazione robotica sia in simulazione che nel mondo reale.

Han Qi, Haocheng Yin, Aris Zhu, Yilun Du, Heng YangTue, 10 Ma🤖 cs.LG

← Precedente Successivo →

cs.RO

M2M^2M2-Occ: Resilient 3D Semantic Occupancy Prediction for Autonomous Driving with Incomplete Camera Inputs