cs.RO articoli | Gist.Science

FlowTouch: View-Invariant Visuo-Tactile Prediction

Il paper presenta FlowTouch, un modello innovativo per la previsione visuo-tattile indipendente dalla vista che utilizza mesh 3D locali e Flow Matching per colmare il divario tra simulazione e realtà, permettendo di prevedere le informazioni tattili da immagini visive e migliorando la stabilità della presa.

Seongjin Bien, Carlo Kneissl, Tobias Jülg, Frank Fundel, Thomas Ressler-Antal, Florian Walter, Björn Ommer, Gitta Kutyniok, Wolfram Burgard2026-03-10🤖 cs.LG

Seed2Scale: A Self-Evolving Data Engine for Embodied AI via Small to Large Model Synergy and Multimodal Evaluation

Seed2Scale è un motore di dati auto-evolutivo che supera i colli di bottiglia nella generazione di dati per l'IA incarnata sfruttando la sinergia tra un modello leggero "SuperTiny" per la raccolta e un modello grande per la valutazione, permettendo di partire da sole quattro dimostrazioni seed per ottenere un miglioramento delle prestazioni del 131,2% attraverso iterazioni scalabili.

Cong Tai, Zhaoyu Zheng, Haixu Long, Hansheng Wu, Zhengbin Long, Haodong Xiang, Rong Shi, Zhuo Cui, Shizhuang Zhang, Gang Qiu, He Wang, Ruifeng Li, Biao Liu, Zhenzhe Sun, Tao Shen2026-03-10💻 cs

SAIL: Test-Time Scaling for In-Context Imitation Learning with VLM

Il paper presenta SAIL, un framework che migliora l'apprendimento per imitazione nei robot attraverso una ricerca iterativa basata su Monte Carlo Tree Search e un modello linguistico-visivo, permettendo di aumentare il tasso di successo fino al 95% sfruttando una maggiore potenza di calcolo al momento del test.

Makoto Sato, Yusuke Iwasawa, Yujin Tang, So Kuroki2026-03-10💻 cs

Less is More: Robust Zero-Communication 3D Pursuit-Evasion via Representational Parsimony

Questo articolo dimostra che, in scenari di inseguimento ed evasione 3D asimmetrici con comunicazioni assenti, la semplificazione delle rappresentazioni degli agenti e l'uso di un'assegnazione del merito locale migliorano la robustezza e le prestazioni rispetto ai metodi che dipendono da canali di comunicazione ridondanti.

Jialin Ying, Zhihao Li, Zicheng Dong, Guohua Wu, Yihuan Liao2026-03-10💻 cs

EndoSERV: A Vision-based Endoluminal Robot Navigation System

Il paper presenta EndoSERV, un innovativo sistema di navigazione robotica endoluminale basato sulla visione che combina mappatura segmento-struttura e trasferimento reale-virtuale per garantire una localizzazione precisa in ambienti anatomici complessi e deformabili, anche in assenza di etichette di posa reali.

Junyang Wu, Fangfang Xie, Minghui Zhang, Hanxiao Zhang, Jiayuan Sun, Yun Gu, Guang-Zhong Yang2026-03-10💻 cs

Hierarchical Multi-Modal Planning for Fixed-Altitude Sparse Target Search and Sampling

Il paper presenta HIMoS, un framework di pianificazione gerarchica multi-modale che permette ai veicoli subacquei autonomi di cercare e campionare in modo efficiente colonie di corallo sparse mantenendo un'altitudine fissa, integrando sensori eterogenei e ottimizzando le rotte strategiche e le traiettorie tattiche per superare le inefficienze energetiche dei metodi tradizionali.

Lingpeng Chen, Yuchen Zheng, Apple Pui-Yi Chui, Junfeng Wu, Ziyang Hong2026-03-10💻 cs

PhaForce: Phase-Scheduled Visual-Force Policy Learning with Slow Planning and Fast Correction for Contact-Rich Manipulation

Il paper presenta PhaForce, una politica visuomotoria che coordina una pianificazione lenta basata su diffusione e una correzione rapida ad alta frequenza, gestendo dinamicamente l'integrazione delle forze di contatto attraverso fasi di task specifiche per migliorare significativamente il successo e la qualità dell'interazione nella manipolazione ricca di contatti.

Mingxin Wang, Zhirun Yue, Renhao Lu, Yizhe Li, Zihan Wang, Guoping Pan, Kangkang Dong, Jun Cheng, Yi Cheng, Houde Liu2026-03-10💻 cs

Perception-Aware Communication-Free Multi-UAV Coordination in the Wild

Il paper presenta un metodo di coordinamento multi-robot senza comunicazione, basato su sensori LiDAR 3D anisotropi e un framework di navigazione consapevole della percezione, che garantisce la sicurezza e l'efficacia dei droni in ambienti complessi privi di segnale GNSS, come le foreste.

Manuel Boldrer, Michal Kamler, Afzal Ahmad, Martin Saska2026-03-10💻 cs

MoMaStage: Skill-State Graph Guided Planning and Closed-Loop Execution for Long-Horizon Indoor Mobile Manipulation

Il paper presenta MoMaStage, un framework visione-linguaggio strutturato che utilizza un grafo stato-abilità e un'esecuzione in ciclo chiuso per garantire coerenza logica e robustezza nella manipolazione mobile indoor a lungo raggio, eliminando la necessità di mappature esplicite dell'ambiente.

Chenxu Li, Zixuan Chen, Yetao Li, Jiapeng Xu, Hongyu Ding, Jieqi Shi, Jing Huo, Yang Gao2026-03-10💻 cs

StructBiHOI: Structured Articulation Modeling for Long--Horizon Bimanual Hand--Object Interaction Generation

Il paper propone StructBiHOI, un framework che utilizza un modello gerarchico basato su VAE e un denoiser Mamba per generare interazioni bimanuali a lungo termine tra mani e oggetti, garantendo stabilità temporale, plausibilità fisica e coordinazione articolata.

Zhi Wang, Liu Liu, Ruonan Liu, Dan Guo, Meng Wang2026-03-10💻 cs

A Recipe for Stable Offline Multi-agent Reinforcement Learning

Questo lavoro propone la normalizzazione del valore invariante alla scala (SVN) come tecnica semplice per stabilizzare la decomposizione non lineare dei valori nell'apprendimento per rinforzo multi-agente offline, fornendo una ricetta pratica che ne sblocca il pieno potenziale.

Dongsu Lee, Daehee Lee, Amy Zhang2026-03-10🤖 cs.LG

Human-Aware Robot Behaviour in Self-Driving Labs

Questo studio presenta un metodo di percezione basato sull'intelligenza artificiale che permette ai robot mobili nei laboratori scientifici autonomi di prevedere le intenzioni umane e interagire in modo proattivo, migliorando così l'efficienza della collaborazione uomo-robot rispetto ai sistemi tradizionali basati sulla semplice rilevazione di ostacoli.

Satheeshkumar Veeramani, Anna Kisil, Abigail Bentley, Hatem Fakhruldeen, Gabriella Pizzuto, Andrew I. Cooper2026-03-10💻 cs

Tactile Recognition of Both Shapes and Materials with Automatic Feature Optimization-Enabled Meta Learning

Il paper propone il framework AFOP-ML, una rete prototipale abilitata all'ottimizzazione automatica delle caratteristiche che utilizza l'apprendimento meta per riconoscere forme e materiali tramite segnali tattili con pochi esempi, ottenendo prestazioni superiori e una forte capacità di generalizzazione anche in scenari con dati limitati.

Hongliang Zhao, Wenhui Yang, Yang Chen, Zhuorui Wang, Baiheng Liu, Longhui Qin2026-03-10💻 cs

FoMo: A Multi-Season Dataset for Robot Navigation in Forêt Montmorency

Il paper presenta FoMo, un dataset multi-stagionale raccolto in una foresta boreale che, grazie alla sua varietà di condizioni ambientali estreme e dati sensoriali multimodali, sfida le attuali tecniche di navigazione robotica e ne evidenzia la scarsa robustezza ai cambiamenti stagionali.

Matej Boxan, Gabriel Jeanson, Alexander Krawciw, Effie Daum, Xinyuan Qiao, Sven Lilge, Timothy D. Barfoot, François Pomerleau2026-03-10💻 cs

Adaptive Entropy-Driven Sensor Selection in a Camera-LiDAR Particle Filter for Single-Vessel Tracking

Questo studio presenta un tracciatore a filtro particellare per il monitoraggio di singole imbarcazioni che utilizza una strategia adattiva basata sull'entropia per selezionare dinamicamente tra sensori LiDAR e camera, ottimizzando così il compromesso tra accuratezza e continuità in ambienti marittimi reali.

Andrei Starodubov, Yaqub Aris Prabowo, Andreas Hadjipieris, Ioannis Kyriakides, Roberto Galeazzi2026-03-10🤖 cs.LG

R2F: Repurposing Ray Frontiers for LLM-free Object Navigation

Il paper presenta R2F, un framework privo di LLM che ripropone le frontiere dei raggi per la navigazione di oggetti open-vocabulary, trasformando le regioni frontali in ipotesi semantiche direzionali per ottenere prestazioni competitive in tempo reale senza la latenza computazionale dei modelli linguistici su larga scala.

Francesco Argenziano, John Mark Alexis Marcelo, Michele Brienza, Abdel Hakim Drid, Emanuele Musumeci, Daniele Nardi, Domenico D. Bloisi, Vincenzo Suriani2026-03-10💻 cs

LAR-MoE: Latent-Aligned Routing for Mixture of Experts in Robotic Imitation Learning

Il paper introduce LAR-MoE, un framework a due stadi per l'apprendimento per imitazione robotica che utilizza un routing allineato a uno spazio latente appreso in modo non supervisionato per abilitare la specializzazione degli esperti senza bisogno di annotazioni delle fasi, ottenendo risultati superiori su benchmark complessi e compiti chirurgici reali.

Ariel Rodriguez, Chenpan Li, Lorenzo Mazza, Rayan Younis, Ortrun Hellig, Sebastian Bodenstedt, Martin Wagner, Stefanie Speidel2026-03-10💻 cs

STRIDE: Structured Lagrangian and Stochastic Residual Dynamics via Flow Matching

Il paper propone STRIDE, un framework di apprendimento della dinamica robotica che combina una rete neurale lagrangiana per la meccanica conservativa con un modello di flusso condizionale per le forze di interazione stocastiche, ottenendo una riduzione significativa degli errori di previsione in ambienti incerti.

Prakrut Kotecha, Ganga Nair B, Shishir Kolathaya2026-03-10🤖 cs.LG

3PoinTr: 3D Point Tracks for Robot Manipulation Pretraining from Casual Videos

Il paper presenta 3PoinTr, un metodo che utilizza trasformatori per pre-addestrare politiche robotiche su video umani casuali prevedendo tracce di punti 3D come rappresentazione intermedia, consentendo un apprendimento efficiente e robusto con un numero ridotto di dimostrazioni robotiche.

Adam Hung, Bardienus Pieter Duisterhof, Jeffrey Ichnowski2026-03-10💻 cs

The Neural Compass: Probabilistic Relative Feature Fields for Robotic Search

Il paper presenta ProReFF, un modello che apprende implicitamente le distribuzioni probabilistiche delle co-occorrenze di oggetti da dati non etichettati per guidare un agente robotico nella ricerca di oggetti in ambienti sconosciuti, raggiungendo un'efficienza superiore ai metodi basati su feature e fino all'80% delle prestazioni umane.

Gabriele Somaschini, Adrian Röfer, Abhinav Valada2026-03-10🤖 cs.LG

← Precedente Successivo →