cs.RO articoli | Gist.Science

IMPACT: Intelligent Motion Planning with Acceptable Contact Trajectories via Vision-Language Models

Il paper presenta IMPACT, un nuovo framework di pianificazione del movimento che utilizza modelli visione-linguaggio per generare mappe di costo anisotrope e identificare contatti sicuri, permettendo a un robot di navigare in ambienti affollati attraverso percorsi ricchi di contatto controllati e sicuri.

Yiyang Ling, Karan Owalekar, Oluwatobiloba Adesanya, Erdem Bıyık, Daniel Seita2026-03-10🤖 cs.LG

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

Il paper presenta EgoDex, il più ampio e diversificato dataset esistente di manipolazione abile umana registrato con Apple Vision Pro, che offre 829 ore di video egocentrici con annotazioni 3D delle mani per affrontare la scarsità di dati nell'apprendimento per imitazione e promuovere i progressi nella robotica e nella visione artificiale.

Ryan Hoque, Peide Huang, David J. Yoon, Mouli Sivapurapu, Jian Zhang2026-03-10🤖 cs.LG

ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers

Il paper introduce ViTaPEs, un'architettura transformer che utilizza codifiche posizionali visuo-tattili a due stadi per allineare le modalità in modo efficace, superando gli stati dell'arte in compiti di riconoscimento e generalizzazione zero-shot senza dipendere da modelli pre-addestrati.

Fotios Lygerakis, Ozan Özdenizci, Elmar Rückert2026-03-10🤖 cs.LG

ActivePusher: Active Learning and Planning with Residual Physics for Nonprehensile Manipulation

Il paper presenta ActivePusher, un framework innovativo che combina modelli di fisica residua e apprendimento attivo basato sull'incertezza per migliorare l'efficienza dei dati e l'affidabilità della pianificazione a lungo termine nella manipolazione non prensile.

Zhuoyun Zhong, Seyedali Golestaneh, Constantinos Chamzas2026-03-10🤖 cs.LG

DemoDiffusion: One-Shot Human Imitation using pre-trained Diffusion Policy

Il paper presenta DemoDiffusion, un metodo che permette ai robot di imitare un'unica dimostrazione umana per eseguire compiti di manipolazione, combinando la retargeting cinematica con una politica di diffusione pre-addestrata per ottenere un tasso di successo significativamente superiore rispetto alle tecniche esistenti senza necessità di dati umani-robot accoppiati o addestramento specifico.

Sungjae Park, Homanga Bharadhwaj, Shubham Tulsiani2026-03-10🤖 cs.LG

Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification

Questo paper introduce SGV, un metodo di verifica auto-fondato che mitiga il bias di accordo nei modelli linguistici multimodali, migliorando significativamente l'individuazione degli errori e le prestazioni dei agenti in compiti di navigazione web, uso del computer e robotica.

Moises Andrade, Joonhyuk Cha, Brandon Ho, Vriksha Srihari, Karmesh Yadav, Zsolt Kira2026-03-10🤖 cs.LG

Improving the Resilience of Quadrotors in Underground Environments by Combining Learning-based and Safety Controllers

Questo lavoro propone un sistema ibrido che combina un controller basato sull'apprendimento con un monitor di sicurezza per garantire la navigazione autonoma e sicura dei quadricotteri in ambienti sotterranei sconosciuti, sfruttando un flusso normalizzante per rilevare le situazioni fuori distribuzione e attivare un controller di sicurezza quando necessario.

Isaac Ronald Ward, Mark Paral, Kristopher Riordan + 1 more2026-03-10⚡ eess

Classification of Driver Behaviour Using External Observation Techniques for Autonomous Vehicles

Questo studio presenta un sistema innovativo basato sulla visione artificiale e sull'analisi della posizione laterale per classificare in tempo reale comportamenti di guida pericolosi, come distrazione e alterazione, osservando i veicoli dall'esterno senza necessità di comunicazioni inter-veicolari.

Ian Nell, Shane Gilroy2026-03-10⚡ eess

ORN-CBF: Learning Observation-conditioned Residual Neural Control Barrier Functions via Hypernetworks

Questo lavoro propone l'ORN-CBF, un metodo che utilizza iperreti e l'analisi di raggiungibilità di Hamilton-Jacobi per apprendere funzioni di barriera neurale condizionate dalle osservazioni, garantendo filtri di sicurezza rigorosi e migliorando le prestazioni di robot autonomi in ambienti parzialmente osservabili rispetto alle tecniche esistenti.

Bojan Derajic, Sebastian Bernhard, Wolfgang Hönig2026-03-10🤖 cs.LG

Efficient Construction of Implicit Surface Models From a Single Image for Motion Generation

Il paper propone FINS, un framework leggero che ricostruisce efficientemente in pochi secondi superfici implicite e campi SDF ad alta fedeltà partendo da una singola immagine, superando i metodi esistenti in velocità e precisione e dimostrando la propria efficacia in compiti di robotica come il seguire superfici.

Wei-Teng Chu, Tianyi Zhang, Matthew Johnson-Roberson, Weiming Zhi2026-03-10💻 cs

CroSTAta: Cross-State Transition Attention Transformer for Robotic Manipulation

Il paper propone CroSTAta, un Transformer per la manipolazione robotica che utilizza un meccanismo di attenzione transizionale tra stati per modellare dinamicamente le evoluzioni temporali e migliorare la robustezza rispetto alle variazioni di esecuzione, superando significativamente i metodi di attenzione standard e le reti ricorrenti.

Giovanni Minelli, Giulio Turrisi, Victor Barasuol, Claudio Semini2026-03-10🤖 cs.LG

Pretraining in Actor-Critic Reinforcement Learning for Robot Locomotion

Questo lavoro propone un paradigma di preaddestramento per l'apprendimento per rinforzo nella locomozione robotica, basato su un modello inverso dinamico propriocezionale addestrato su dati di esplorazione, che migliora significativamente l'efficienza dei campioni e le prestazioni dei compiti rispetto all'inizializzazione casuale.

Jiale Fan, Andrei Cramariuc, Tifanny Portela, Marco Hutter2026-03-10🤖 cs.LG

Vectorized Online POMDP Planning

Il paper presenta VOPP, un nuovo pianificatore POMDP online vettorializzato che sfrutta il calcolo massivamente parallelo per eliminare le dipendenze e le sincronizzazioni, risultando fino a 20 volte più efficiente dei solutori paralleli esistenti e superiore ai solutori sequenziali con un budget di pianificazione 1000 volte inferiore.

Marcus Hoerger, Muhammad Sudrajat, Hanna Kurniawati2026-03-10💻 cs

Whole-Brain Connectomic Graph Model Enables Whole-Body Locomotion Control in Fruit Fly

Questo studio introduce il FlyGM, un modello grafico basato sul connettoma cerebrale completo di una mosca della frutta che, integrato con un modello biomeccanico, permette il controllo efficace e generalizzabile della locomozione corporea tramite apprendimento per rinforzo senza necessità di adattamento architetturale specifico.

Zehao Jin, Yaoye Zhu, Chen Zhang, Yanan Sui2026-03-10🤖 cs.LG

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

Il paper introduce TimeSpot, un nuovo benchmark composto da 1.455 immagini reali provenienti da 80 paesi per valutare le capacità di ragionamento geo-temporale dei modelli visione-linguaggio, evidenziando che, nonostante i recenti progressi, questi modelli mostrano prestazioni ancora limitate nell'inferenza temporale e nella comprensione spaziale fisicamente fondata.

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan Parvez2026-03-10💬 cs.CL

One-Shot Badminton Shuttle Detection for Mobile Robots

Questo articolo presenta un framework robusto per il rilevamento in un solo passaggio di volanti da badminton per robot mobili, introducendo un nuovo dataset annotato semi-automaticamente e un modello YOLOv8 ottimizzato che funziona efficacemente sia in ambienti noti che in scenari completamente nuovi, superando i limiti delle precedenti soluzioni basate su telecamere fisse.

Florentin Dipner, William Talbot, Turcan Tuna, Andrei Cramariuc, Marco Hutter2026-03-10💻 cs

A Pivot-Based Kirigami Utensil for Hand-Held and Robot-Assisted Feeding

Il paper presenta il "kiri-spoon", un utensile alimentare basato su un design a cerniera e origami che, grazie alla sua capacità di trasformarsi da cucchiaio a forchetta tramite una pressione delle maniglie, offre una soluzione versatile e accessibile sia per l'uso manuale che robotico, migliorando significativamente la sicurezza e l'indipendenza nel mangiare per persone con tremori o limitazioni motorie.

Keone Leao, Grace Brotherson, Iain Mischel, Sagar Parekh, Dylan P. Losey2026-03-10💻 cs

Dynamic Targeting of Satellite Observations Using Supplemental Geostationary Satellite Data and Hierarchical Planning

Questo articolo presenta un approccio di pianificazione gerarchica che combina dati satellitari geostazionari a lungo termine con sensori di bordo a breve termine per migliorare fino al 41% l'efficienza dell'osservazione dinamica dei satelliti, specialmente in scenari con bersagli sparsi come l'evitamento delle nuvole o la caccia alle tempeste.

Akseli Kangaslahti, Itai Zilberstein, Alberto Candela, Steve Chien2026-03-10💻 cs

Don't Freeze, Don't Crash: Extending the Safe Operating Range of Neural Navigation in Dense Crowds

Questo lavoro propone un approccio di apprendimento per rinforzo che, grazie a una codifica delle osservazioni invariante alla densità e a un addestramento randomizzato, permette a un agente di navigare in folle dense con generalizzazione zero-shot, evitando sia il congelamento tipico dei metodi analitici sia i crash dei metodi basati sull'apprendimento tradizionali.

Jiefu Zhang, Yang Xu, Vaneet Aggarwal2026-03-10🤖 cs.LG

Improved Constrained Generation by Bridging Pretrained Generative Models

Il paper propone un framework di generazione vincolata che, tramite il fine-tuning di modelli generativi preaddestrati, permette di produrre campioni realistici all'interno di regioni fattibili complesse e non lineari, come quelle tipiche della guida autonoma e del controllo robotico, trovando un nuovo compromesso tra soddisfazione dei vincoli e qualità del campionamento.

Xiaoxuan Liang, Saeid Naderiparizi, Yunpeng Liu, Berend Zwartsenberg, Frank Wood2026-03-10🤖 cs.LG

← Precedente Successivo →