cs.RO articoli | Gist.Science

ViLAM: Distilling Vision-Language Reasoning into Attention Maps for Social Robot Navigation

Il paper presenta ViLAM, un metodo innovativo che distilla il ragionamento visivo-linguistico da grandi modelli in mappe di attenzione spaziale per guidare la navigazione socialmente consapevole di robot, ottenendo miglioramenti significativi nel tasso di successo rispetto alle tecniche esistenti.

Mohamed Elnoor, Kasun Weerakoon, Gershom Seneviratne, Jing Liang, Vignesh Rajagopal, Dinesh ManochaTue, 10 Ma💻 cs

IMPACT: Intelligent Motion Planning with Acceptable Contact Trajectories via Vision-Language Models

Il paper presenta IMPACT, un nuovo framework di pianificazione del movimento che utilizza modelli visione-linguaggio per generare mappe di costo anisotrope e identificare contatti sicuri, permettendo a un robot di navigare in ambienti affollati attraverso percorsi ricchi di contatto controllati e sicuri.

Yiyang Ling, Karan Owalekar, Oluwatobiloba Adesanya, Erdem Bıyık, Daniel SeitaTue, 10 Ma🤖 cs.LG

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

Il paper presenta EgoDex, il più ampio e diversificato dataset esistente di manipolazione abile umana registrato con Apple Vision Pro, che offre 829 ore di video egocentrici con annotazioni 3D delle mani per affrontare la scarsità di dati nell'apprendimento per imitazione e promuovere i progressi nella robotica e nella visione artificiale.

Ryan Hoque, Peide Huang, David J. Yoon, Mouli Sivapurapu, Jian ZhangTue, 10 Ma🤖 cs.LG

ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers

Il paper introduce ViTaPEs, un'architettura transformer che utilizza codifiche posizionali visuo-tattili a due stadi per allineare le modalità in modo efficace, superando gli stati dell'arte in compiti di riconoscimento e generalizzazione zero-shot senza dipendere da modelli pre-addestrati.

Fotios Lygerakis, Ozan Özdenizci, Elmar RückertTue, 10 Ma🤖 cs.LG

ActivePusher: Active Learning and Planning with Residual Physics for Nonprehensile Manipulation

Il paper presenta ActivePusher, un framework innovativo che combina modelli di fisica residua e apprendimento attivo basato sull'incertezza per migliorare l'efficienza dei dati e l'affidabilità della pianificazione a lungo termine nella manipolazione non prensile.

Zhuoyun Zhong, Seyedali Golestaneh, Constantinos ChamzasTue, 10 Ma🤖 cs.LG

DemoDiffusion: One-Shot Human Imitation using pre-trained Diffusion Policy

Il paper presenta DemoDiffusion, un metodo che permette ai robot di imitare un'unica dimostrazione umana per eseguire compiti di manipolazione, combinando la retargeting cinematica con una politica di diffusione pre-addestrata per ottenere un tasso di successo significativamente superiore rispetto alle tecniche esistenti senza necessità di dati umani-robot accoppiati o addestramento specifico.

Sungjae Park, Homanga Bharadhwaj, Shubham TulsianiTue, 10 Ma🤖 cs.LG

Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification

Questo paper introduce SGV, un metodo di verifica auto-fondato che mitiga il bias di accordo nei modelli linguistici multimodali, migliorando significativamente l'individuazione degli errori e le prestazioni dei agenti in compiti di navigazione web, uso del computer e robotica.

Moises Andrade, Joonhyuk Cha, Brandon Ho, Vriksha Srihari, Karmesh Yadav, Zsolt KiraTue, 10 Ma🤖 cs.LG

ORN-CBF: Learning Observation-conditioned Residual Neural Control Barrier Functions via Hypernetworks

Questo lavoro propone l'ORN-CBF, un metodo che utilizza iperreti e l'analisi di raggiungibilità di Hamilton-Jacobi per apprendere funzioni di barriera neurale condizionate dalle osservazioni, garantendo filtri di sicurezza rigorosi e migliorando le prestazioni di robot autonomi in ambienti parzialmente osservabili rispetto alle tecniche esistenti.

Bojan Derajic, Sebastian Bernhard, Wolfgang HönigTue, 10 Ma🤖 cs.LG

Efficient Construction of Implicit Surface Models From a Single Image for Motion Generation

Il paper propone FINS, un framework leggero che ricostruisce efficientemente in pochi secondi superfici implicite e campi SDF ad alta fedeltà partendo da una singola immagine, superando i metodi esistenti in velocità e precisione e dimostrando la propria efficacia in compiti di robotica come il seguire superfici.

Wei-Teng Chu, Tianyi Zhang, Matthew Johnson-Roberson, Weiming ZhiTue, 10 Ma💻 cs

CroSTAta: Cross-State Transition Attention Transformer for Robotic Manipulation

Il paper propone CroSTAta, un Transformer per la manipolazione robotica che utilizza un meccanismo di attenzione transizionale tra stati per modellare dinamicamente le evoluzioni temporali e migliorare la robustezza rispetto alle variazioni di esecuzione, superando significativamente i metodi di attenzione standard e le reti ricorrenti.

Giovanni Minelli, Giulio Turrisi, Victor Barasuol, Claudio SeminiTue, 10 Ma🤖 cs.LG

Pretraining in Actor-Critic Reinforcement Learning for Robot Locomotion

Questo lavoro propone un paradigma di preaddestramento per l'apprendimento per rinforzo nella locomozione robotica, basato su un modello inverso dinamico propriocezionale addestrato su dati di esplorazione, che migliora significativamente l'efficienza dei campioni e le prestazioni dei compiti rispetto all'inizializzazione casuale.

Jiale Fan, Andrei Cramariuc, Tifanny Portela, Marco HutterTue, 10 Ma🤖 cs.LG

Vectorized Online POMDP Planning

Il paper presenta VOPP, un nuovo pianificatore POMDP online vettorializzato che sfrutta il calcolo massivamente parallelo per eliminare le dipendenze e le sincronizzazioni, risultando fino a 20 volte più efficiente dei solutori paralleli esistenti e superiore ai solutori sequenziali con un budget di pianificazione 1000 volte inferiore.

Marcus Hoerger, Muhammad Sudrajat, Hanna KurniawatiTue, 10 Ma💻 cs

Whole-Brain Connectomic Graph Model Enables Whole-Body Locomotion Control in Fruit Fly

Questo studio introduce il FlyGM, un modello grafico basato sul connettoma cerebrale completo di una mosca della frutta che, integrato con un modello biomeccanico, permette il controllo efficace e generalizzabile della locomozione corporea tramite apprendimento per rinforzo senza necessità di adattamento architetturale specifico.

Zehao Jin, Yaoye Zhu, Chen Zhang, Yanan SuiTue, 10 Ma🤖 cs.LG

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

Il paper introduce TimeSpot, un nuovo benchmark composto da 1.455 immagini reali provenienti da 80 paesi per valutare le capacità di ragionamento geo-temporale dei modelli visione-linguaggio, evidenziando che, nonostante i recenti progressi, questi modelli mostrano prestazioni ancora limitate nell'inferenza temporale e nella comprensione spaziale fisicamente fondata.

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan ParvezTue, 10 Ma💬 cs.CL

One-Shot Badminton Shuttle Detection for Mobile Robots

Questo articolo presenta un framework robusto per il rilevamento in un solo passaggio di volanti da badminton per robot mobili, introducendo un nuovo dataset annotato semi-automaticamente e un modello YOLOv8 ottimizzato che funziona efficacemente sia in ambienti noti che in scenari completamente nuovi, superando i limiti delle precedenti soluzioni basate su telecamere fisse.

Florentin Dipner, William Talbot, Turcan Tuna, Andrei Cramariuc, Marco HutterTue, 10 Ma💻 cs

A Pivot-Based Kirigami Utensil for Hand-Held and Robot-Assisted Feeding

Il paper presenta il "kiri-spoon", un utensile alimentare basato su un design a cerniera e origami che, grazie alla sua capacità di trasformarsi da cucchiaio a forchetta tramite una pressione delle maniglie, offre una soluzione versatile e accessibile sia per l'uso manuale che robotico, migliorando significativamente la sicurezza e l'indipendenza nel mangiare per persone con tremori o limitazioni motorie.

Keone Leao, Grace Brotherson, Iain Mischel, Sagar Parekh, Dylan P. LoseyTue, 10 Ma💻 cs

Dynamic Targeting of Satellite Observations Using Supplemental Geostationary Satellite Data and Hierarchical Planning

Questo articolo presenta un approccio di pianificazione gerarchica che combina dati satellitari geostazionari a lungo termine con sensori di bordo a breve termine per migliorare fino al 41% l'efficienza dell'osservazione dinamica dei satelliti, specialmente in scenari con bersagli sparsi come l'evitamento delle nuvole o la caccia alle tempeste.

Akseli Kangaslahti, Itai Zilberstein, Alberto Candela, Steve ChienTue, 10 Ma💻 cs

Don't Freeze, Don't Crash: Extending the Safe Operating Range of Neural Navigation in Dense Crowds

Questo lavoro propone un approccio di apprendimento per rinforzo che, grazie a una codifica delle osservazioni invariante alla densità e a un addestramento randomizzato, permette a un agente di navigare in folle dense con generalizzazione zero-shot, evitando sia il congelamento tipico dei metodi analitici sia i crash dei metodi basati sull'apprendimento tradizionali.

Jiefu Zhang, Yang Xu, Vaneet AggarwalTue, 10 Ma🤖 cs.LG

Improved Constrained Generation by Bridging Pretrained Generative Models

Il paper propone un framework di generazione vincolata che, tramite il fine-tuning di modelli generativi preaddestrati, permette di produrre campioni realistici all'interno di regioni fattibili complesse e non lineari, come quelle tipiche della guida autonoma e del controllo robotico, trovando un nuovo compromesso tra soddisfazione dei vincoli e qualità del campionamento.

Xiaoxuan Liang, Saeid Naderiparizi, Yunpeng Liu, Berend Zwartsenberg, Frank WoodTue, 10 Ma🤖 cs.LG

Robotic Foundation Models for Industrial Control: A Comprehensive Survey and Readiness Assessment Framework

Questo articolo presenta un'analisi esaustiva dei modelli fondazionali robotici per il controllo industriale, proponendo un framework di valutazione basato su 149 criteri che rivela come la maturità attuale di tali modelli sia limitata e frammentata, sottolineando la necessità di integrare sistematicamente sicurezza, fattibilità in tempo reale e robustezza per un'adozione industriale efficace.

David Kube, Simon Hadwiger, Tobias MeisenTue, 10 Ma💻 cs

← Precedente Successivo →