ViLAM: Distilling Vision-Language Reasoning into Attention Maps for Social Robot Navigation

Il paper presenta ViLAM, un metodo innovativo che distilla il ragionamento visivo-linguistico da grandi modelli in mappe di attenzione spaziale per guidare la navigazione socialmente consapevole di robot, ottenendo miglioramenti significativi nel tasso di successo rispetto alle tecniche esistenti.

Mohamed Elnoor, Kasun Weerakoon, Gershom Seneviratne, Jing Liang, Vignesh Rajagopal, Dinesh ManochaTue, 10 Ma💻 cs

IMPACT: Intelligent Motion Planning with Acceptable Contact Trajectories via Vision-Language Models

Il paper presenta IMPACT, un nuovo framework di pianificazione del movimento che utilizza modelli visione-linguaggio per generare mappe di costo anisotrope e identificare contatti sicuri, permettendo a un robot di navigare in ambienti affollati attraverso percorsi ricchi di contatto controllati e sicuri.

Yiyang Ling, Karan Owalekar, Oluwatobiloba Adesanya, Erdem Bıyık, Daniel SeitaTue, 10 Ma🤖 cs.LG

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

Il paper presenta EgoDex, il più ampio e diversificato dataset esistente di manipolazione abile umana registrato con Apple Vision Pro, che offre 829 ore di video egocentrici con annotazioni 3D delle mani per affrontare la scarsità di dati nell'apprendimento per imitazione e promuovere i progressi nella robotica e nella visione artificiale.

Ryan Hoque, Peide Huang, David J. Yoon, Mouli Sivapurapu, Jian ZhangTue, 10 Ma🤖 cs.LG

DemoDiffusion: One-Shot Human Imitation using pre-trained Diffusion Policy

Il paper presenta DemoDiffusion, un metodo che permette ai robot di imitare un'unica dimostrazione umana per eseguire compiti di manipolazione, combinando la retargeting cinematica con una politica di diffusione pre-addestrata per ottenere un tasso di successo significativamente superiore rispetto alle tecniche esistenti senza necessità di dati umani-robot accoppiati o addestramento specifico.

Sungjae Park, Homanga Bharadhwaj, Shubham TulsianiTue, 10 Ma🤖 cs.LG

ORN-CBF: Learning Observation-conditioned Residual Neural Control Barrier Functions via Hypernetworks

Questo lavoro propone l'ORN-CBF, un metodo che utilizza iperreti e l'analisi di raggiungibilità di Hamilton-Jacobi per apprendere funzioni di barriera neurale condizionate dalle osservazioni, garantendo filtri di sicurezza rigorosi e migliorando le prestazioni di robot autonomi in ambienti parzialmente osservabili rispetto alle tecniche esistenti.

Bojan Derajic, Sebastian Bernhard, Wolfgang HönigTue, 10 Ma🤖 cs.LG

CroSTAta: Cross-State Transition Attention Transformer for Robotic Manipulation

Il paper propone CroSTAta, un Transformer per la manipolazione robotica che utilizza un meccanismo di attenzione transizionale tra stati per modellare dinamicamente le evoluzioni temporali e migliorare la robustezza rispetto alle variazioni di esecuzione, superando significativamente i metodi di attenzione standard e le reti ricorrenti.

Giovanni Minelli, Giulio Turrisi, Victor Barasuol, Claudio SeminiTue, 10 Ma🤖 cs.LG

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

Il paper introduce TimeSpot, un nuovo benchmark composto da 1.455 immagini reali provenienti da 80 paesi per valutare le capacità di ragionamento geo-temporale dei modelli visione-linguaggio, evidenziando che, nonostante i recenti progressi, questi modelli mostrano prestazioni ancora limitate nell'inferenza temporale e nella comprensione spaziale fisicamente fondata.

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan ParvezTue, 10 Ma💬 cs.CL

One-Shot Badminton Shuttle Detection for Mobile Robots

Questo articolo presenta un framework robusto per il rilevamento in un solo passaggio di volanti da badminton per robot mobili, introducendo un nuovo dataset annotato semi-automaticamente e un modello YOLOv8 ottimizzato che funziona efficacemente sia in ambienti noti che in scenari completamente nuovi, superando i limiti delle precedenti soluzioni basate su telecamere fisse.

Florentin Dipner, William Talbot, Turcan Tuna, Andrei Cramariuc, Marco HutterTue, 10 Ma💻 cs

A Pivot-Based Kirigami Utensil for Hand-Held and Robot-Assisted Feeding

Il paper presenta il "kiri-spoon", un utensile alimentare basato su un design a cerniera e origami che, grazie alla sua capacità di trasformarsi da cucchiaio a forchetta tramite una pressione delle maniglie, offre una soluzione versatile e accessibile sia per l'uso manuale che robotico, migliorando significativamente la sicurezza e l'indipendenza nel mangiare per persone con tremori o limitazioni motorie.

Keone Leao, Grace Brotherson, Iain Mischel, Sagar Parekh, Dylan P. LoseyTue, 10 Ma💻 cs

Dynamic Targeting of Satellite Observations Using Supplemental Geostationary Satellite Data and Hierarchical Planning

Questo articolo presenta un approccio di pianificazione gerarchica che combina dati satellitari geostazionari a lungo termine con sensori di bordo a breve termine per migliorare fino al 41% l'efficienza dell'osservazione dinamica dei satelliti, specialmente in scenari con bersagli sparsi come l'evitamento delle nuvole o la caccia alle tempeste.

Akseli Kangaslahti, Itai Zilberstein, Alberto Candela, Steve ChienTue, 10 Ma💻 cs

Don't Freeze, Don't Crash: Extending the Safe Operating Range of Neural Navigation in Dense Crowds

Questo lavoro propone un approccio di apprendimento per rinforzo che, grazie a una codifica delle osservazioni invariante alla densità e a un addestramento randomizzato, permette a un agente di navigare in folle dense con generalizzazione zero-shot, evitando sia il congelamento tipico dei metodi analitici sia i crash dei metodi basati sull'apprendimento tradizionali.

Jiefu Zhang, Yang Xu, Vaneet AggarwalTue, 10 Ma🤖 cs.LG

Improved Constrained Generation by Bridging Pretrained Generative Models

Il paper propone un framework di generazione vincolata che, tramite il fine-tuning di modelli generativi preaddestrati, permette di produrre campioni realistici all'interno di regioni fattibili complesse e non lineari, come quelle tipiche della guida autonoma e del controllo robotico, trovando un nuovo compromesso tra soddisfazione dei vincoli e qualità del campionamento.

Xiaoxuan Liang, Saeid Naderiparizi, Yunpeng Liu, Berend Zwartsenberg, Frank WoodTue, 10 Ma🤖 cs.LG

Robotic Foundation Models for Industrial Control: A Comprehensive Survey and Readiness Assessment Framework

Questo articolo presenta un'analisi esaustiva dei modelli fondazionali robotici per il controllo industriale, proponendo un framework di valutazione basato su 149 criteri che rivela come la maturità attuale di tali modelli sia limitata e frammentata, sottolineando la necessità di integrare sistematicamente sicurezza, fattibilità in tempo reale e robustezza per un'adozione industriale efficace.

David Kube, Simon Hadwiger, Tobias MeisenTue, 10 Ma💻 cs