cs.RO papers | Gist.Science

ViLAM: Distilling Vision-Language Reasoning into Attention Maps for Social Robot Navigation

Dit paper introduceert ViLAM, een methode die visueel-taalredenering distilleert naar ruimtelijke attentiekaarten om sociale robotnavigatie te verbeteren, wat resulteert in een aanzienlijke stijging van het succespercentage in vergelijking met bestaande methoden.

Mohamed Elnoor, Kasun Weerakoon, Gershom Seneviratne, Jing Liang, Vignesh Rajagopal, Dinesh ManochaTue, 10 Ma💻 cs

IMPACT: Intelligent Motion Planning with Acceptable Contact Trajectories via Vision-Language Models

Dit paper introduceert IMPACT, een nieuw bewegingsplanningskader dat Vision-Language Models gebruikt om veilige contacttrajecten in rommelige omgevingen te genereren door objecteigenschappen te analyseren en een anisotrope kostenkaart te combineren met een contactbewuste A*-planner.

Yiyang Ling, Karan Owalekar, Oluwatobiloba Adesanya, Erdem Bıyık, Daniel SeitaTue, 10 Ma🤖 cs.LG

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

Dit paper introduceert EgoDex, het grootste en meest diverse dataset tot nu toe van dexterous manipulatie met 829 uur egocentrisch video en gepaarde 3D-handtracking, verzameld met Apple Vision Pro om imitatieleer voor robotica en computerzicht te bevorderen.

Ryan Hoque, Peide Huang, David J. Yoon, Mouli Sivapurapu, Jian ZhangTue, 10 Ma🤖 cs.LG

ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers

Dit paper introduceert ViTaPEs, een transformer-architectuur die door middel van een innovatieve twee-staps positie-injectie visuele en tactiele data effectief combineert voor taak-agnostische representaties, wat leidt tot state-of-the-art prestaties in herkenning, zero-shot generalisatie en robotische grijpvoorspelling.

Fotios Lygerakis, Ozan Özdenizci, Elmar RückertTue, 10 Ma🤖 cs.LG

ActivePusher: Active Learning and Planning with Residual Physics for Nonprehensile Manipulation

Dit paper introduceert ActivePusher, een nieuw raamwerk dat residu-fysica en actieve learning combineert om de data-efficiëntie en het succes van lang-horizon planning voor niet-greep manipulatie in zowel simulatie als de echte wereld te verbeteren.

Zhuoyun Zhong, Seyedali Golestaneh, Constantinos ChamzasTue, 10 Ma🤖 cs.LG

DemoDiffusion: One-Shot Human Imitation using pre-trained Diffusion Policy

DemoDiffusion is een methode die robots in staat stelt om complexe manipulatieopdrachten te leren door een enkele menselijke demonstratie na te bootsen, waarbij kinematische retargeting wordt gecombineerd met een vooringeschoolde diffusiepolicy om robuuste aanpassing mogelijk te maken zonder specifieke training of gekoppelde mens-robotdata.

Sungjae Park, Homanga Bharadhwaj, Shubham TulsianiTue, 10 Ma🤖 cs.LG

Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification

Dit paper introduceert een methode genaamd Self-Grounded Verification (SGV) die de neiging van multimodale taalmodellen om agenten-acties te overdreven te valideren (de 'agreement bias') vermindert, waardoor de nauwkeurigheid van verifiers en de prestaties van agenten in taken zoals webnavigatie en robotica aanzienlijk worden verbeterd.

Moises Andrade, Joonhyuk Cha, Brandon Ho, Vriksha Srihari, Karmesh Yadav, Zsolt KiraTue, 10 Ma🤖 cs.LG

ORN-CBF: Learning Observation-conditioned Residual Neural Control Barrier Functions via Hypernetworks

Dit artikel introduceert ORN-CBF, een leermethode die hypernetwerken en Hamilton-Jacobi-bereikbaarheidsanalyse combineert om observation-geconditioneerde neurale veiligheidsfuncties te ontwikkelen die in deelt waarneembare omgevingen robuustere en generaliserende veiligheidsgaranties bieden dan bestaande methoden.

Bojan Derajic, Sebastian Bernhard, Wolfgang HönigTue, 10 Ma🤖 cs.LG

Efficient Construction of Implicit Surface Models From a Single Image for Motion Generation

Dit paper introduceert FINS, een lichtgewicht framework dat met behulp van een enkele afbeelding en vooraf getrainde fundamentele modellen binnen enkele seconden hoogwaardige impliciete oppervlakken en SDF-velden reconstrueert voor robottoepassingen zoals bewegingsgeneratie.

Wei-Teng Chu, Tianyi Zhang, Matthew Johnson-Roberson, Weiming ZhiTue, 10 Ma💻 cs

CroSTAta: Cross-State Transition Attention Transformer for Robotic Manipulation

Deze paper introduceert CroSTAta, een transformer-architectuur met een nieuwe State Transition Attention-mechanisme die door het modelleren van tijdsafhankelijke overgangspatronen en het gebruik van temporale masking de robuustheid van robotmanipulatiepoliën aanzienlijk verbetert, zelfs bij uitvoeringsvariaties die niet tijdens het trainen zijn gezien.

Giovanni Minelli, Giulio Turrisi, Victor Barasuol, Claudio SeminiTue, 10 Ma🤖 cs.LG

Pretraining in Actor-Critic Reinforcement Learning for Robot Locomotion

Dit artikel introduceert een pretraining-finetuning-paradigma voor robotlocomotie waarbij een op exploratie gebaseerde Inverse Dynamics Model (PIDM) wordt gebruikt om Actor-Critic-algoritmen als PPO warm te starten, wat resulteert in een aanzienlijke verbetering van de sample-efficiëntie en taakprestaties vergeleken met willekeurige initialisatie.

Jiale Fan, Andrei Cramariuc, Tifanny Portela, Marco HutterTue, 10 Ma🤖 cs.LG

Vectorized Online POMDP Planning

Dit artikel introduceert VOPP, een volledig vectoriseerde online POMDP-planner die door het elimineren van synchronisatieknelpunten via tensorgebaseerde berekeningen tot 20 keer efficiënter is dan bestaande parallelle oplossers en 1000 keer minder rekenbudget nodig heeft dan geavanceerde sequentiële methoden.

Marcus Hoerger, Muhammad Sudrajat, Hanna KurniawatiTue, 10 Ma💻 cs

Whole-Brain Connectomic Graph Model Enables Whole-Body Locomotion Control in Fruit Fly

Dit onderzoek introduceert FlyGM, een model dat het exacte connectoom van een volwassen fruitvlieg gebruikt als een statisch, biologisch gefundeerd neurale netwerk om de beweging van het hele lichaam te besturen, waarbij het superieure prestaties en hogere sample-efficiëntie toont ten opzichte van gerandomiseerde of standaard neurale netwerken.

Zehao Jin, Yaoye Zhu, Chen Zhang, Yanan SuiTue, 10 Ma🤖 cs.LG

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

Deze paper introduceert TimeSpot, een benchmark met 1.455 wereldwijde beelden om de beperkte geo-temporele redeneercapaciteiten van Vision-Language-modellen te evalueren en aan te tonen dat er nieuwe methoden nodig zijn voor robuust begrip van tijd en locatie op basis van visuele data.

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan ParvezTue, 10 Ma💬 cs.CL

One-Shot Badminton Shuttle Detection for Mobile Robots

Dit artikel introduceert een robuust one-shot detectieframework voor badmintonsloten voor mobiele robots, inclusief een nieuw dataset en een semi-automatische annotatiepijplijn, dat een YOLOv8-netwerk optimaliseert voor real-time prestaties in dynamische, egocentrische perspectieven.

Florentin Dipner, William Talbot, Turcan Tuna, Andrei Cramariuc, Marco HutterTue, 10 Ma💻 cs

A Pivot-Based Kirigami Utensil for Hand-Held and Robot-Assisted Feeding

Dit paper introduceert een op scharnier gebaseerde kirigami-lepel die, dankzij een knijpmechanisme dat voedsel veilig vasthoudt, zowel door mensen met tremoren als door robots kan worden gebruikt om morsen te voorkomen.

Keone Leao, Grace Brotherson, Iain Mischel, Sagar Parekh, Dylan P. LoseyTue, 10 Ma💻 cs

Dynamic Targeting of Satellite Observations Using Supplemental Geostationary Satellite Data and Hierarchical Planning

Deze studie toont aan dat het combineren van aanvullende gegevens van geostationaire satellieten met een hiërarchische planningsaanpak de prestaties van dynamische satellietwaarnemingssystemen aanzienlijk verbetert, met name bij het plannen van waarnemingen voor verspreide doelen.

Akseli Kangaslahti, Itai Zilberstein, Alberto Candela, Steve ChienTue, 10 Ma💻 cs

Don't Freeze, Don't Crash: Extending the Safe Operating Range of Neural Navigation in Dense Crowds

Dit paper introduceert een versterkingsleerbenadering die door middel van dichtheidsinvariante observatiecodering en trainingsrandomisatie veilige navigatie in dichte menigten mogelijk maakt zonder te bevriezen of te crashen, zelfs bij onbekende, hogere dichtheden dan tijdens de training.

Jiefu Zhang, Yang Xu, Vaneet AggarwalTue, 10 Ma🤖 cs.LG

Improved Constrained Generation by Bridging Pretrained Generative Models

Deze paper introduceert een raamwerk dat een vooraf getraind generatief model fijntuint om samples direct binnen complexe, realistische beperkte gebieden te genereren, waardoor een nieuw compromis wordt gevonden tussen het naleven van constraints en de kwaliteit van de generatie.

Xiaoxuan Liang, Saeid Naderiparizi, Yunpeng Liu, Berend Zwartsenberg, Frank WoodTue, 10 Ma🤖 cs.LG

Robotic Foundation Models for Industrial Control: A Comprehensive Survey and Readiness Assessment Framework

Deze studie biedt een uitgebreid overzicht van robotische foundation-modellen voor industriële toepassingen en introduceert een beoordelingsframework dat aantoont dat de huidige modellen nog onvoldoende zijn voor industriële inzet, omdat ze vooral beperkte pieken vertonen in plaats van een geïntegreerde dekking van veiligheids-, real-time en integratie-eisen.

David Kube, Simon Hadwiger, Tobias MeisenTue, 10 Ma💻 cs

← Vorige Volgende →