cs.RO papers | Gist.Science

Segment-to-Act: Label-Noise-Robust Action-Prompted Video Segmentation Towards Embodied Intelligence

Deze paper introduceert ActiSeg-NL, het eerste benchmark voor actiegerichte videosegmentatie onder labelruis, en stelt een robuustheidsanalyse en een Parallel Mask Head Mechanism (PMHM) voor om de impact van onnauwkeurige tekstprompts en maskergrenzen op embodied intelligence te mitigeren.

Wenxin Li, Kunyu Peng, Di Wen + 4 more2026-03-05🤖 cs.LG

Fine-Tuning Robot Policies While Maintaining User Privacy

Deze paper introduceert PRoP, een model-onafhankelijk kader dat het mogelijk maakt om robotbeleid te personaliseren op basis van gebruikersvoorkeuren terwijl de privacy wordt gewaarborgd door het gebruik van unieke sleutels die de netwerkweegs transformeren, zodat alleen de juiste gebruiker de gepersonaliseerde gedragingen kan activeren.

Benjamin A. Christie, Sagar Parekh, Dylan P. Losey2026-03-05💻 cs

Category-Level Object Shape and Pose Estimation in Less Than a Millisecond

Deze paper presenteert een snelle lokale solver voor het schatten van vorm en pose van objecten op categorie-niveau die, gebruikmakend van een eigenwaardeprobleem en zelfconsistent-velditeratie, een globale optimaliteitscertificaat levert in minder dan een milliseconde.

Lorenzo Shaikewitz, Tim Nguyen, Luca Carlone2026-03-05💻 cs

RehearseVLA: Simulated Post-Training for VLAs with Physically-Consistent World Model

Het paper introduceert RehearseVLA, een post-training framework dat Vision-Language-Action-modellen via een fysiek consistente virtuele simulator en een VLM-gestuurde reflector traint, waardoor ze veilig en data-efficiënt kunnen generaliseren in data-scarce scenario's zonder fysieke interactie.

Junjin Xiao, Yandan Yang, Xinyuan Chang + 5 more2026-03-05💻 cs

ELMUR: External Layer Memory with Update/Rewrite for Long-Horizon RL Problems

Het artikel introduceert ELMUR, een transformer-architectuur met gestructureerd extern geheugen die door middel van een LRU-update- en herschrijfmechanisme effectieve horizons tot 100.000 keer de aandachtswindow verlengt en zo aanzienlijk betere prestaties behaalt op lange-horizon, gedeeltelijk waarneembare taken in vergelijking met bestaande methoden.

Egor Cherepanov, Alexey K. Kovalev, Aleksandr I. Panov2026-03-05🤖 cs.AI

TIGeR: Tool-Integrated Geometric Reasoning in Vision-Language Models for Robotics

TIGeR is een nieuw raamwerk dat Vision-Language Models transformeert tot nauwkeurige meetkundige computers door het genereren en uitvoeren van code voor externe tools, waardoor robots centimeterprecisie bereiken in real-world manipulatieopdrachten.

Yi Han, Enshen Zhou, Shanyu Rong + 6 more2026-03-05🤖 cs.AI

LaViRA: Language-Vision-Robot Actions Translation for Zero-Shot Vision Language Navigation in Continuous Environments

LaViRA is een zero-shot raamwerk voor visueel-taalnavigatie in continue omgevingen dat door een hiërarchische decompositie van acties in taal-, visie- en robotstappen de redeneercapaciteiten van multimodale grote taalmodellen benut om superieure generalisatie in onbekende omgevingen te bereiken.

Hongyu Ding, Ziming Xu, Yudong Fang + 6 more2026-03-05💻 cs

SoraNav: Adaptive UAV Task-Centric Navigation via Zeroshot VLM Reasoning

Dit paper introduceert SoraNav, een nieuw raamwerk dat door middel van multi-modale visuele annotatie en adaptieve besluitvorming zero-shot visueel-taalmodellen in staat stelt tot robuuste, taakgerichte navigatie van onbemande luchtvaartuigen in complexe 3D-omgevingen.

Hongyu Song, Rishabh Dev Yadav, Cheng Guo + 1 more2026-03-05💻 cs

Dynamic-ICP: Doppler-Aware Iterative Closest Point Registration for Dynamic Scenes

Deze paper introduceert Dynamic-ICP, een robuust registratiekader dat Doppler-gegevens van FMCW-LiDAR gebruikt om nauwkeurige bewegingsschattingen te realiseren in dynamische omgevingen zonder externe sensoren.

Dong Wang, Daniel Casado Herraez, Stefan May + 1 more2026-03-05💻 cs

Metric, inertially aligned monocular state estimation via kinetodynamic priors

Deze paper introduceert een methode voor nauwkeurige monokulaire staatsschatting op flexibele robotsystemen door kinetodynamische priors te integreren via een vervormingskrachtenmodel en continue-tijd B-splines, waardoor zowel robuuste pose-schatting als het herstel van de metriek en zwaartekracht mogelijk wordt.

Jiaxin Liu, Min Li, Wanting Xu + 3 more2026-03-05💻 cs

CERNet: Class-Embedding Predictive-Coding RNN for Unified Robot Motion, Recognition, and Confidence Estimation

Dit paper introduceert CERNet, een unificerend hiërarchisch voorspellend-coderend recurrente neurale netwerkmodel dat robots in staat stelt om in real-time bewegingen te genereren, menselijke intenties te herkennen en de betrouwbaarheid van deze inferenties te schatten binnen één compact raamwerk.

Hiroki Sawada, Alexandre Pitti, Mathias Quoy2026-03-05💻 cs

Agile Flight Emerges from Multi-Agent Competitive Racing

Dit artikel toont aan dat multi-agent competitie met een spaarzame 'winnen'-beloning leidt tot het ontstaan van agile vlucht en strategieën die beter presteren en beter overdragen naar de echte wereld dan traditionele single-agent training met gedetailleerde gedragsbeloningen.

Vineet Pasumarti, Lorenzo Bianchi, Antonio Loquercio2026-03-05🤖 cs.AI

TOLEBI: Learning Fault-Tolerant Bipedal Locomotion via Online Status Estimation and Fallibility Rewards

Dit artikel introduceert TOLEBI, een leerframework voor bipedale locomotie dat online statusschatting en beloningen voor foutgevoeligheid combineert om robots zoals TOCABI in staat te stellen om tijdens het lopen hardwarestoringen en externe verstoringen te overwinnen.

Hokyun Lee, Woo-Jeong Baek, Junhyeok Cha + 1 more2026-03-05💻 cs

Aerial Manipulation with Contact-Aware Onboard Perception and Hybrid Control

Dit artikel presenteert een volledig aan boord geïntegreerd perceptie- en besturingssysteem voor contactrijke luchtmanipulatie dat, zonder gebruik van externe bewegingsopname, nauwkeurige bewegingstracking en gereguleerde contactkrachten mogelijk maakt door middel van een geavanceerde visueel-inertiale odometrie en een hybride kracht-bewegingsregelaar.

Yuanzhu Zhan, Yufei Jiang, Muqing Cao + 1 more2026-03-05💻 cs

H-WM: Robotic Task and Motion Planning Guided by Hierarchical World Model

Dit paper introduceert H-WM, een hiërarchisch wereldmodel dat logische en visuele state-transities in één raamwerk combineert om robuuste, op lange termijn robotplanning en -controle mogelijk te maken door de voordelen van symbolisch redeneren te integreren met visuele gronding.

Jinbang Huang, Wenyuan Chen, Zhiyuan Li + 9 more2026-03-05💻 cs

Learning Physical Principles from Interaction: Self-Evolving Planning via Test-Time Memory

Deze paper introduceert PhysMem, een geheugenframework dat het mogelijk maakt voor robotplanners op basis van vision-language modellen om tijdens de uitvoering fysische principes te leren van interacties zonder modelparameters bij te werken, waarbij hypothesen eerst worden geverifieerd voordat ze worden toegepast om de succeskans bij objectmanipulatie significant te verhogen.

Haoyang Li, Yang You, Hao Su + 1 more2026-03-05🤖 cs.AI

FlowCorrect: Efficient Interactive Correction of Generative Flow Policies for Robotic Manipulation

FlowCorrect is een modulaire, interactieve imitatieleerbenadering die generatieve flow-matching beleidsregels voor robotmanipulatie tijdens de uitvoering efficiënt aanpast aan nieuwe situaties door gebruik te maken van menselijke correcties via een VR-interface, zonder dat het onderliggende model opnieuw getraind hoeft te worden.

Edgar Welte, Yitian Shi, Rosa Wolf + 2 more2026-03-05🤖 cs.LG

LiteVLA-Edge: Quantized On-Device Multimodal Control for Embedded Robotics

Dit paper introduceert LiteVLA-Edge, een geoptimaliseerde VLA-pijplijn die middels 4-bits kwantisatie en GPU-versnelling real-time, offline multimodale besturing op ingebouwde Jetson Orin-hardware mogelijk maakt met een latentie van ongeveer 150 ms.

Justin Williams, Kishor Datta Gupta, Roy George + 1 more2026-03-05🤖 cs.AI

Multi-Agent-Based Simulation of Archaeological Mobility in Uneven Landscapes

Deze paper presenteert een multi-agent-simulatieframework dat, door gebruik te maken van versterkingslering en realistisch terreinmodel, de mobiliteit van diverse menselijke en dierlijke groepen in ongelijkmatige archeologische landschappen analyseert om inzicht te krijgen in historische transportstrategieën en ruimtelijke organisatie.

Chairi Kiourt, Vassilis Evangelidis, Dimitris Grigoropoulos2026-03-05🤖 cs.AI

Phys4D: Fine-Grained Physics-Consistent 4D Modeling from Video Diffusion

Dit paper introduceert Phys4D, een drie-traps trainingsparadigma dat videodiffusiemodellen omzet in fysisch consistente 4D-wereldrepresentaties door gebruik te maken van pseudo-supervisie, gesimuleerde data en versterkingsleer om de fysieke plausibiliteit en spatiotemporale coherentie aanzienlijk te verbeteren.

Haoran Lu, Shang Wu, Jianshu Zhang + 9 more2026-03-05🤖 cs.AI

← Vorige Volgende →