cs.RO articles | Gist.Science

Fine-Tuning Robot Policies While Maintaining User Privacy

Ce papier présente PRoP, un cadre agnostique au modèle qui permet de personnaliser les politiques robotiques tout en préservant la vie privée des utilisateurs grâce à l'utilisation de clés uniques pour transformer mathématiquement les poids du réseau, empêchant ainsi la divulgation des préférences personnelles à des agents non autorisés.

Benjamin A. Christie, Sagar Parekh, Dylan P. Losey2026-03-05💻 cs

Category-Level Object Shape and Pose Estimation in Less Than a Millisecond

Cet article présente une méthode rapide et certifiée d'optimisation globale pour l'estimation simultanée de la forme et de la pose d'objets à partir d'images RGB-D et de priors catégoriels, capable de s'exécuter en moins d'une milliseconde grâce à une itération de champ auto-cohérent.

Lorenzo Shaikewitz, Tim Nguyen, Luca Carlone2026-03-05💻 cs

RehearseVLA: Simulated Post-Training for VLAs with Physically-Consistent World Model

Le papier présente RehearseVLA, un cadre d'entraînement postérieur basé sur l'apprentissage par renforcement qui utilise un simulateur de monde virtuel physiquement cohérent et un réflecteur guidé par un modèle vision-langage pour surmonter les limitations de données et de sécurité des modèles VLA traditionnels, permettant ainsi un apprentissage efficace avec très peu de démonstrations expertes.

Junjin Xiao, Yandan Yang, Xinyuan Chang + 5 more2026-03-05💻 cs

ELMUR: External Layer Memory with Update/Rewrite for Long-Horizon RL Problems

Le papier présente ELMUR, une architecture de transformateur dotée d'une mémoire externe structurée et mise à jour localement par couche, qui résout efficacement les problèmes d'apprentissage par renforcement à long horizon et sous observabilité partielle en surpassant significativement les méthodes de référence sur des tâches robotiques complexes.

Egor Cherepanov, Alexey K. Kovalev, Aleksandr I. Panov2026-03-05🤖 cs.AI

TIGeR: Tool-Integrated Geometric Reasoning in Vision-Language Models for Robotics

Ce papier présente TIGeR, un cadre novateur qui améliore la précision géométrique des modèles vision-langage pour la robotique en leur permettant de générer et d'exécuter du code via des outils externes, surpassant ainsi les limitations des approches purement qualitatives pour atteindre une précision centimétrique dans les tâches de manipulation réelle.

Yi Han, Enshen Zhou, Shanyu Rong + 6 more2026-03-05🤖 cs.AI

LaViRA: Language-Vision-Robot Actions Translation for Zero-Shot Vision Language Navigation in Continuous Environments

LaViRA est un cadre de navigation vision-langage en environnement continu sans apprentissage préalable qui surpasse les méthodes actuelles en décomposant l'action en une hiérarchie à trois niveaux (planification linguistique, ancrage perceptif visuel et contrôle robotique) pour exploiter efficacement les capacités de différents modèles de langage multimodaux.

Hongyu Ding, Ziming Xu, Yudong Fang + 6 more2026-03-05💻 cs

SoraNav: Adaptive UAV Task-Centric Navigation via Zeroshot VLM Reasoning

Le papier présente SoraNav, un cadre innovant permettant la navigation autonome de drones aériens (UAV) via un raisonnement zero-shot de modèles vision-langage, en comblant le fossé spatial-sémantique grâce à des annotations visuelles multi-modales et une stratégie de décision adaptative pour garantir la faisabilité géométrique dans des environnements 3D complexes.

Hongyu Song, Rishabh Dev Yadav, Cheng Guo + 1 more2026-03-05💻 cs

Dynamic-ICP: Doppler-Aware Iterative Closest Point Registration for Dynamic Scenes

Le papier présente Dynamic-ICP, un cadre d'enregistrement LiDAR FMCW innovant qui exploite les vitesses Doppler pour filtrer les objets dynamiques et améliorer la précision de l'odométrie dans des environnements très mouvementés, surpassant les méthodes de l'état de l'art sans nécessiter de capteurs externes.

Dong Wang, Daniel Casado Herraez, Stefan May + 1 more2026-03-05💻 cs

Metric, inertially aligned monocular state estimation via kinetodynamic priors

Cet article propose une méthode d'estimation d'état monoculaire métrique et alignée inertielle pour les systèmes robotiques flexibles, qui intègre un modèle de déformation-élasticité appris par réseau de neurones et des modèles cinématiques continus pour exploiter les lois physiques et résoudre les problèmes d'échelle métrique et de gravité.

Jiaxin Liu, Min Li, Wanting Xu + 3 more2026-03-05💻 cs

CERNet: Class-Embedding Predictive-Coding RNN for Unified Robot Motion, Recognition, and Confidence Estimation

Cet article présente CERNet, un réseau de neurones récurrent hiérarchique basé sur le codage prédictif qui unifie la génération de mouvements, la reconnaissance d'intentions et l'estimation de confiance chez les robots humanoïdes grâce à un vecteur d'embedding de classe dynamique.

Hiroki Sawada, Alexandre Pitti, Mathias Quoy2026-03-05💻 cs

Agile Flight Emerges from Multi-Agent Competitive Racing

En s'appuyant sur des simulations et des tests réels, cette étude démontre que l'entraînement par compétition multi-agents avec une récompense de tâche sparse (gagner la course) permet d'émerger un vol agile et des stratégies de course supérieures, offrant une meilleure transférabilité vers le monde réel et une plus grande généralisation que les méthodes traditionnelles d'apprentissage en isolation avec des récompenses prescriptives.

Vineet Pasumarti, Lorenzo Bianchi, Antonio Loquercio2026-03-05🤖 cs.AI

TOLEBI: Learning Fault-Tolerant Bipedal Locomotion via Online Status Estimation and Fallibility Rewards

Cet article présente TOLEBI, un cadre d'apprentissage par renforcement innovant qui permet à un robot humanoïde bipède de maintenir sa locomotion en présence de pannes matérielles et de perturbations externes grâce à une estimation en ligne de l'état des articulations et à des récompenses adaptées à la défaillance.

Hokyun Lee, Woo-Jeong Baek, Junhyeok Cha + 1 more2026-03-05💻 cs

Aerial Manipulation with Contact-Aware Onboard Perception and Hybrid Control

Cet article présente une pipeline de perception et de contrôle entièrement embarquée pour la manipulation aérienne, combinant une odométrie visuelle-inertielle augmentée et un contrôle hybride force-position, permettant des tâches de contact précises et stables sans dépendre de systèmes de capture de mouvement externes.

Yuanzhu Zhan, Yufei Jiang, Muqing Cao + 1 more2026-03-05💻 cs

H-WM: Robotic Task and Motion Planning Guided by Hierarchical World Model

Ce papier propose H-WM, un modèle de monde hiérarchique qui unifie la prédiction des états logiques et visuels pour améliorer la planification des tâches robotiques à long terme en combinant la robustesse du raisonnement symbolique avec l'ancrage visuel.

Jinbang Huang, Wenyuan Chen, Zhiyuan Li + 9 more2026-03-05💻 cs

Learning Physical Principles from Interaction: Self-Evolving Planning via Test-Time Memory

Le papier présente PhysMem, un cadre mémoriel permettant aux planificateurs robotiques basés sur des modèles vision-langage d'apprendre et de vérifier des principes physiques par interaction en temps réel sans mise à jour des paramètres, améliorant ainsi significativement la réussite des tâches de manipulation.

Haoyang Li, Yang You, Hao Su + 1 more2026-03-05🤖 cs.AI

FlowCorrect: Efficient Interactive Correction of Generative Flow Policies for Robotic Manipulation

FlowCorrect est une méthode d'apprentissage par imitation interactive et modulaire qui permet d'adapter en temps réel les politiques de manipulation robotique basées sur l'appariement de flux à l'aide de corrections humaines éparses, améliorant ainsi le taux de succès lors du déploiement sans nécessiter de réentraînement du modèle.

Edgar Welte, Yitian Shi, Rosa Wolf + 2 more2026-03-05🤖 cs.LG

LiteVLA-Edge: Quantized On-Device Multimodal Control for Embedded Robotics

Ce papier présente LiteVLA-Edge, une pipeline de déploiement optimisée permettant l'inférence entièrement locale et en temps réel de modèles Vision-Language-Action sur du matériel robotique embarqué de type Jetson Orin grâce à une quantification 4-bit et une intégration ROS 2.

Justin Williams, Kishor Datta Gupta, Roy George + 1 more2026-03-05🤖 cs.AI

Multi-Agent-Based Simulation of Archaeological Mobility in Uneven Landscapes

Cet article présente un cadre de modélisation multi-agents intégrant l'apprentissage par renforcement et des données topographiques réalistes pour simuler la mobilité archéologique dans des paysages accidentés, permettant d'analyser l'impact du terrain et de l'hétérogénéité des agents sur les stratégies de déplacement et d'interaction.

Chairi Kiourt, Vassilis Evangelidis, Dimitris Grigoropoulos2026-03-05🤖 cs.AI

Phys4D: Fine-Grained Physics-Consistent 4D Modeling from Video Diffusion

L'article présente Phys4D, une méthode en trois étapes qui transforme les modèles de diffusion vidéo en représentations 4D cohérentes sur le plan physique en combinant un pré-entraînement pseudo-supervisé, un affinage supervisé basé sur la simulation et un apprentissage par renforcement pour corriger les violations physiques résiduelles.

Haoran Lu, Shang Wu, Jianshu Zhang + 9 more2026-03-05🤖 cs.AI

Real-time loosely coupled GNSS and IMU integration via Factor Graph Optimization

Cet article propose une architecture de fusion GNSS/IMU en temps réel basée sur l'optimisation de graphes de facteurs, démontrant un compromis entre disponibilité du service et précision du positionnement dans des environnements urbains complexes.

Radu-Andrei Cioaca, Cristian Rusu, Paul Irofti + 3 more2026-03-05🤖 cs.LG

← Précédent Suivant →