cs.RO articles | Gist.Science

FlowTouch: View-Invariant Visuo-Tactile Prediction

Ce papier présente FlowTouch, un modèle novateur de prédiction visuo-tactile invariant au point de vue qui utilise la reconstruction de maillages 3D locaux et le Flow Matching pour générer des images tactiles à partir de données visuelles, comblant ainsi l'écart sim-to-real et permettant une prédiction de stabilité de préhension.

Seongjin Bien, Carlo Kneissl, Tobias Jülg, Frank Fundel, Thomas Ressler-Antal, Florian Walter, Björn Ommer, Gitta Kutyniok, Wolfram Burgard2026-03-10🤖 cs.LG

Seed2Scale: A Self-Evolving Data Engine for Embodied AI via Small to Large Model Synergy and Multimodal Evaluation

Seed2Scale est un moteur de données auto-évoluant qui surmonte les goulots d'étranglement de la génération de données pour l'IA incarnée en exploitant la synergie entre un petit modèle collecteur et un grand modèle évaluateur pour transformer quatre démonstrations initiales en un apprentissage itératif robuste, augmentant ainsi les performances de 131,2 %.

Cong Tai, Zhaoyu Zheng, Haixu Long, Hansheng Wu, Zhengbin Long, Haodong Xiang, Rong Shi, Zhuo Cui, Shizhuang Zhang, Gang Qiu, He Wang, Ruifeng Li, Biao Liu, Zhenzhe Sun, Tao Shen2026-03-10💻 cs

SAIL: Test-Time Scaling for In-Context Imitation Learning with VLM

Le papier présente SAIL, un cadre d'apprentissage par imitation qui reformule la génération de trajectoires comme un problème de raffinement itératif guidé par une recherche arborescente Monte Carlo et des modèles vision-langage, permettant d'améliorer significativement les taux de réussite des robots grâce à une augmentation de la puissance de calcul au moment du test.

Makoto Sato, Yusuke Iwasawa, Yujin Tang, So Kuroki2026-03-10💻 cs

Less is More: Robust Zero-Communication 3D Pursuit-Evasion via Representational Parsimony

Cet article démontre que la réduction de la complexité des représentations et l'adoption d'une architecture sans communication améliorent la robustesse et la coordination des agents dans des scénarios de poursuite-évasion 3D asymétrique en milieux encombrés.

Jialin Ying, Zhihao Li, Zicheng Dong, Guohua Wu, Yihuan Liao2026-03-10💻 cs

EndoSERV: A Vision-based Endoluminal Robot Navigation System

Le papier présente EndoSERV, un système de navigation robotique endoluminale basé sur la vision qui surmonte les défis de déformation tissulaire et de manque de repères grâce à une méthode de localisation combinant la segmentation par sous-structures et une cartographie réel-vers-virtuel pour un apprentissage sans étiquettes de pose réelles.

Junyang Wu, Fangfang Xie, Minghui Zhang, Hanxiao Zhang, Jiayuan Sun, Yun Gu, Guang-Zhong Yang2026-03-10💻 cs

Hierarchical Multi-Modal Planning for Fixed-Altitude Sparse Target Search and Sampling

Ce papier présente HIMoS, un cadre de planification hiérarchique multi-modal à altitude fixe qui optimise la recherche et l'échantillonnage de coraux épars par des véhicules sous-marins autonomes en intégrant une planification stratégique de routes topologiques et une planification tactique locale basée sur la propagation de croyances différentiables, surpassant ainsi les méthodes existantes en efficacité énergétique et de mission.

Lingpeng Chen, Yuchen Zheng, Apple Pui-Yi Chui, Junfeng Wu, Ziyang Hong2026-03-10💻 cs

PhaForce: Phase-Scheduled Visual-Force Policy Learning with Slow Planning and Fast Correction for Contact-Rich Manipulation

Le papier présente PhaForce, une politique visuelle-force planifiée par phases qui combine un planificateur lent et un correcteur rapide pour améliorer la manipulation riche en contacts grâce à une fusion coordonnée de la vision et des forces, atteignant un taux de réussite moyen de 86 % sur des robots réels.

Mingxin Wang, Zhirun Yue, Renhao Lu, Yizhe Li, Zihan Wang, Guoping Pan, Kangkang Dong, Jun Cheng, Yi Cheng, Houde Liu2026-03-10💻 cs

Perception-Aware Communication-Free Multi-UAV Coordination in the Wild

Cet article présente une méthode de coordination multi-robots sans communication, basée sur des capteurs LiDAR 3D anisotropes et un cadre de navigation perceptif, permettant une navigation sûre et efficace en milieu complexe sans GNSS, comme les forêts denses.

Manuel Boldrer, Michal Kamler, Afzal Ahmad, Martin Saska2026-03-10💻 cs

MoMaStage: Skill-State Graph Guided Planning and Closed-Loop Execution for Long-Horizon Indoor Mobile Manipulation

Le papier présente MoMaStage, un cadre vision-langage structuré qui utilise un graphe d'états-compétences et une exécution en boucle fermée pour permettre une planification robuste et cohérente de tâches de manipulation mobile sur de longues horizons sans cartographie explicite.

Chenxu Li, Zixuan Chen, Yetao Li, Jiapeng Xu, Hongyu Ding, Jieqi Shi, Jing Huo, Yang Gao2026-03-10💻 cs

StructBiHOI: Structured Articulation Modeling for Long--Horizon Bimanual Hand--Object Interaction Generation

Le papier propose StructBiHOI, un cadre de modélisation articulaire structurée qui, en découplant la planification temporelle des articulations de l'affinement des poses et en utilisant un débruiteur diffusion inspiré de Mamba, permet une génération stable et réaliste d'interactions main-objet bimanuelles à long horizon.

Zhi Wang, Liu Liu, Ruonan Liu, Dan Guo, Meng Wang2026-03-10💻 cs

A Recipe for Stable Offline Multi-agent Reinforcement Learning

Cet article propose une méthode de normalisation des valeurs invariante à l'échelle (SVN) pour stabiliser l'apprentissage par renforcement multi-agents hors ligne et établit une recette pratique permettant de débloquer son plein potentiel.

Dongsu Lee, Daehee Lee, Amy Zhang2026-03-10🤖 cs.LG

Human-Aware Robot Behaviour in Self-Driving Labs

Cette étude propose une méthode de perception pilotée par l'IA, intégrant un modèle hiérarchique de prédiction des intentions humaines, permettant aux robots mobiles de laboratoires autonomes d'anticiper les interactions et d'optimiser la coordination avec les chercheurs dans des environnements partagés.

Satheeshkumar Veeramani, Anna Kisil, Abigail Bentley, Hatem Fakhruldeen, Gabriella Pizzuto, Andrew I. Cooper2026-03-10💻 cs

Tactile Recognition of Both Shapes and Materials with Automatic Feature Optimization-Enabled Meta Learning

Cet article présente le cadre AFOP-ML, un réseau de type prototypique permettant l'apprentissage méta avec optimisation automatique des caractéristiques, qui améliore considérablement la reconnaissance tactile des formes et des matériaux avec très peu d'exemples en surmontant les défis liés à la rareté des données.

Hongliang Zhao, Wenhui Yang, Yang Chen, Zhuorui Wang, Baiheng Liu, Longhui Qin2026-03-10💻 cs

FoMo: A Multi-Season Dataset for Robot Navigation in Forêt Montmorency

Le jeu de données FoMo, enregistré sur un an dans la forêt Montmorency, offre une collection multi-saisonnière complète de capteurs et de vérité terrain pour évaluer la robustesse des systèmes de navigation robotique face à des changements environnementaux extrêmes comme l'accumulation de neige et la croissance de la végétation.

Matej Boxan, Gabriel Jeanson, Alexander Krawciw, Effie Daum, Xinyuan Qiao, Sven Lilge, Timothy D. Barfoot, François Pomerleau2026-03-10💻 cs

Adaptive Entropy-Driven Sensor Selection in a Camera-LiDAR Particle Filter for Single-Vessel Tracking

Cet article présente un algorithme de suivi maritime adaptatif par filtre particulaire qui fusionne des données caméra et LiDAR en sélectionnant dynamiquement le capteur le plus informatif via une politique de réduction d'entropie, validé par des essais réels à Chypre démontrant une meilleure résilience et un compromis optimal entre précision et continuité.

Andrei Starodubov, Yaqub Aris Prabowo, Andreas Hadjipieris, Ioannis Kyriakides, Roberto Galeazzi2026-03-10🤖 cs.LG

R2F: Repurposing Ray Frontiers for LLM-free Object Navigation

Ce papier propose R2F, un cadre de navigation d'objets en intérieur sans LLM qui repurposant les frontières de rayons pour générer des hypothèses sémantiques directionnelles, permettant ainsi une exécution en temps réel avec des performances compétitives par rapport aux méthodes basées sur des modèles de grande taille.

Francesco Argenziano, John Mark Alexis Marcelo, Michele Brienza, Abdel Hakim Drid, Emanuele Musumeci, Daniele Nardi, Domenico D. Bloisi, Vincenzo Suriani2026-03-10💻 cs

LAR-MoE: Latent-Aligned Routing for Mixture of Experts in Robotic Imitation Learning

Ce papier présente LAR-MoE, un cadre d'apprentissage par imitation en deux étapes qui découvre des compétences de manière non supervisée via un espace latent aligné pour router efficacement des experts spécialisés, permettant ainsi aux robots de maîtriser des tâches dynamiques hétérogènes sans nécessiter d'annotations de phases.

Ariel Rodriguez, Chenpan Li, Lorenzo Mazza, Rayan Younis, Ortrun Hellig, Sebastian Bodenstedt, Martin Wagner, Stefanie Speidel2026-03-10💻 cs

STRIDE: Structured Lagrangian and Stochastic Residual Dynamics via Flow Matching

Le papier présente STRIDE, un cadre d'apprentissage dynamique qui sépare la mécanique rigide conservatrice modélisée par un réseau de neurones lagrangien des effets d'interaction stochastiques capturés par l'appariement de flux conditionnel, afin d'améliorer la précision des prédictions et la fiabilité du contrôle pour les robots opérant dans des environnements incertains.

Prakrut Kotecha, Ganga Nair B, Shishir Kolathaya2026-03-10🤖 cs.LG

3PoinTr: 3D Point Tracks for Robot Manipulation Pretraining from Casual Videos

Le papier présente 3PoinTr, une méthode de préentraînement de politiques robotiques à partir de vidéos humaines informelles qui utilise des trajectoires de points 3D comme représentation intermédiaire pour surmonter l'écart d'incarnation et permettre un apprentissage efficace avec un nombre très limité de démonstrations robotiques.

Adam Hung, Bardienus Pieter Duisterhof, Jeffrey Ichnowski2026-03-10💻 cs

The Neural Compass: Probabilistic Relative Feature Fields for Robotic Search

Cet article présente ProReFF, un modèle de champ de caractéristiques probabiliste qui apprend implicitement les co-occurrences d'objets à partir de données non étiquetées pour guider efficacement un agent robotique dans la recherche d'objets, atteignant jusqu'à 80 % des performances humaines.

Gabriele Somaschini, Adrian Röfer, Abhinav Valada2026-03-10🤖 cs.LG

← Précédent Suivant →