cs.RO artículos | Gist.Science

FlowTouch: View-Invariant Visuo-Tactile Prediction

FlowTouch es un modelo novedoso que utiliza mallas 3D locales y modelos de flujo de correspondencia para predecir patrones táctiles a partir de información visual de manera invariante a la vista, logrando así generalizar entre diferentes configuraciones de sensores y cerrar la brecha entre simulación y realidad.

Seongjin Bien, Carlo Kneissl, Tobias Jülg, Frank Fundel, Thomas Ressler-Antal, Florian Walter, Björn Ommer, Gitta Kutyniok, Wolfram Burgard2026-03-10🤖 cs.LG

Seed2Scale: A Self-Evolving Data Engine for Embodied AI via Small to Large Model Synergy and Multimodal Evaluation

El artículo presenta Seed2Scale, un motor de datos autoevolutivo que supera las limitaciones de los métodos actuales mediante la sinergia de modelos pequeños para la recolección y grandes modelos para la evaluación, logrando un aumento del 131,2% en el rendimiento de modelos de IA corporativa generalista a partir de solo cuatro demostraciones iniciales.

Cong Tai, Zhaoyu Zheng, Haixu Long, Hansheng Wu, Zhengbin Long, Haodong Xiang, Rong Shi, Zhuo Cui, Shizhuang Zhang, Gang Qiu, He Wang, Ruifeng Li, Biao Liu, Zhenzhe Sun, Tao Shen2026-03-10💻 cs

SAIL: Test-Time Scaling for In-Context Imitation Learning with VLM

El paper presenta SAIL, un marco que mejora el aprendizaje por imitación en contexto para robots mediante la redefinición de la generación de trayectorias como un problema de refinamiento iterativo escalable en tiempo de prueba utilizando búsqueda en árbol Monte Carlo, lo que permite alcanzar tasas de éxito de hasta el 95% en tareas complejas.

Makoto Sato, Yusuke Iwasawa, Yujin Tang, So Kuroki2026-03-10💻 cs

Less is More: Robust Zero-Communication 3D Pursuit-Evasion via Representational Parsimony

Este artículo demuestra que la eliminación de canales de comunicación redundantes y el uso de una asignación de crédito local en entornos de persecución-evasión 3D mejoran la robustez y el rendimiento en comparación con enfoques que dependen de información más rica y acoplada.

Jialin Ying, Zhihao Li, Zicheng Dong, Guohua Wu, Yihuan Liao2026-03-10💻 cs

EndoSERV: A Vision-based Endoluminal Robot Navigation System

El artículo presenta EndoSERV, un sistema de navegación robótica endoluminal basado en visión que supera los desafíos de localización en anatomías complejas mediante un enfoque de segmentación-estructura y mapeo real-virtual, utilizando aprendizaje por transferencia y entrenamiento en dos fases para lograr una precisión robusta sin necesidad de etiquetas de pose reales.

Junyang Wu, Fangfang Xie, Minghui Zhang, Hanxiao Zhang, Jiayuan Sun, Yun Gu, Guang-Zhong Yang2026-03-10💻 cs

Hierarchical Multi-Modal Planning for Fixed-Altitude Sparse Target Search and Sampling

Este trabajo presenta HIMoS, un marco de planificación jerárquica multi-modal que permite a los vehículos submarinos autónomos buscar y muestrear eficientemente corales dispersos manteniendo una altitud fija, integrando sensores heterogéneos y optimización de rutas para superar las ineficiencias energéticas de las estrategias tradicionales.

Lingpeng Chen, Yuchen Zheng, Apple Pui-Yi Chui, Junfeng Wu, Ziyang Hong2026-03-10💻 cs

PhaForce: Phase-Scheduled Visual-Force Policy Learning with Slow Planning and Fast Correction for Contact-Rich Manipulation

PhaForce es una política de aprendizaje visuomotor que coordina la planificación de baja frecuencia con correcciones de alta frecuencia mediante un programa de fases basado en contacto, logrando un rendimiento superior en tareas de manipulación rica en contacto al integrar eficazmente la retroalimentación de fuerza y visión.

Mingxin Wang, Zhirun Yue, Renhao Lu, Yizhe Li, Zihan Wang, Guoping Pan, Kangkang Dong, Jun Cheng, Yi Cheng, Houde Liu2026-03-10💻 cs

Perception-Aware Communication-Free Multi-UAV Coordination in the Wild

Este artículo presenta un método de coordinación multi-robot sin comunicación que utiliza sensores LiDAR 3D a bordo y un marco de navegación consciente de la percepción para permitir una navegación segura y escalable en entornos complejos sin cobertura GNSS, como bosques densos.

Manuel Boldrer, Michal Kamler, Afzal Ahmad, Martin Saska2026-03-10💻 cs

MoMaStage: Skill-State Graph Guided Planning and Closed-Loop Execution for Long-Horizon Indoor Mobile Manipulation

MoMaStage es un marco estructurado de visión-idioma que utiliza un grafo de estado-habilidad topológicamente consciente y una ejecución en bucle cerrado para lograr una manipulación móvil de largo alcance robusta y lógicamente consistente sin necesidad de mapeo explícito del entorno.

Chenxu Li, Zixuan Chen, Yetao Li, Jiapeng Xu, Hongyu Ding, Jieqi Shi, Jing Huo, Yang Gao2026-03-10💻 cs

StructBiHOI: Structured Articulation Modeling for Long--Horizon Bimanual Hand--Object Interaction Generation

El artículo presenta StructBiHOI, un marco de modelado articulado estructurado que combina un jointVAE para la planificación temporal a largo plazo y un maniVAE para el refinamiento de poses, utilizando un difusor basado en Mamba para generar interacciones bimanuales mano-objeto coherentes, físicamente plausibles y estables en secuencias extensas.

Zhi Wang, Liu Liu, Ruonan Liu, Dan Guo, Meng Wang2026-03-10💻 cs

A Recipe for Stable Offline Multi-agent Reinforcement Learning

Este trabajo aborda la inestabilidad de la descomposición no lineal de valores en el aprendizaje por refuerzo multiagente fuera de línea proponiendo la normalización de valores invariante a la escala (SVN) y derivando una receta práctica que estabiliza el entrenamiento y desbloquea el potencial completo de este paradigma.

Dongsu Lee, Daehee Lee, Amy Zhang2026-03-10🤖 cs.LG

Human-Aware Robot Behaviour in Self-Driving Labs

Este estudio presenta un método de percepción impulsado por IA con un modelo jerárquico de predicción de intenciones humanas que permite a los robots móviles en laboratorios autónomos anticipar las acciones de los investigadores para facilitar interacciones proactivas y mejorar la eficiencia en entornos compartidos.

Satheeshkumar Veeramani, Anna Kisil, Abigail Bentley, Hatem Fakhruldeen, Gabriella Pizzuto, Andrew I. Cooper2026-03-10💻 cs

Tactile Recognition of Both Shapes and Materials with Automatic Feature Optimization-Enabled Meta Learning

Este artículo presenta el marco AFOP-ML, una red prototípica habilitada para la optimización automática de características que utiliza aprendizaje meta para reconocer formas y materiales mediante percepción táctil con pocos ejemplos, logrando un alto rendimiento incluso en escenarios extremos de escasez de datos.

Hongliang Zhao, Wenhui Yang, Yang Chen, Zhuorui Wang, Baiheng Liu, Longhui Qin2026-03-10💻 cs

FoMo: A Multi-Season Dataset for Robot Navigation in Forêt Montmorency

El artículo presenta FoMo, un conjunto de datos multitemporal de un año en un bosque boreal que incluye más de 64 km de trayectorias con cambios estacionales extremos y múltiples sensores, diseñado para evaluar y demostrar la vulnerabilidad de los sistemas actuales de navegación robótica ante variaciones ambientales significativas.

Matej Boxan, Gabriel Jeanson, Alexander Krawciw, Effie Daum, Xinyuan Qiao, Sven Lilge, Timothy D. Barfoot, François Pomerleau2026-03-10💻 cs

Adaptive Entropy-Driven Sensor Selection in a Camera-LiDAR Particle Filter for Single-Vessel Tracking

Este artículo presenta un sistema de seguimiento de embarcaciones que fusiona datos de cámaras y LiDAR mediante un filtro de partículas con una política de selección de sensores adaptativa basada en la entropía, demostrando en un puerto real de Chipre que esta estrategia optimiza el equilibrio entre precisión y continuidad al activar dinámicamente el sensor más informativo según las condiciones ambientales.

Andrei Starodubov, Yaqub Aris Prabowo, Andreas Hadjipieris, Ioannis Kyriakides, Roberto Galeazzi2026-03-10🤖 cs.LG

R2F: Repurposing Ray Frontiers for LLM-free Object Navigation

El artículo presenta R2F, un marco de navegación de objetos sin LLM que reinterpreta los frentes de rayo como hipótesis semánticas direccionales para lograr un rendimiento competitivo en tiempo real, eliminando la sobrecarga computacional de los modelos de lenguaje grandes.

Francesco Argenziano, John Mark Alexis Marcelo, Michele Brienza, Abdel Hakim Drid, Emanuele Musumeci, Daniele Nardi, Domenico D. Bloisi, Vincenzo Suriani2026-03-10💻 cs

LAR-MoE: Latent-Aligned Routing for Mixture of Experts in Robotic Imitation Learning

El artículo presenta LAR-MoE, un marco de dos etapas que utiliza un espacio latente alineado para guiar el enrutamiento de expertos en el aprendizaje por imitación robótica, permitiendo una especialización estructurada sin necesidad de anotaciones de fases y logrando un alto rendimiento tanto en simulación como en tareas quirúrgicas reales.

Ariel Rodriguez, Chenpan Li, Lorenzo Mazza, Rayan Younis, Ortrun Hellig, Sebastian Bodenstedt, Martin Wagner, Stefanie Speidel2026-03-10💻 cs

STRIDE: Structured Lagrangian and Stochastic Residual Dynamics via Flow Matching

El artículo presenta STRIDE, un marco de aprendizaje de dinámica robótica que combina redes neuronales lagrangianas para la mecánica conservadora y el emparejamiento de flujos condicionales para modelar interacciones estocásticas, logrando una mayor precisión en la predicción a largo plazo y de fuerzas de contacto en entornos inciertos.

Prakrut Kotecha, Ganga Nair B, Shishir Kolathaya2026-03-10🤖 cs.LG

3PoinTr: 3D Point Tracks for Robot Manipulation Pretraining from Casual Videos

El paper presenta 3PoinTr, un método que utiliza un transformador para preentrenar políticas de manipulación robótica a partir de videos humanos casuales mediante el seguimiento de puntos 3D, logrando una generalización espacial robusta con solo 20 demostraciones etiquetadas y superando a los métodos existentes al cerrar la brecha de encarnación.

Adam Hung, Bardienus Pieter Duisterhof, Jeffrey Ichnowski2026-03-10💻 cs

The Neural Compass: Probabilistic Relative Feature Fields for Robotic Search

Este trabajo presenta ProReFF, un modelo que aprende distribuciones relativas de características a partir de observaciones no etiquetadas para guiar agentes robóticos en la búsqueda de objetos, logrando una eficiencia un 20% superior a la de las mejores bases de comparación y alcanzando hasta el 80% del rendimiento humano.

Gabriele Somaschini, Adrian Röfer, Abhinav Valada2026-03-10🤖 cs.LG

← Anterior Siguiente →