FlowTouch: View-Invariant Visuo-Tactile Prediction

FlowTouch es un modelo novedoso que utiliza mallas 3D locales y modelos de flujo de correspondencia para predecir patrones táctiles a partir de información visual de manera invariante a la vista, logrando así generalizar entre diferentes configuraciones de sensores y cerrar la brecha entre simulación y realidad.

Seongjin Bien, Carlo Kneissl, Tobias Jülg, Frank Fundel, Thomas Ressler-Antal, Florian Walter, Björn Ommer, Gitta Kutyniok, Wolfram Burgard2026-03-10🤖 cs.LG

Seed2Scale: A Self-Evolving Data Engine for Embodied AI via Small to Large Model Synergy and Multimodal Evaluation

El artículo presenta Seed2Scale, un motor de datos autoevolutivo que supera las limitaciones de los métodos actuales mediante la sinergia de modelos pequeños para la recolección y grandes modelos para la evaluación, logrando un aumento del 131,2% en el rendimiento de modelos de IA corporativa generalista a partir de solo cuatro demostraciones iniciales.

Cong Tai, Zhaoyu Zheng, Haixu Long, Hansheng Wu, Zhengbin Long, Haodong Xiang, Rong Shi, Zhuo Cui, Shizhuang Zhang, Gang Qiu, He Wang, Ruifeng Li, Biao Liu, Zhenzhe Sun, Tao Shen2026-03-10💻 cs

EndoSERV: A Vision-based Endoluminal Robot Navigation System

El artículo presenta EndoSERV, un sistema de navegación robótica endoluminal basado en visión que supera los desafíos de localización en anatomías complejas mediante un enfoque de segmentación-estructura y mapeo real-virtual, utilizando aprendizaje por transferencia y entrenamiento en dos fases para lograr una precisión robusta sin necesidad de etiquetas de pose reales.

Junyang Wu, Fangfang Xie, Minghui Zhang, Hanxiao Zhang, Jiayuan Sun, Yun Gu, Guang-Zhong Yang2026-03-10💻 cs

Hierarchical Multi-Modal Planning for Fixed-Altitude Sparse Target Search and Sampling

Este trabajo presenta HIMoS, un marco de planificación jerárquica multi-modal que permite a los vehículos submarinos autónomos buscar y muestrear eficientemente corales dispersos manteniendo una altitud fija, integrando sensores heterogéneos y optimización de rutas para superar las ineficiencias energéticas de las estrategias tradicionales.

Lingpeng Chen, Yuchen Zheng, Apple Pui-Yi Chui, Junfeng Wu, Ziyang Hong2026-03-10💻 cs

PhaForce: Phase-Scheduled Visual-Force Policy Learning with Slow Planning and Fast Correction for Contact-Rich Manipulation

PhaForce es una política de aprendizaje visuomotor que coordina la planificación de baja frecuencia con correcciones de alta frecuencia mediante un programa de fases basado en contacto, logrando un rendimiento superior en tareas de manipulación rica en contacto al integrar eficazmente la retroalimentación de fuerza y visión.

Mingxin Wang, Zhirun Yue, Renhao Lu, Yizhe Li, Zihan Wang, Guoping Pan, Kangkang Dong, Jun Cheng, Yi Cheng, Houde Liu2026-03-10💻 cs

MoMaStage: Skill-State Graph Guided Planning and Closed-Loop Execution for Long-Horizon Indoor Mobile Manipulation

MoMaStage es un marco estructurado de visión-idioma que utiliza un grafo de estado-habilidad topológicamente consciente y una ejecución en bucle cerrado para lograr una manipulación móvil de largo alcance robusta y lógicamente consistente sin necesidad de mapeo explícito del entorno.

Chenxu Li, Zixuan Chen, Yetao Li, Jiapeng Xu, Hongyu Ding, Jieqi Shi, Jing Huo, Yang Gao2026-03-10💻 cs

StructBiHOI: Structured Articulation Modeling for Long--Horizon Bimanual Hand--Object Interaction Generation

El artículo presenta StructBiHOI, un marco de modelado articulado estructurado que combina un jointVAE para la planificación temporal a largo plazo y un maniVAE para el refinamiento de poses, utilizando un difusor basado en Mamba para generar interacciones bimanuales mano-objeto coherentes, físicamente plausibles y estables en secuencias extensas.

Zhi Wang, Liu Liu, Ruonan Liu, Dan Guo, Meng Wang2026-03-10💻 cs

Tactile Recognition of Both Shapes and Materials with Automatic Feature Optimization-Enabled Meta Learning

Este artículo presenta el marco AFOP-ML, una red prototípica habilitada para la optimización automática de características que utiliza aprendizaje meta para reconocer formas y materiales mediante percepción táctil con pocos ejemplos, logrando un alto rendimiento incluso en escenarios extremos de escasez de datos.

Hongliang Zhao, Wenhui Yang, Yang Chen, Zhuorui Wang, Baiheng Liu, Longhui Qin2026-03-10💻 cs

FoMo: A Multi-Season Dataset for Robot Navigation in Forêt Montmorency

El artículo presenta FoMo, un conjunto de datos multitemporal de un año en un bosque boreal que incluye más de 64 km de trayectorias con cambios estacionales extremos y múltiples sensores, diseñado para evaluar y demostrar la vulnerabilidad de los sistemas actuales de navegación robótica ante variaciones ambientales significativas.

Matej Boxan, Gabriel Jeanson, Alexander Krawciw, Effie Daum, Xinyuan Qiao, Sven Lilge, Timothy D. Barfoot, François Pomerleau2026-03-10💻 cs

Adaptive Entropy-Driven Sensor Selection in a Camera-LiDAR Particle Filter for Single-Vessel Tracking

Este artículo presenta un sistema de seguimiento de embarcaciones que fusiona datos de cámaras y LiDAR mediante un filtro de partículas con una política de selección de sensores adaptativa basada en la entropía, demostrando en un puerto real de Chipre que esta estrategia optimiza el equilibrio entre precisión y continuidad al activar dinámicamente el sensor más informativo según las condiciones ambientales.

Andrei Starodubov, Yaqub Aris Prabowo, Andreas Hadjipieris, Ioannis Kyriakides, Roberto Galeazzi2026-03-10🤖 cs.LG

R2F: Repurposing Ray Frontiers for LLM-free Object Navigation

El artículo presenta R2F, un marco de navegación de objetos sin LLM que reinterpreta los frentes de rayo como hipótesis semánticas direccionales para lograr un rendimiento competitivo en tiempo real, eliminando la sobrecarga computacional de los modelos de lenguaje grandes.

Francesco Argenziano, John Mark Alexis Marcelo, Michele Brienza, Abdel Hakim Drid, Emanuele Musumeci, Daniele Nardi, Domenico D. Bloisi, Vincenzo Suriani2026-03-10💻 cs

LAR-MoE: Latent-Aligned Routing for Mixture of Experts in Robotic Imitation Learning

El artículo presenta LAR-MoE, un marco de dos etapas que utiliza un espacio latente alineado para guiar el enrutamiento de expertos en el aprendizaje por imitación robótica, permitiendo una especialización estructurada sin necesidad de anotaciones de fases y logrando un alto rendimiento tanto en simulación como en tareas quirúrgicas reales.

Ariel Rodriguez, Chenpan Li, Lorenzo Mazza, Rayan Younis, Ortrun Hellig, Sebastian Bodenstedt, Martin Wagner, Stefanie Speidel2026-03-10💻 cs

3PoinTr: 3D Point Tracks for Robot Manipulation Pretraining from Casual Videos

El paper presenta 3PoinTr, un método que utiliza un transformador para preentrenar políticas de manipulación robótica a partir de videos humanos casuales mediante el seguimiento de puntos 3D, logrando una generalización espacial robusta con solo 20 demostraciones etiquetadas y superando a los métodos existentes al cerrar la brecha de encarnación.

Adam Hung, Bardienus Pieter Duisterhof, Jeffrey Ichnowski2026-03-10💻 cs