Vision-Augmented On-Track System Identification for Autonomous Racing via Attention-Based Priors and Iterative Neural Correction

Este artículo presenta un marco de identificación de sistemas en pista aumentado por visión para carreras autónomas que combina un prior de fricción derivado de una CNN ligera, un modelo S4 para dinámicas temporales y un algoritmo de Nelder-Mead, logrando una estimación de fricción y extracción de parámetros de neumáticos significativamente más precisa y rápida que los métodos tradicionales.

Zhiping Wu, Cheng Hu, Yiqin Wang, Lei Xie, Hongye SuWed, 11 Ma💻 cs

From Flow to One Step: Real-Time Multi-Modal Trajectory Policies via Implicit Maximum Likelihood Estimation-based Distribution Distillation

Este trabajo propone un marco que utiliza la estimación de máxima verosimilitud implícita para destilar una política experta de flujo condicional en un modelo de un solo paso, logrando así una planificación de trayectorias multimodal en tiempo real con alta frecuencia y robustez para la manipulación robótica.

Ju Dong, Liding Zhang, Lei Zhang, Yu Fu, Kaixin Bai, Zoltan-Csaba Marton, Zhenshan Bing, Zhaopeng Chen, Alois Christian Knoll, Jianwei ZhangWed, 11 Ma🤖 cs.AI

Open-World Motion Forecasting

Este trabajo introduce el primer marco de pronóstico de movimiento de clase incremental en un entorno abierto que, mediante estrategias de autoetiquetado y muestreo de replay, mitiga el olvido catastrófico para predecir trayectorias de agentes dinámicos directamente desde imágenes de cámara, permitiendo la adaptación continua de sistemas de conducción autónoma a nuevas clases de objetos.

Nicolas Schischka, Nikhil Gosala, B Ravi Kiran, Senthil Yogamani, Abhinav ValadaWed, 11 Ma🤖 cs.AI

Stein Variational Ergodic Surface Coverage with SE(3) Constraints

Este trabajo introduce un enfoque de descenso de gradiente variacional de Stein (SVGD) precondicionado en SE(3) para la optimización de trayectorias ergódicas, permitiendo a los robots generar trayectorias que cubren eficazmente superficies complejas en 3D mientras mantienen poses precisas del efector final y respetan las restricciones geométricas.

Jiayun Li, Yufeng Jin, Sangli Teng, Dejian Gong, Georgia ChalvatzakiWed, 11 Ma💻 cs

SEA-Nav: Efficient Policy Learning for Safe and Agile Quadruped Navigation in Cluttered Environments

El artículo presenta SEA-Nav, un marco de aprendizaje por refuerzo que combina funciones de barrera diferenciables, un mecanismo de replay adaptativo y restricciones cinemáticas para lograr una navegación ágil y segura de robots cuadrúpedos en entornos densamente obstruidos, logrando su despliegue físico tras solo minutos de entrenamiento.

Shiyi Chen, Mingye Yang, Haiyan Mao, Jiaqi Zhang, Haiyi Liu, Shuheng He, Debing Zhang, Zihao Qiu, Chun ZhangWed, 11 Ma💻 cs

StyleVLA: Driving Style-Aware Vision Language Action Model for Autonomous Driving

El artículo presenta StyleVLA, un modelo de visión-lenguaje-acción (VLA) basado en física y entrenado con un nuevo conjunto de datos a gran escala, que supera a los modelos propietarios y de última generación al generar trayectorias de conducción autónoma que no solo evitan colisiones, sino que también se adaptan a diversos estilos de conducción y garantizan la viabilidad cinemática.

Yuan Gao, Dengyuan Hua, Mattia Piccinini, Finn Rasmus Schäfer, Korbinian Moller, Lin Li, Johannes BetzWed, 11 Ma💻 cs

Context-Nav: Context-Driven Exploration and Viewpoint-Aware 3D Spatial Reasoning for Instance Navigation

El artículo presenta Context-Nav, un enfoque sin entrenamiento específico que mejora la navegación de instancias mediante la integración de descripciones contextuales completas en la exploración y la verificación de candidatos a través de un razonamiento espacial 3D consciente de la perspectiva, logrando así un rendimiento superior en entornos 3D complejos.

Won Shik Jang, Ue-Hwan KimWed, 11 Ma💻 cs

Beyond Short-Horizon: VQ-Memory for Robust Long-Horizon Manipulation in Non-Markovian Simulation Benchmarks

Este trabajo presenta RuleSafe, un nuevo benchmark de manipulación articulado con tareas no markovianas de largo alcance, y propone VQ-Memory, una representación temporal compacta basada en VQ-VAE que mejora significativamente la planificación y generalización de modelos de visión-idioma-acción en entornos de simulación complejos.

Wang Honghui, Jing Zhi, Ao Jicong, Song Shiji, Li Xuelong, Huang Gao, Bai ChenjiaWed, 11 Ma💻 cs

NS-VLA: Towards Neuro-Symbolic Vision-Language-Action Models

El artículo presenta NS-VLA, un marco neuro-simbólico que integra un codificador simbólico, un solucionador y aprendizaje por refuerzo en línea para superar las limitaciones de los modelos VLA actuales, logrando una mayor eficiencia de datos, generalización cero-shot y capacidad de exploración en tareas de manipulación robótica.

Ziyue Zhu, Shangyang Wu, Shuai Zhao, Zhiqiu Zhao, Shengjie Li, Yi Wang, Fang Li, Haoran LuoWed, 11 Ma💻 cs

Trajectory Optimization for Self-Wrap-Aware Cable-Towed Planar Object Manipulation under Implicit Tension Constraints

Este artículo presenta un marco de optimización de trayectorias que integra explícitamente el auto-envolvente de cables y las restricciones de tensión implícitas para manipular objetos planares deformables, demostrando que la relajación de modo implícito (IMR) supera a los enfoques conservadores al permitir que la evolución del estado genere dinámicamente envolturas que optimizan el par de giro durante las maniobras.

Yu Li, Amin Fakhari, Hamid SadeghianWed, 11 Ma💻 cs

ReTac-ACT: A State-Gated Vision-Tactile Fusion Transformer for Precision Assembly

El artículo presenta ReTac-ACT, un modelo de aprendizaje por imitación que fusiona visión y tacto mediante mecanismos de atención bidireccional, un sistema de gating condicionado a la propiocepción y un objetivo de reconstrucción táctil, logrando un 90% de éxito en tareas de ensamblaje de precisión donde la retroalimentación visual falla debido a oclusiones.

Minchi Ruan, LiangQing Zhou, Hongtong Li, Zongtao Wang, ZhaoMing Lu, Jianwei Zhang, Bin FangWed, 11 Ma💻 cs

SCDP: Learning Humanoid Locomotion from Partial Observations via Mixed-Observation Distillation

El artículo presenta SCDP, un enfoque que utiliza modelos de difusión y entrenamiento con observaciones mixtas para aprender locomoción de humanoides exclusivamente a partir de sensores a bordo, eliminando la necesidad de estimación de estado explícita y logrando un rendimiento robusto tanto en simulación como en un robot real.

Milo Carroll, Tianhu Peng, Lingfan Bao, Chengxu Zhou, Zhibin LiWed, 11 Ma🤖 cs.LG

Towards Terrain-Aware Safe Locomotion for Quadrupedal Robots Using Proprioceptive Sensing

Este trabajo presenta un marco de estimación y control seguro para la locomoción de robots cuadrúpedos en terrenos irregulares utilizando únicamente sensores propioceptivos, el cual genera mapas del terreno y funciones de barrera de control que reducen significativamente el error de estimación y garantizan la seguridad global y local.

Peiyu Yang, Jiatao Ding, Wei Pan, Claudio Semini, Cosimo Della SantinaWed, 11 Ma💻 cs

OTPL-VIO: Robust Visual-Inertial Odometry with Optimal Transport Line Association and Adaptive Uncertainty

El artículo presenta OTPL-VIO, un sistema de odometría visual-inercial estéreo que mejora la precisión y robustez en entornos con baja textura y cambios de iluminación mediante la asociación global de líneas basada en transporte óptimo con descriptores profundos sin entrenamiento y una ponderación adaptativa de la incertidumbre.

Zikun Chen, Wentao Zhao, Yihe Niu, Tianchen Deng, Jingchuan WangWed, 11 Ma💻 cs

DRIFT: Dual-Representation Inter-Fusion Transformer for Automated Driving Perception with 4D Radar Point Clouds

El artículo presenta DRIFT, un modelo transformador de doble representación que fusiona características locales y globales mediante una arquitectura de dos vías para mejorar la percepción en la conducción automatizada utilizando nubes de puntos de radar 4D, superando a los métodos existentes en tareas de detección de objetos y estimación de carreteras.

Siqi Pei, Andras Palffy, Dariu M. GavrilaWed, 11 Ma💻 cs

Robotic Scene Cloning:Advancing Zero-Shot Robotic Scene Adaptation in Manipulation via Visual Prompt Editing

El artículo presenta Robotic Scene Cloning (RSC), un método novedoso que mejora la adaptación cero-shot de robots en entornos reales mediante la edición de trayectorias de operación existentes y la generación de muestras visualmente coherentes, logrando así una generalización de políticas más robusta sin necesidad de recopilación de datos extensa.

Binyuan Huang, Yuqing Wen, Yucheng Zhao, Yaosi Hu, Tiancai Wang, Chang Wen Chen, Haoqiang Fan, Zhenzhong ChenWed, 11 Ma💻 cs