cs.RO artículos | Gist.Science

$M^2$ -Occ: Resilient 3D Semantic Occupancy Prediction for Autonomous Driving with Incomplete Camera Inputs

El artículo presenta $M^2$ -Occ, un marco innovador que mejora la predicción de ocupación semántica 3D para la conducción autónoma al manejar entradas de cámaras incompletas mediante la reconstrucción de vistas faltantes y el uso de una memoria de características, logrando así una mayor robustez y precisión incluso en escenarios con múltiples vistas perdidas.

Kaixin Lin, Kunyu Peng, Di Wen, Yufan Chen, Ruiping Liu, Kailun YangWed, 11 Ma⚡ eess

Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments

Este artículo presenta SACA, un marco de alineación contrastiva sensible a los pasos que mejora la navegación visión-lenguaje en entornos continuos al extraer supervisión densa de trayectorias imperfectas para resolver los problemas de errores acumulativos y recompensas dispersas que limitan a los modelos actuales.

Haoyuan Li, Rui Liu, Hehe Fan, Yi YangWed, 11 Ma💻 cs

Caterpillar-Inspired Spring-Based Compressive Continuum Robot for Bristle-based Exploration

Este artículo presenta un robot continuo impulsado por tendones y resorte, inspirado en la locomoción de las orugas, que integra sensores de contacto tipo cerdas para permitir la exploración y percepción de superficies en espacios confinados mediante un brazo robótico comercial.

Zhixian Hu, Yu She, Juan WachsWed, 11 Ma💻 cs

PanoAffordanceNet: Towards Holistic Affordance Grounding in 360{\deg} Indoor Environments

El artículo presenta PanoAffordanceNet, un marco innovador y un nuevo conjunto de datos (360-AGD) diseñados para superar los desafíos de la percepción global en entornos interiores de 360°, permitiendo una fundamentación holística de las affordances mediante la corrección de distorsiones geométricas y la alineación semántica a escala.

Guoliang Zhu, Wanjun Jia, Caoyang Shao, Yuheng Zhang, Zhiyong Li, Kailun YangWed, 11 Ma⚡ eess

MuxGel: Simultaneous Dual-Modal Visuo-Tactile Sensing via Spatially Multiplexing and Deep Reconstruction

El artículo presenta MuxGel, un sensor visuo-táctil de doble modalidad que utiliza un patrón de tablero de ajedrez y reconstrucción profunda para capturar simultáneamente información visual externa y señales táctiles a través de una sola cámara, superando las limitaciones tradicionales de los sensores táctiles basados en visión.

Zhixian Hu, Zhengtong Xu, Sheeraz Athar, Juan Wachs, Yu SheWed, 11 Ma💻 cs

TIMID: Time-Dependent Mistake Detection in Videos of Robot Executions

El artículo presenta TIMID, una nueva arquitectura de detección de anomalías en video que utiliza aprendizaje débilmente supervisado y un dataset de simulación multi-robot para identificar errores temporales dependientes del tiempo en la ejecución de tareas complejas por parte de robots, superando las limitaciones de los modelos de visión-lingüística actuales.

Nerea Gallego (University of Zaragoza), Fernando Salanova (University of Zaragoza), Claudio Mannarano (University of Zaragoza, University of Torino), Cristian Mahulea (University of Zaragoza), Eduardo Montijano (University of Zaragoza)Wed, 11 Ma💻 cs

Lightweight 3D LiDAR-Based UAV Tracking: An Adaptive Extended Kalman Filtering Approach

Este artículo presenta un sistema de seguimiento de UAVs ligero basado en LiDAR 3D que utiliza un Filtro de Kalman Extendido Adaptativo (AEKF) para lograr un posicionamiento relativo preciso y robusto en entornos sin GPS, superando las limitaciones de los métodos convencionales al manejar datos de nubes de puntos dispersas y ruidosas en drones pequeños.

Nivand Khosravi, Meysam Basiri, Rodrigo VenturaWed, 11 Ma⚡ eess

Emerging Extrinsic Dexterity in Cluttered Scenes via Dynamics-aware Policy Learning

Este artículo presenta DAPL, un marco de aprendizaje de políticas consciente de la dinámica que facilita la destreza extrínseca en entornos desordenados mediante la modelización explícita de las interacciones de contacto, logrando un rendimiento superior al de métodos existentes tanto en simulación como en aplicaciones del mundo real.

Yixin Zheng, Jiangran Lyu, Yifan Zhang, Jiayi Chen, Mi Yan, Yuntian Deng, Xuesong Shi, Xiaoguang Zhao, Yizhou Wang, Zhizheng Zhang, He WangWed, 11 Ma🤖 cs.AI

Robust Cooperative Localization in Featureless Environments: A Comparative Study of DCL, StCL, CCL, CI, and Standard-CL

Este artículo presenta un estudio comparativo en ROS de cinco enfoques de localización cooperativa que revela que, aunque StCL y Standard-CL ofrecen la mayor precisión, CI es el método más equilibrado al garantizar consistencia y precisión, mientras que DCL destaca por su estabilidad ante datos atípicos en entornos sin características.

Nivand Khosravi, Meysam Basiri, Rodrigo VenturaWed, 11 Ma💻 cs

NanoBench: A Multi-Task Benchmark Dataset for Nano-Quadrotor System Identification, Control, and State Estimation

El artículo presenta NanoBench, un nuevo conjunto de datos de código abierto y multi-tarea recopilado en un Crazyflie 2.1 que ofrece señales de actuador, control y estimación sincronizadas con precisión milimétrica para abordar los desafíos únicos de la identificación de sistemas, el control y la estimación de estado en cuadricópteros nano.

Syed Izzat Ullah, Jose BacaWed, 11 Ma⚡ eess

Kinodynamic Motion Retargeting for Humanoid Locomotion via Multi-Contact Whole-Body Trajectory Optimization

Este artículo presenta KDMR, un marco novedoso de reasignación de movimiento cinodinámico que utiliza optimización de trayectorias de cuerpo completo con restricciones de dinámica y contacto para generar locomoción de humanoides físicamente viables, superando las limitaciones de los métodos puramente cinemáticos y mejorando la estabilidad y eficiencia de las políticas de control posteriores.

Xiaoyu Zhang, Steven Haener, Varun Madabushi, Maegan TuckerWed, 11 Ma💻 cs

BEACON: Language-Conditioned Navigation Affordance Prediction under Occlusion

El artículo presenta BEACON, un método que mejora la navegación guiada por lenguaje en entornos con oclusiones al predecir mapas de calor de viabilidad en vista cenital (BEV) que incluyen áreas ocultas, superando significativamente a los enfoques basados en imágenes al integrar un modelo de lenguaje visual con características de profundidad derivadas de observaciones multivista.

Xinyu Gao, Gang Chen, Javier Alonso-MoraWed, 11 Ma🤖 cs.AI

TiPToP: A Modular Open-Vocabulary Planning System for Robotic Manipulation

El artículo presenta TiPToP, un sistema modular de código abierto que combina modelos de visión preentrenados con un planificador de tareas y movimientos para resolver tareas de manipulación robótica complejas a partir de imágenes y lenguaje natural, logrando un rendimiento comparable o superior a modelos entrenados con grandes volúmenes de datos de demostración sin requerir datos específicos del robot.

William Shen, Nishanth Kumar, Sahit Chintalapudi, Jie Wang, Christopher Watson, Edward Hu, Jing Cao, Dinesh Jayaraman, Leslie Pack Kaelbling, Tomás Lozano-PérezWed, 11 Ma💻 cs

Utility Theory based Cognitive Modeling in the Application of Robotics: A Survey

Esta encuesta examina la aplicación de la teoría de la utilidad en el modelado cognitivo de sistemas robóticos, analizando su evolución desde arquitecturas cognitivas y sistemas de valores hasta su impacto en la toma de decisiones, la cooperación multiagente y la interacción humano-robot, mientras propone direcciones futuras y problemas abiertos en el campo.

Qin YangTue, 10 Ma💻 cs

Influence-Based Reward Modulation for Implicit Communication in Human-Robot Interaction

Este artículo presenta un método que utiliza la Entropía de Transferencia para modular la influencia entre agentes en la interacción humano-robot, demostrando mediante simulaciones y experimentos reales que potenciar dicha influencia mejora la colaboración, mientras que resistirla fomenta la independencia social.

Haoyang Jiang, Elizabeth A. Croft, Michael G. BurkeTue, 10 Ma💻 cs

Input-to-State Stable Coupled Oscillator Networks for Closed-form Model-based Control in Latent Space

Este trabajo presenta una red de osciladores acoplados (CON) que, al garantizar una estructura lagrangiana, estabilidad global y un mapeo invertible entre entrada y fuerza latente, permite un control basado en modelos de espacio latente eficiente y de alto rendimiento utilizando únicamente imágenes como retroalimentación.

Maximilian Stölzle, Cosimo Della SantinaTue, 10 Ma🤖 cs.LG

xTED: Cross-Domain Adaptation via Diffusion-Based Trajectory Editing

El artículo presenta xTED, un marco que utiliza un modelo de difusión para editar trayectorias de un dominio fuente y adaptarlas a un dominio objetivo, corrigiendo las brechas de dominio a nivel de datos para mejorar el aprendizaje de políticas sin necesidad de arquitecturas complejas.

Haoyi Niu, Qimao Chen, Tenglong Liu, Jianxiong Li, Guyue Zhou, Yi Zhang, Jianming Hu, Xianyuan ZhanTue, 10 Ma🤖 cs.LG

Variational approach to nonholonomic and inequality-constrained mechanics

Este trabajo presenta una formulación variacional general y explícita para sistemas mecánicos no holónomos y con restricciones de desigualdad, derivada del formalismo de acción cuántica de Schwinger-Keldysh, que permite recuperar las ecuaciones de movimiento mediante la extremización de una acción escalar y ofrece nuevas herramientas analíticas y computacionales para su estudio.

A. Rothkopf, W. A. HorowitzTue, 10 Ma🔢 math

From Pixels to Predicates: Learning Symbolic World Models via Pretrained Vision-Language Models

Este trabajo presenta un método que utiliza modelos de visión y lenguaje preentrenados para aprender modelos de mundo simbólicos a partir de demostraciones cortas, permitiendo a los robots generalizar de forma cero-shot y resolver problemas de toma de decisiones a largo plazo en entornos complejos mediante planificación.

Ashay Athalye, Nishanth Kumar, Tom Silver, Yichao Liang, Jiuguang Wang, Tomás Lozano-Pérez, Leslie Pack KaelblingTue, 10 Ma🤖 cs.LG

Strengthening Generative Robot Policies through Predictive World Modeling

El artículo presenta el control predictivo generativo (GPC), un marco de aprendizaje que combina la clonación de una política difusiva con un modelo de mundo predictivo para sintetizar un planificador en línea que supera consistentemente a la clonación de comportamiento en diversas tareas de manipulación robótica.

Han Qi, Haocheng Yin, Aris Zhu, Yilun Du, Heng YangTue, 10 Ma🤖 cs.LG

← Anterior Siguiente →

cs.RO

M2M^2M2-Occ: Resilient 3D Semantic Occupancy Prediction for Autonomous Driving with Incomplete Camera Inputs