cs.RO artículos | Gist.Science

ViLAM: Distilling Vision-Language Reasoning into Attention Maps for Social Robot Navigation

El artículo presenta ViLAM, un método que destila el razonamiento de modelos de visión-idioma en mapas de atención espacial para mejorar la navegación socialmente compliant de robots, logrando mejoras significativas en la tasa de éxito mediante experimentos reales.

Mohamed Elnoor, Kasun Weerakoon, Gershom Seneviratne, Jing Liang, Vignesh Rajagopal, Dinesh ManochaTue, 10 Ma💻 cs

IMPACT: Intelligent Motion Planning with Acceptable Contact Trajectories via Vision-Language Models

El artículo presenta IMPACT, un marco de planificación de movimiento que utiliza Modelos Visuales-Lingüísticos para inferir la semántica del entorno y generar mapas de costos anisotrópicos, permitiendo a los robots encontrar trayectorias estables y seguras que incluyen contactos aceptables en entornos desordenados.

Yiyang Ling, Karan Owalekar, Oluwatobiloba Adesanya, Erdem Bıyık, Daniel SeitaTue, 10 Ma🤖 cs.LG

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

El artículo presenta EgoDex, el conjunto de datos más grande y diverso hasta la fecha de manipulación hábil humana grabada con visión egocéntrica mediante Apple Vision Pro, que incluye 829 horas de video con anotaciones de pose de manos en 3D para 194 tareas cotidianas, con el objetivo de abordar la escasez de datos en el aprendizaje por imitación y fomentar avances en robótica y visión por computadora.

Ryan Hoque, Peide Huang, David J. Yoon, Mouli Sivapurapu, Jian ZhangTue, 10 Ma🤖 cs.LG

ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers

El artículo presenta ViTaPEs, una arquitectura basada en transformadores que introduce un mecanismo de inyección posicional en dos etapas (local y global) para alinear eficazmente las modalidades visual y táctil, logrando un rendimiento superior en tareas de reconocimiento y generalización cero en escenarios no vistos sin depender de modelos preentrenados.

Fotios Lygerakis, Ozan Özdenizci, Elmar RückertTue, 10 Ma🤖 cs.LG

ActivePusher: Active Learning and Planning with Residual Physics for Nonprehensile Manipulation

El artículo presenta ActivePusher, un marco novedoso que combina modelado de física residual y aprendizaje activo basado en incertidumbre para mejorar la eficiencia de los datos y la fiabilidad de la planificación en tareas de manipulación no prensil, como el empuje, tanto en simulación como en entornos reales.

Zhuoyun Zhong, Seyedali Golestaneh, Constantinos ChamzasTue, 10 Ma🤖 cs.LG

DemoDiffusion: One-Shot Human Imitation using pre-trained Diffusion Policy

DemoDiffusion es un método que permite a los robots imitar tareas de manipulación a partir de una sola demostración humana, combinando la reasignación cinemática de la trayectoria con una política de difusión preentrenada para adaptar el movimiento al contexto robótico sin necesidad de datos emparejados ni entrenamiento específico.

Sungjae Park, Homanga Bharadhwaj, Shubham TulsianiTue, 10 Ma🤖 cs.LG

Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification

El artículo propone un método de verificación auto-ancorada (SGV) que mitiga el sesgo de acuerdo en los modelos de lenguaje multimodal (MLLM), mejorando significativamente la detección de errores y el rendimiento de agentes autónomos en tareas complejas como la navegación web y la robótica.

Moises Andrade, Joonhyuk Cha, Brandon Ho, Vriksha Srihari, Karmesh Yadav, Zsolt KiraTue, 10 Ma🤖 cs.LG

ORN-CBF: Learning Observation-conditioned Residual Neural Control Barrier Functions via Hypernetworks

Este trabajo propone un método de aprendizaje basado en hiperredes y análisis de alcanzabilidad Hamilton-Jacobi para generar funciones de barrera neuronal condicionadas a la observación que recuperan aproximadamente los conjuntos seguros máximos, garantizan que el conjunto seguro no intersecte con el conjunto de fallos observado y demuestran una mayor tasa de éxito y generalización en robots terrestres y cuadricópteros frente a métodos basales.

Bojan Derajic, Sebastian Bernhard, Wolfgang HönigTue, 10 Ma🤖 cs.LG

Efficient Construction of Implicit Surface Models From a Single Image for Motion Generation

Este artículo presenta FINS, un marco ligero que reconstruye superficies implícitas y campos de distancia firmes a partir de una sola imagen en segundos, superando a los métodos actuales en velocidad y precisión para aplicaciones de generación de movimiento en robótica.

Wei-Teng Chu, Tianyi Zhang, Matthew Johnson-Roberson, Weiming ZhiTue, 10 Ma💻 cs

CroSTAta: Cross-State Transition Attention Transformer for Robotic Manipulation

El artículo presenta CroSTAta, un transformador que utiliza un mecanismo de atención a transiciones de estado cruzadas para mejorar la robustez y el rendimiento en la manipulación robótica al modelar explícitamente patrones temporales como fallos y recuperaciones, superando significativamente a los métodos de atención estándar y redes recurrentes.

Giovanni Minelli, Giulio Turrisi, Victor Barasuol, Claudio SeminiTue, 10 Ma🤖 cs.LG

Pretraining in Actor-Critic Reinforcement Learning for Robot Locomotion

Este trabajo propone un paradigma de preentrenamiento basado en un modelo inverso de dinámica propioceptiva entrenado con datos de exploración agnósticos a la tarea para inicializar redes actor-crítico, logrando mejoras significativas en la eficiencia de muestras y el rendimiento en diversas tareas de locomoción robótica en comparación con la inicialización aleatoria.

Jiale Fan, Andrei Cramariuc, Tifanny Portela, Marco HutterTue, 10 Ma🤖 cs.LG

Vectorized Online POMDP Planning

Este artículo presenta VOPP, un planificador en línea de POMDP vectorizado que aprovecha la paralelización masiva mediante computaciones totalmente vectorizadas para eliminar cuellos de botella de sincronización, logrando una eficiencia de cálculo 20 veces superior a los solvers paralelos existentes y superando a los solvers secuenciales con un presupuesto de planificación 1000 veces menor.

Marcus Hoerger, Muhammad Sudrajat, Hanna KurniawatiTue, 10 Ma💻 cs

Whole-Brain Connectomic Graph Model Enables Whole-Body Locomotion Control in Fruit Fly

Este trabajo presenta el modelo FlyGM, que utiliza la arquitectura exacta del conectoma cerebral de una mosca de la fruta para controlar el movimiento corporal completo mediante aprendizaje por refuerzo, demostrando una mayor eficiencia y rendimiento en comparación con arquitecturas neuronales aleatorias o estándar.

Zehao Jin, Yaoye Zhu, Chen Zhang, Yanan SuiTue, 10 Ma🤖 cs.LG

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

El artículo presenta TimeSpot, un nuevo benchmark que evalúa la capacidad de los modelos de visión y lenguaje para inferir atributos geográficos y temporales a partir de imágenes del mundo real, revelando que, aunque el ajuste fino mejora los resultados, los modelos actuales aún carecen de un razonamiento geo-temporal robusto y físicamente fundamentado.

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan ParvezTue, 10 Ma💬 cs.CL

One-Shot Badminton Shuttle Detection for Mobile Robots

Este artículo presenta un marco robusto de detección de un solo disparo para volantes de bádminton en robots móviles, que incluye un nuevo conjunto de datos anotado semi-automáticamente y un modelo YOLOv8 optimizado para funcionar eficazmente en entornos dinámicos y egocéntricos.

Florentin Dipner, William Talbot, Turcan Tuna, Andrei Cramariuc, Marco HutterTue, 10 Ma💻 cs

A Pivot-Based Kirigami Utensil for Hand-Held and Robot-Assisted Feeding

Este artículo presenta el "kiri-spoon", un utensilio de alimentación basado en un diseño de pivote tipo tenaza que, gracias a su estructura modular y adaptable, permite tanto a personas con temblores esenciales o Parkinson como a robots agarrar y transportar alimentos de forma segura para prevenir derrames.

Keone Leao, Grace Brotherson, Iain Mischel, Sagar Parekh, Dylan P. LoseyTue, 10 Ma💻 cs

Dynamic Targeting of Satellite Observations Using Supplemental Geostationary Satellite Data and Hierarchical Planning

Este artículo presenta un enfoque de planificación jerárquica que combina datos de satélites geoestacionarios para la visión a largo plazo con sensores a bordo para el refinamiento a corto plazo, logrando mejorar el rendimiento de la orientación dinámica de observaciones satelitales hasta en un 41% en escenarios con objetivos dispersos.

Akseli Kangaslahti, Itai Zilberstein, Alberto Candela, Steve ChienTue, 10 Ma💻 cs

Don't Freeze, Don't Crash: Extending the Safe Operating Range of Neural Navigation in Dense Crowds

Este artículo presenta un enfoque de aprendizaje por refuerzo que extiende el rango operativo seguro de la navegación neuronal en multitudes densas mediante un codificado de observación invariante a la densidad y una recompensa informada por la física, logrando una generalización cero-shot que supera tanto el bloqueo de los métodos analíticos como las colisiones de los métodos basados en aprendizaje existentes.

Jiefu Zhang, Yang Xu, Vaneet AggarwalTue, 10 Ma🤖 cs.LG

Improved Constrained Generation by Bridging Pretrained Generative Models

El artículo propone un marco de generación con restricciones que ajusta finamente modelos generativos preentrenados para producir muestras realistas dentro de regiones factibles complejas, logrando un nuevo equilibrio entre el cumplimiento de las restricciones y la calidad de la generación.

Xiaoxuan Liang, Saeid Naderiparizi, Yunpeng Liu, Berend Zwartsenberg, Frank WoodTue, 10 Ma🤖 cs.LG

Robotic Foundation Models for Industrial Control: A Comprehensive Survey and Readiness Assessment Framework

Esta encuesta presenta un marco de evaluación exhaustivo que, al analizar cientos de modelos fundamentales robóticos, revela que su madurez industrial es actualmente limitada y desigual, destacando la necesidad de integrar sistemáticamente la seguridad, la viabilidad en tiempo real y la robustez en pilas de despliegue audibles para lograr una adopción exitosa.

David Kube, Simon Hadwiger, Tobias MeisenTue, 10 Ma💻 cs

← Anterior Siguiente →