cs.RO artigos | Gist.Science

GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models

O artigo apresenta o GST-VLA, um modelo de Visão-Linguagem-Ação que introduz um Tokenizador Espacial Gaussiano para representar observações visuais como primitivas 3D estruturadas e um raciocínio de Cadeia de Pensamento Consciente de Profundidade, alcançando desempenho superior em tarefas de robótica que exigem precisão geométrica.

Md Selim Sarowar, Omer Tariq, Sungho KimWed, 11 Ma🤖 cs.AI

Provably Safe Trajectory Generation for Manipulators Under Motion and Environmental Uncertainties

Este artigo propõe um novo quadro de planejamento de movimento com limites de risco que integra um modelo de operador Koopman estocástico profundo para prever distribuições de estado, um método de verificação hierárquica usando programação de soma de quadrados para certificação formal de colisão e um controlador MPPI, validando sua eficácia na geração de trajetórias seguras e eficientes para manipuladores robóticos em ambientes incertos e não convexos através de simulações e experimentos reais.

Fei Meng, Zijiang Yang, Xinyu Mao, Haobo Liang, Max Q. -H. MengWed, 11 Ma💻 cs

Latent World Models for Automated Driving: A Unified Taxonomy, Evaluation Framework, and Open Challenges

Este artigo propõe um quadro unificado de modelos de mundo latente para a condução autónoma, estabelecendo uma taxonomia abrangente, identificando cinco mecanismos internos críticos, definindo métricas de avaliação de ciclo fechado e delineando desafios futuros para garantir sistemas robustos, generalizáveis e eficientes.

Rongxiang Zeng, Yongqi DongWed, 11 Ma🤖 cs.AI

PM-Nav: Priori-Map Guided Embodied Navigation in Functional Buildings

O artigo apresenta o PM-Nav, um sistema de navegação corporal guiado por mapas prévios que transforma mapas ambientais em representações semânticas e utiliza prompts hierárquicos de cadeia de pensamento para superar as limitações de navegação em edifícios funcionais com características altamente similares, alcançando melhorias significativas em relação aos métodos existentes tanto em simulação quanto no mundo real.

Jiang Gao, Xiangyu Dong, Haozhou Li, Haoran Zhao, Yaoming Zhou, Xiaoguang MaWed, 11 Ma🤖 cs.AI

DexHiL: A Human-in-the-Loop Framework for Vision-Language-Action Model Post-Training in Dexterous Manipulation

O artigo apresenta o DexHiL, um inovador framework de aprendizado com intervenção humana que integra o controle do braço e da mão para o pós-treinamento de modelos Visão-Linguagem-Ação, demonstrando um aumento significativo de 25% nas taxas de sucesso em tarefas de manipulação dextrosa em comparação com métodos de ajuste fino offline.

Yifan Han, Zhongxi Chen, Yuxuan Zhao, Congsheng Xu, Yanming Shao, Yichuan Peng, Yao Mu, Wenzhao LianWed, 11 Ma🤖 cs.AI

Walking on Rough Terrain with Any Number of Legs

Este artigo apresenta uma arquitetura de controle computacionalmente leve e adaptativa para robôs com seis ou mais pernas que navegam em terrenos acidentados, unindo controladores baseados em eventos e geradores de padrões centrais (CPG) através de segmentos idênticos interconectados que alternam entre acoplamento ao solo e locomoção fictícia.

Zhuoyang Chen, Xinyuan Wang, Shai RevzenWed, 11 Ma💻 cs

SPAN-Nav: Generalized Spatial Awareness for Versatile Vision-Language Navigation

O artigo apresenta o SPAN-Nav, um modelo fundamental de ponta a ponta que aprimora a navegação visão-linguagem ao integrar uma consciência espacial 3D universal, extraída de um vasto conjunto de dados de ocupação e condensada em um único token para raciocínio de ações, alcançando desempenho superior em diversos cenários e validada em experimentos do mundo real.

Jiahang Liu, Tianyu Xu, Jiawei Chen, Lu Yue, Jiazhao Zhang, Zhiyong Wang, Minghan Li, Qisheng Zhao, Anqi Li, Qi Su, Zhizheng Zhang, He WangWed, 11 Ma💻 cs

ZeroWBC: Learning Natural Visuomotor Humanoid Control Directly from Human Egocentric Video

O ZeroWBC é um novo framework que permite o controle visuomotor natural de humanoides, como o Unitree G1, aprendendo diretamente de vídeos em primeira pessoa de humanos e eliminando a necessidade de dados caros de teleoperação robótica.

Haoran Yang, Jiacheng Bao, Yucheng Xin, Haoming Song, Yuyang Tian, Bin Zhao, Dong Wang, Xuelong LiWed, 11 Ma🤖 cs.AI

STONE Dataset: A Scalable Multi-Modal Surround-View 3D Traversability Dataset for Off-Road Robot Navigation

Este trabalho apresenta o STONE, um grande conjunto de dados multimodal e escalável para navegação off-road, que fornece mapas de tratabilidade 3D gerados automaticamente sem anotação manual, utilizando sensores sincronizados como LiDAR, câmeras e radares em diversos ambientes e condições.

Konyul Park, Daehun Kim, Jiyong Oh, Seunghoon Yu, Junseo Park, Jaehyun Park, Hongjae Shin, Hyungchan Cho, Jungho Kim, Jun Won ChoiWed, 11 Ma💻 cs

Robust Spatiotemporal Motion Planning for Multi-Agent Autonomous Racing via Topological Gap Identification and Accelerated MPC

Este artigo apresenta um quadro robusto de planejamento de movimento para corridas autônomas multiagente que combina identificação topológica de lacunas via GPs esparsos e um MPC acelerado por um solver PTC, resultando em tempos de manobra reduzidos, alta taxa de sucesso em ultrapassagens e menor latência computacional na plataforma F1TENTH.

Mingyi Zhang, Cheng Hu, Yiqin Wang, Haotong Qin, Hongye Su, Lei XieWed, 11 Ma💻 cs

WESPR: Wind-adaptive Energy-Efficient Safe Perception & Planning for Robust Flight with Quadrotors

O artigo apresenta o WESPR, um framework rápido que integra percepção geométrica e dados meteorológicos locais para prever campos de vento induzidos pelo ambiente, permitindo planejamento de trajetória e adaptação de controle proativos que reduzem significativamente o desvio e aumentam a estabilidade de drones quadricópteros em condições turbulentas.

Khuzema Habib, Pranav Deshakulkarni Manjunath, Kasra Torshizi, Troi Williams, Pratap TokekarWed, 11 Ma💻 cs

Embodied Human Simulation for Quantitative Design and Analysis of Interactive Robotics

Este trabalho apresenta um framework de simulação baseado em aprendizado por reforço e modelos musculoesqueléticos que permite a análise quantitativa e a co-otimização de parâmetros estruturais e de controle em robótica interativa, superando as limitações de experimentos tradicionais ao fornecer acesso direto a métricas biomecânicas internas.

Chenhui Zuo, Jinhao Xu, Michael Qian Vergnolle, Yanan SuiWed, 11 Ma🤖 cs.AI

TRIP-Bag: A Portable Teleoperation System for Plug-and-Play Robotic Arms and Leaders

O artigo apresenta o TRIP-Bag, um sistema de teleoperação portátil e de fácil configuração que permite a coleta rápida e fiel de dados de manipulação em diversos ambientes, preenchendo a lacuna entre a coleta de dados no mundo real e a aprendizagem de políticas robóticas sem o problema da diferença de corporificação.

Noboru Myers, Sankalp Yamsani, Obin Kwon, Joohyung KimWed, 11 Ma💻 cs

MO-Playground: Massively Parallelized Multi-Objective Reinforcement Learning for Robotics

Este artigo apresenta o MORLAX, um algoritmo nativo de GPU, e o MO-Playground, um conjunto de ambientes acelerados por GPU, que juntos permitem a aprendizagem de políticas multi-objetivo em robótica com acelerações de 25 a 270 vezes em comparação com abordagens tradicionais baseadas em CPU.

Neil Janwani, Ellen Novoseller, Vernon J. Lawhern, Maegan TuckerWed, 11 Ma💻 cs

RAE-NWM: Navigation World Model in Dense Visual Representation Space

O artigo apresenta o RAE-NWM, um modelo de mundo de navegação que opera no espaço de representações visuais densas do DINOv2 em vez de espaços latentes comprimidos, utilizando um Transformer de Difusão Condicional para melhorar a estabilidade estrutural e a precisão das ações na navegação visual.

Mingkun Zhang, Wangtian Shen, Fan Zhang, Haijian Qin, Zihao Pei, Ziyang MengWed, 11 Ma💻 cs

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

Este artigo apresenta um novo quadro de trabalho para navegação visão-linguagem que utiliza vídeos de tours de ambientes reais da web e representações geométricas implícitas para superar as limitações de escalabilidade e diversidade dos simuladores, estabelecendo novos recordes de desempenho e permitindo agentes de navegação zero-shot mais robustos.

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan LaptevWed, 11 Ma💻 cs

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

O artigo apresenta o SPR (See, Plan, Rewind), um modelo de visão-linguagem-ação que melhora a manipulação robótica ao monitorar o progresso do tarefa através de marcos espaciais, permitindo o planejamento de trajetórias e a recuperação automática de falhas, o que resulta em maior robustez e generalização em benchmarks desafiadores.

Tingjun Dai, Mingfei Han, Tingwen Du, Zhiheng Liu, Zhihui Li, Salman Khan, Jun Yu, Xiaojun ChangWed, 11 Ma💻 cs

CORAL: Scalable Multi-Task Robot Learning via LoRA Experts

O CORAL é um framework escalável para aprendizado robótico multi-tarefa que utiliza especialistas LoRA leves e isolados para mitigar interferências entre tarefas e evitar o esquecimento catastrófico, permitindo a adaptação contínua a novos comandos em tempo real sem sobrecarga de inferência.

Yuankai Luo, Woping Chen, Tong Liang, Zhenguo LiWed, 11 Ma💻 cs

NLiPsCalib: An Efficient Calibration Framework for High-Fidelity 3D Reconstruction of Curved Visuotactile Sensors

O artigo apresenta o NLiPsCalib, um framework de calibração eficiente e consistente com a física que utiliza estereoscopia fotométrica de luz próxima (NLiPs) e fontes de luz controláveis para permitir a reconstrução 3D de alta fidelidade em sensores visuotáteis curvos, simplificando o processo para poucos contatos com objetos cotidianos e reduzindo a barreira de entrada para o desenvolvimento de sensores personalizados.

Xuhao Qin, Feiyu Zhao, Yatao Leng, Runze Hu, Chenxi XiaoWed, 11 Ma💻 cs

SPAARS: Safer RL Policy Alignment through Abstract Exploration and Refined Exploitation of Action Space

O artigo apresenta o SPAARS, um framework de aprendizado por reforço offline-to-online que utiliza uma exploração curricular segura no espaço latente para superar as limitações de desempenho dos métodos baseados em CVAE, transferindo o controle para o espaço de ações bruto e alcançando maior eficiência de amostragem e retornos superiores em tarefas de robótica.

Swaminathan S K, Aritra HazraWed, 11 Ma🤖 cs.AI

← Anterior Próximo →