cs.RO artigos | Gist.Science

$M^2$ -Occ: Resilient 3D Semantic Occupancy Prediction for Autonomous Driving with Incomplete Camera Inputs

O artigo apresenta o $M^2$ -Occ, um framework inovador para previsão de oclusão semântica 3D em direção autônoma que utiliza reconstrução mascarada multiview e memória de características para manter a precisão geométrica e semântica mesmo na ausência de múltiplas câmeras, superando significativamente os métodos existentes em cenários de falha de visão.

Kaixin Lin, Kunyu Peng, Di Wen, Yufan Chen, Ruiping Liu, Kailun YangWed, 11 Ma⚡ eess

Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments

Este artigo apresenta o SACA, um novo quadro de alinhamento contrastivo sensível a etapas que extrai supervisão densa de trajetórias imperfeitas para superar as limitações de generalização e estabilidade no treinamento de agentes de Navegação Visão-Linguagem em Ambientes Contínuos, alcançando desempenho state-of-the-art.

Haoyuan Li, Rui Liu, Hehe Fan, Yi YangWed, 11 Ma💻 cs

Caterpillar-Inspired Spring-Based Compressive Continuum Robot for Bristle-based Exploration

Este artigo apresenta um robô contínuo compacto e baseado em molas, inspirado na locomoção e sensibilidade de lagartas, que utiliza atuadores de tendão e sensores de cerdas artificiais para permitir a exploração e inspeção de espaços confinados por braços robóticos comerciais.

Zhixian Hu, Yu She, Juan WachsWed, 11 Ma💻 cs

PanoAffordanceNet: Towards Holistic Affordance Grounding in 360{\deg} Indoor Environments

O artigo apresenta o PanoAffordanceNet, um novo framework e conjunto de dados (360-AGD) que estabelecem a tarefa de "Grounding de Apropriação Holística" em ambientes internos de 360°, superando desafios como distorções geométricas e dispersão semântica para permitir uma percepção global em agentes corporificados.

Guoliang Zhu, Wanjun Jia, Caoyang Shao, Yuheng Zhang, Zhiyong Li, Kailun YangWed, 11 Ma⚡ eess

MuxGel: Simultaneous Dual-Modal Visuo-Tactile Sensing via Spatially Multiplexing and Deep Reconstruction

O artigo apresenta o MuxGel, um sensor visuo-tátil que utiliza um padrão de xadrez para capturar simultaneamente informações visuais externas e sinais táteis através de uma única câmera, empregando uma rede U-Net para reconstruir sinais de alta fidelidade e melhorar a manipulação robótica.

Zhixian Hu, Zhengtong Xu, Sheeraz Athar, Juan Wachs, Yu SheWed, 11 Ma💻 cs

TIMID: Time-Dependent Mistake Detection in Videos of Robot Executions

O artigo apresenta o TIMID, uma nova arquitetura de detecção de anomalias em vídeos que utiliza aprendizado supervisionado fraco e um conjunto de dados de simulação multi-robô para identificar erros temporais dependentes do tempo em tarefas de alto nível executadas por robôs, superando as limitações de modelos de linguagem visuais existentes.

Nerea Gallego (University of Zaragoza), Fernando Salanova (University of Zaragoza), Claudio Mannarano (University of Zaragoza, University of Torino), Cristian Mahulea (University of Zaragoza), Eduardo Montijano (University of Zaragoza)Wed, 11 Ma💻 cs

Lightweight 3D LiDAR-Based UAV Tracking: An Adaptive Extended Kalman Filtering Approach

Este artigo apresenta um sistema de rastreamento de UAVs baseado em LiDAR 3D leve e adaptativo, que utiliza um Filtro de Kalman Estendido Adaptativo (AEKF) para garantir posicionamento relativo preciso e robusto em ambientes sem GPS, superando limitações de ruído e oclusão em drones de pequeno porte.

Nivand Khosravi, Meysam Basiri, Rodrigo VenturaWed, 11 Ma⚡ eess

Emerging Extrinsic Dexterity in Cluttered Scenes via Dynamics-aware Policy Learning

Este artigo apresenta o framework DAPL, que utiliza modelagem de mundo explícita para aprender representações de dinâmicas induzidas por contato, permitindo que a destreza extrínseca em cenas desordenadas surja naturalmente sem heurísticas manuais e superando métodos existentes tanto em simulação quanto em aplicações do mundo real.

Yixin Zheng, Jiangran Lyu, Yifan Zhang, Jiayi Chen, Mi Yan, Yuntian Deng, Xuesong Shi, Xiaoguang Zhao, Yizhou Wang, Zhizheng Zhang, He WangWed, 11 Ma🤖 cs.AI

Robust Cooperative Localization in Featureless Environments: A Comparative Study of DCL, StCL, CCL, CI, and Standard-CL

Este artigo apresenta um estudo comparativo de cinco abordagens de localização cooperativa em ambientes sem características, revelando que, embora métodos como StCL e Standard-CL ofereçam alta precisão, eles sofrem de inconsistência, enquanto a Interseção de Covariância (CI) se destaca como a solução mais equilibrada, combinando consistência robusta com precisão competitiva.

Nivand Khosravi, Meysam Basiri, Rodrigo VenturaWed, 11 Ma💻 cs

NanoBench: A Multi-Task Benchmark Dataset for Nano-Quadrotor System Identification, Control, and State Estimation

O artigo apresenta o NanoBench, um novo conjunto de dados de benchmark de código aberto coletado no nano-quadrotor Crazyflie 2.1, que fornece sinais de nível de atuador e dados de estado sincronizados para avaliar e desenvolver sistemas de identificação, controle e estimativa de estado específicos para a escala nano.

Syed Izzat Ullah, Jose BacaWed, 11 Ma⚡ eess

Kinodynamic Motion Retargeting for Humanoid Locomotion via Multi-Contact Whole-Body Trajectory Optimization

O artigo apresenta o KDMR, uma nova estrutura de retransmissão de movimento cinodinâmico que formula a locomoção humanoides como um problema de otimização de trajetória corporal completa com múltiplos contatos, superando as limitações de métodos puramente cinemáticos ao garantir consistência física e melhorar o treinamento de políticas de controle.

Xiaoyu Zhang, Steven Haener, Varun Madabushi, Maegan TuckerWed, 11 Ma💻 cs

BEACON: Language-Conditioned Navigation Affordance Prediction under Occlusion

O artigo apresenta o BEACON, um método que supera as limitações de navegação baseada em linguagem em cenários com oclusão ao prever um mapa de calor de affordance em visão de pássaro (BEV) a partir de observações multiview, alcançando uma melhoria significativa de 22,74 pontos percentuais em relação às abordagens de estado da arte baseadas em espaço de imagem.

Xinyu Gao, Gang Chen, Javier Alonso-MoraWed, 11 Ma🤖 cs.AI

TiPToP: A Modular Open-Vocabulary Planning System for Robotic Manipulation

O artigo apresenta o TiPToP, um sistema modular de planejamento de manipulação robótica que combina modelos de visão pré-treinados com um planejador de tarefas e movimentos para executar tarefas complexas a partir de imagens e instruções em linguagem natural sem necessidade de dados de treinamento específicos do robô, demonstrando desempenho superior ou equivalente a modelos de ação visão-linguagem treinados com milhares de horas de demonstrações.

William Shen, Nishanth Kumar, Sahit Chintalapudi, Jie Wang, Christopher Watson, Edward Hu, Jing Cao, Dinesh Jayaraman, Leslie Pack Kaelbling, Tomás Lozano-PérezWed, 11 Ma💻 cs

Utility Theory based Cognitive Modeling in the Application of Robotics: A Survey

Esta pesquisa de revisão examina a aplicação da teoria da utilidade na modelagem cognitiva de sistemas robóticos, analisando a evolução desde arquiteturas comportamentais até sistemas de valor em agentes individuais e multiagentes, e propõe direções futuras e problemas em aberto para o desenvolvimento de interações robóticas estáveis e confiáveis.

Qin YangTue, 10 Ma💻 cs

Influence-Based Reward Modulation for Implicit Communication in Human-Robot Interaction

Este artigo apresenta um método que utiliza Entropia de Transferência para modular a influência entre agentes em interações humano-robô, demonstrando que o reforço dessa influência melhora a colaboração e a comunicação implícita, enquanto a resistência a ela promove independência social, validado através de simulações e experimentos reais em navegação e direção autônoma.

Haoyang Jiang, Elizabeth A. Croft, Michael G. BurkeTue, 10 Ma💻 cs

Input-to-State Stable Coupled Oscillator Networks for Closed-form Model-based Control in Latent Space

Este artigo propõe uma Rede de Osciladores Acoplados (CON) que, ao garantir estrutura lagrangiana, estabilidade global e mapeamento invertível, permite o controle de alto desempenho de sistemas físicos complexos diretamente no espaço latente utilizando apenas imagens como feedback.

Maximilian Stölzle, Cosimo Della SantinaTue, 10 Ma🤖 cs.LG

xTED: Cross-Domain Adaptation via Diffusion-Based Trajectory Editing

O artigo apresenta o xTED, um framework que utiliza um modelo de difusão para editar trajetórias de um domínio de origem e adaptá-las a um domínio alvo, preenchendo lacunas de dados de forma universal e flexível para melhorar o aprendizado de políticas em tarefas de tomada de decisão com dados limitados.

Haoyi Niu, Qimao Chen, Tenglong Liu, Jianxiong Li, Guyue Zhou, Yi Zhang, Jianming Hu, Xianyuan ZhanTue, 10 Ma🤖 cs.LG

Variational approach to nonholonomic and inequality-constrained mechanics

Este artigo apresenta uma formulação de ação variacional explícita e geral para sistemas mecânicos não holonômicos e com restrições de desigualdade, baseada no formalismo de Schwinger-Keldysh, que recupera as equações de Lagrange-d'Alembert e permite a validação numérica direta via otimização da ação.

A. Rothkopf, W. A. HorowitzTue, 10 Ma🔢 math

From Pixels to Predicates: Learning Symbolic World Models via Pretrained Vision-Language Models

Este artigo propõe um método que utiliza modelos de visão e linguagem pré-treinados para aprender modelos de mundo simbólicos abstratos a partir de demonstrações curtas, permitindo que robôs generalizem para zero-shot e resolvam problemas de tomada de decisão de longo horizonte em cenários complexos e variados através de planejamento.

Ashay Athalye, Nishanth Kumar, Tom Silver, Yichao Liang, Jiuguang Wang, Tomás Lozano-Pérez, Leslie Pack KaelblingTue, 10 Ma🤖 cs.LG

Strengthening Generative Robot Policies through Predictive World Modeling

O artigo apresenta o GPC (Generative Predictive Control), um framework de aprendizado que combina clonagem de comportamento, modelagem preditiva do mundo e planejamento online para superar consistentemente a clonagem de comportamento em diversas tarefas de manipulação robótica, tanto em simulação quanto no mundo real.

Han Qi, Haocheng Yin, Aris Zhu, Yilun Du, Heng YangTue, 10 Ma🤖 cs.LG

← Anterior Próximo →

cs.RO

M2M^2M2-Occ: Resilient 3D Semantic Occupancy Prediction for Autonomous Driving with Incomplete Camera Inputs