cs.RO artigos | Gist.Science

Fine-Tuning Robot Policies While Maintaining User Privacy

O artigo apresenta o PRoP, um framework agnóstico a modelos que permite a personalização de políticas robóticas para atender preferências individuais sem comprometer a privacidade, utilizando chaves únicas para transformar matematicamente os pesos da rede e garantir que apenas usuários autorizados acessem o comportamento personalizado.

Benjamin A. Christie, Sagar Parekh, Dylan P. Losey2026-03-05💻 cs

Category-Level Object Shape and Pose Estimation in Less Than a Millisecond

Este artigo apresenta um solver local rápido e com certificado de otimalidade global para estimar a forma e a pose de objetos em nível de categoria a partir de imagens RGB-D, utilizando um modelo de forma ativa linear e iteração de campo autoconsistente para alcançar tempos de execução inferiores a um milissegundo.

Lorenzo Shaikewitz, Tim Nguyen, Luca Carlone2026-03-05💻 cs

RehearseVLA: Simulated Post-Training for VLAs with Physically-Consistent World Model

O artigo apresenta o RehearseVLA, um framework de pós-treinamento baseado em aprendizado por reforço que utiliza um simulador de mundo virtual fisicamente consistente e um refletor guiado por modelos de visão e linguagem para superar a escassez de dados e as limitações de segurança na adaptação de modelos Visão-Linguagem-Ação (VLA) para tarefas robóticas complexas.

Junjin Xiao, Yandan Yang, Xinyuan Chang + 5 more2026-03-05💻 cs

ELMUR: External Layer Memory with Update/Rewrite for Long-Horizon RL Problems

O artigo apresenta o ELMUR, uma arquitetura de transformador com memória externa estruturada que supera as limitações de dependências de longo prazo em problemas de RL de horizonte estendido, alcançando desempenho superior em tarefas sintéticas e robóticas complexas com observações parciais.

Egor Cherepanov, Alexey K. Kovalev, Aleksandr I. Panov2026-03-05🤖 cs.AI

TIGeR: Tool-Integrated Geometric Reasoning in Vision-Language Models for Robotics

O artigo apresenta o TIGeR, um novo framework que aprimora os Modelos Visão-Linguagem para robótica ao integrá-los com ferramentas computacionais externas para realizar cálculos geométricos precisos, superando as limitações de estimativa qualitativa e alcançando precisão em nível de centímetros em tarefas de manipulação real.

Yi Han, Enshen Zhou, Shanyu Rong + 6 more2026-03-05🤖 cs.AI

LaViRA: Language-Vision-Robot Actions Translation for Zero-Shot Vision Language Navigation in Continuous Environments

O LaViRA é um framework zero-shot inovador para navegação visão-linguagem em ambientes contínuos que supera os métodos atuais ao decompor a ação em uma hierarquia de planejamento linguístico, fundamentação visual e controle robótico, aproveitando as capacidades de diferentes modelos de linguagem multimodal para garantir alta generalização e eficiência em cenários não vistos.

Hongyu Ding, Ziming Xu, Yudong Fang + 6 more2026-03-05💻 cs

SoraNav: Adaptive UAV Task-Centric Navigation via Zeroshot VLM Reasoning

O artigo apresenta o SoraNav, um novo quadro que permite a navegação autônoma de UAVs baseada em instruções de linguagem natural em ambientes 3D complexos, utilizando anotação visual multimodal e uma estratégia de decisão adaptativa para superar as limitações espaciais e de alucinação dos modelos VLM atuais, demonstrando desempenho superior em testes reais.

Hongyu Song, Rishabh Dev Yadav, Cheng Guo + 1 more2026-03-05💻 cs

Dynamic-ICP: Doppler-Aware Iterative Closest Point Registration for Dynamic Scenes

O artigo apresenta o Dynamic-ICP, um método de registro de nuvens de pontos que utiliza dados de Doppler de sensores LiDAR FMCW para estimar e compensar objetos dinâmicos, melhorando significativamente a precisão e a estabilidade da odometria em ambientes altamente dinâmicos sem a necessidade de sensores externos.

Dong Wang, Daniel Casado Herraez, Stefan May + 1 more2026-03-05💻 cs

Metric, inertially aligned monocular state estimation via kinetodynamic priors

Este artigo apresenta um método de estimativa de estado monocular para sistemas robóticos flexíveis que integra modelos de deformação aprendidos e cinemática contínua para aplicar leis dinâmicas, permitindo a recuperação robusta de escala métrica e gravidade ao alinhar a aceleração visual com a física do sistema.

Jiaxin Liu, Min Li, Wanting Xu + 3 more2026-03-05💻 cs

CERNet: Class-Embedding Predictive-Coding RNN for Unified Robot Motion, Recognition, and Confidence Estimation

O artigo apresenta o CERNet, um modelo unificado baseado em uma rede neural recorrente de codificação preditiva com vetores de incorporação de classe, que permite a um robô humanoide gerar movimentos, reconhecer intenções em tempo real e estimar a confiança de suas inferências de forma integrada e robusta.

Hiroki Sawada, Alexandre Pitti, Mathias Quoy2026-03-05💻 cs

Agile Flight Emerges from Multi-Agent Competitive Racing

Este trabalho demonstra que a competição multiagente com recompensas esparsas de vitória gera voos ágeis e estratégias complexas que superam métodos de treinamento individual e transferem-se com maior eficácia para o mundo real.

Vineet Pasumarti, Lorenzo Bianchi, Antonio Loquercio2026-03-05🤖 cs.AI

TOLEBI: Learning Fault-Tolerant Bipedal Locomotion via Online Status Estimation and Fallibility Rewards

O artigo apresenta o TOLEBI, um novo quadro de aprendizado baseado em reforço para locomoção bípede que combina transferência sim-to-real e um módulo de estimativa de status online para desenvolver estratégias robustas de tolerância a falhas de hardware e perturbações externas em robôs humanoides.

Hokyun Lee, Woo-Jeong Baek, Junhyeok Cha + 1 more2026-03-05💻 cs

Aerial Manipulation with Contact-Aware Onboard Perception and Hybrid Control

Este artigo apresenta um pipeline completo de percepção e controle embarcado para manipulação aérea com contato rico, que combina odometria visual-inercial aumentada com fatores de consistência de contato e controle híbrido de força-movimento para realizar tarefas de interação física estáveis e precisas sem depender de sistemas de captura de movimento externos.

Yuanzhu Zhan, Yufei Jiang, Muqing Cao + 1 more2026-03-05💻 cs

H-WM: Robotic Task and Motion Planning Guided by Hierarchical World Model

O artigo propõe o H-WM, um modelo de mundo hierárquico que unifica a previsão de transições lógicas e visuais para guiar o planejamento de tarefas e movimentos robóticos, combinando a robustez do raciocínio simbólico de longo prazo com a fundamentação visual para mitigar erros cumulativos.

Jinbang Huang, Wenyuan Chen, Zhiyuan Li + 9 more2026-03-05💻 cs

Learning Physical Principles from Interaction: Self-Evolving Planning via Test-Time Memory

O artigo apresenta o PhysMem, um framework de memória que permite a planejadores robóticos baseados em modelos de linguagem e visão aprenderem princípios físicos durante a interação em tempo de execução, sem atualizar os parâmetros do modelo, ao registrar experiências, gerar hipóteses e validá-las por meio de interações direcionadas antes de aplicá-las para melhorar o desempenho em tarefas de manipulação.

Haoyang Li, Yang You, Hao Su + 1 more2026-03-05🤖 cs.AI

FlowCorrect: Efficient Interactive Correction of Generative Flow Policies for Robotic Manipulation

O artigo apresenta o FlowCorrect, uma abordagem de aprendizado por imitação interativa que permite a adaptação eficiente e em tempo real de políticas de manipulação robótica baseadas em fluxo generativo por meio de correções humanas esparsas, alcançando altas taxas de sucesso em tarefas do mundo real sem a necessidade de retreinamento do modelo.

Edgar Welte, Yitian Shi, Rosa Wolf + 2 more2026-03-05🤖 cs.LG

LiteVLA-Edge: Quantized On-Device Multimodal Control for Embedded Robotics

Este artigo apresenta o LiteVLA-Edge, um pipeline de modelos Visão-Linguagem-Ação otimizado para inferência totalmente local em hardware embarcado, que combina ajuste fino supervisionado e quantização 4-bit para alcançar latências reativas de aproximadamente 6,6 Hz em sistemas robóticos integrados ao ROS 2.

Justin Williams, Kishor Datta Gupta, Roy George + 1 more2026-03-05🤖 cs.AI

Multi-Agent-Based Simulation of Archaeological Mobility in Uneven Landscapes

Este artigo apresenta uma estrutura de modelagem baseada em agentes multiagentes que simula a mobilidade arqueológica em terrenos acidentados, integrando reconstrução realista do terreno, agentes heterogêneos e estratégias de navegação adaptativa por aprendizado por reforço para analisar o comportamento humano e o transporte em paisagens históricas.

Chairi Kiourt, Vassilis Evangelidis, Dimitris Grigoropoulos2026-03-05🤖 cs.AI

Phys4D: Fine-Grained Physics-Consistent 4D Modeling from Video Diffusion

O artigo apresenta o Phys4D, um pipeline de três estágios que transforma modelos de difusão de vídeo em representações 4D consistentes com a física, utilizando pré-treinamento pseudo-supervisionado, ajuste fino baseado em simulação e aprendizado por reforço para garantir coerência geométrica e dinâmica temporal.

Haoran Lu, Shang Wu, Jianshu Zhang + 9 more2026-03-05🤖 cs.AI

Real-time loosely coupled GNSS and IMU integration via Factor Graph Optimization

Este artigo propõe uma arquitetura de integração GNSS/IMU em tempo real baseada em Otimização de Grafos de Fatores (FGO) para ambientes urbanos desafiadores, demonstrando que, embora haja uma redução na precisão de posicionamento em comparação com métodos de processamento em lote, a abordagem oferece maior disponibilidade de serviço e eficiência computacional, estabelecendo um equilíbrio crítico entre precisão, disponibilidade e desempenho em tempo real.

Radu-Andrei Cioaca, Cristian Rusu, Paul Irofti + 3 more2026-03-05🤖 cs.LG

← Anterior Próximo →