RehearseVLA: Simulated Post-Training for VLAs with Physically-Consistent World Model

O artigo apresenta o RehearseVLA, um framework de pós-treinamento baseado em aprendizado por reforço que utiliza um simulador de mundo virtual fisicamente consistente e um refletor guiado por modelos de visão e linguagem para superar a escassez de dados e as limitações de segurança na adaptação de modelos Visão-Linguagem-Ação (VLA) para tarefas robóticas complexas.

Junjin Xiao, Yandan Yang, Xinyuan Chang + 5 more2026-03-05💻 cs

LaViRA: Language-Vision-Robot Actions Translation for Zero-Shot Vision Language Navigation in Continuous Environments

O LaViRA é um framework zero-shot inovador para navegação visão-linguagem em ambientes contínuos que supera os métodos atuais ao decompor a ação em uma hierarquia de planejamento linguístico, fundamentação visual e controle robótico, aproveitando as capacidades de diferentes modelos de linguagem multimodal para garantir alta generalização e eficiência em cenários não vistos.

Hongyu Ding, Ziming Xu, Yudong Fang + 6 more2026-03-05💻 cs

SoraNav: Adaptive UAV Task-Centric Navigation via Zeroshot VLM Reasoning

O artigo apresenta o SoraNav, um novo quadro que permite a navegação autônoma de UAVs baseada em instruções de linguagem natural em ambientes 3D complexos, utilizando anotação visual multimodal e uma estratégia de decisão adaptativa para superar as limitações espaciais e de alucinação dos modelos VLM atuais, demonstrando desempenho superior em testes reais.

Hongyu Song, Rishabh Dev Yadav, Cheng Guo + 1 more2026-03-05💻 cs

Aerial Manipulation with Contact-Aware Onboard Perception and Hybrid Control

Este artigo apresenta um pipeline completo de percepção e controle embarcado para manipulação aérea com contato rico, que combina odometria visual-inercial aumentada com fatores de consistência de contato e controle híbrido de força-movimento para realizar tarefas de interação física estáveis e precisas sem depender de sistemas de captura de movimento externos.

Yuanzhu Zhan, Yufei Jiang, Muqing Cao + 1 more2026-03-05💻 cs

Learning Physical Principles from Interaction: Self-Evolving Planning via Test-Time Memory

O artigo apresenta o PhysMem, um framework de memória que permite a planejadores robóticos baseados em modelos de linguagem e visão aprenderem princípios físicos durante a interação em tempo de execução, sem atualizar os parâmetros do modelo, ao registrar experiências, gerar hipóteses e validá-las por meio de interações direcionadas antes de aplicá-las para melhorar o desempenho em tarefas de manipulação.

Haoyang Li, Yang You, Hao Su + 1 more2026-03-05🤖 cs.AI

FlowCorrect: Efficient Interactive Correction of Generative Flow Policies for Robotic Manipulation

O artigo apresenta o FlowCorrect, uma abordagem de aprendizado por imitação interativa que permite a adaptação eficiente e em tempo real de políticas de manipulação robótica baseadas em fluxo generativo por meio de correções humanas esparsas, alcançando altas taxas de sucesso em tarefas do mundo real sem a necessidade de retreinamento do modelo.

Edgar Welte, Yitian Shi, Rosa Wolf + 2 more2026-03-05🤖 cs.LG

Multi-Agent-Based Simulation of Archaeological Mobility in Uneven Landscapes

Este artigo apresenta uma estrutura de modelagem baseada em agentes multiagentes que simula a mobilidade arqueológica em terrenos acidentados, integrando reconstrução realista do terreno, agentes heterogêneos e estratégias de navegação adaptativa por aprendizado por reforço para analisar o comportamento humano e o transporte em paisagens históricas.

Chairi Kiourt, Vassilis Evangelidis, Dimitris Grigoropoulos2026-03-05🤖 cs.AI

Real-time loosely coupled GNSS and IMU integration via Factor Graph Optimization

Este artigo propõe uma arquitetura de integração GNSS/IMU em tempo real baseada em Otimização de Grafos de Fatores (FGO) para ambientes urbanos desafiadores, demonstrando que, embora haja uma redução na precisão de posicionamento em comparação com métodos de processamento em lote, a abordagem oferece maior disponibilidade de serviço e eficiência computacional, estabelecendo um equilíbrio crítico entre precisão, disponibilidade e desempenho em tempo real.

Radu-Andrei Cioaca, Cristian Rusu, Paul Irofti + 3 more2026-03-05🤖 cs.LG