cs.RO artigos | Gist.Science

FlowTouch: View-Invariant Visuo-Tactile Prediction

O artigo apresenta o FlowTouch, um modelo inovador de previsão visuo-tátil que utiliza malhas 3D locais de objetos e modelos de Fluxo de Correspondência para gerar previsões táteis invariantes à visão, superando limitações de configuração específica e permitindo aplicações como a previsão de estabilidade de preensão.

Seongjin Bien, Carlo Kneissl, Tobias Jülg, Frank Fundel, Thomas Ressler-Antal, Florian Walter, Björn Ommer, Gitta Kutyniok, Wolfram Burgard2026-03-10🤖 cs.LG

Seed2Scale: A Self-Evolving Data Engine for Embodied AI via Small to Large Model Synergy and Multimodal Evaluation

O artigo apresenta o Seed2Scale, um motor de dados autoevolutivo que supera limitações na geração de dados para IA corporificada ao combinar a coleta de demonstrações por modelos leves, a avaliação de qualidade por modelos grandes e o aprendizado do modelo-alvo, resultando em um aumento significativo de desempenho e estabilidade durante iterações escaláveis.

Cong Tai, Zhaoyu Zheng, Haixu Long, Hansheng Wu, Zhengbin Long, Haodong Xiang, Rong Shi, Zhuo Cui, Shizhuang Zhang, Gang Qiu, He Wang, Ruifeng Li, Biao Liu, Zhenzhe Sun, Tao Shen2026-03-10💻 cs

SAIL: Test-Time Scaling for In-Context Imitation Learning with VLM

O artigo apresenta o SAIL, um quadro de aprendizado por imitação que utiliza busca em árvore Monte Carlo e modelos de linguagem visual para refinar iterativamente trajetórias de robôs durante o teste, demonstrando que aumentar a capacidade de computação no momento da execução melhora significativamente as taxas de sucesso em tarefas de manipulação complexas.

Makoto Sato, Yusuke Iwasawa, Yujin Tang, So Kuroki2026-03-10💻 cs

Less is More: Robust Zero-Communication 3D Pursuit-Evasion via Representational Parsimony

Este artigo demonstra que a simplificação das representações observacionais e a implementação de um mecanismo de atribuição de crédito local (CGCA) permitem uma coordenação robusta e sem comunicação em cenários de perseguição-evasão 3D, superando abordagens dependentes de comunicação em termos de sucesso e resiliência a atrasos e ruídos.

Jialin Ying, Zhihao Li, Zicheng Dong, Guohua Wu, Yihuan Liao2026-03-10💻 cs

EndoSERV: A Vision-based Endoluminal Robot Navigation System

O artigo apresenta o EndoSERV, um sistema de navegação robótica endoluminal baseado em visão que supera desafios como deformação tecidual e falta de marcos distintivos, utilizando mapeamento segmentar e transferência real-virtual para estimar a odometria sem necessidade de rótulos de pose reais.

Junyang Wu, Fangfang Xie, Minghui Zhang, Hanxiao Zhang, Jiayuan Sun, Yun Gu, Guang-Zhong Yang2026-03-10💻 cs

Hierarchical Multi-Modal Planning for Fixed-Altitude Sparse Target Search and Sampling

O artigo apresenta o HIMoS, um framework de planejamento hierárquico multi-modal que permite a veículos subaquáticos autônomos realizar buscas e amostragem eficientes de corais em fundo marinho com altitude fixa, superando as limitações energéticas das estratégias tradicionais de cobertura exaustiva e das manobras verticais custosas.

Lingpeng Chen, Yuchen Zheng, Apple Pui-Yi Chui, Junfeng Wu, Ziyang Hong2026-03-10💻 cs

PhaForce: Phase-Scheduled Visual-Force Policy Learning with Slow Planning and Fast Correction for Contact-Rich Manipulation

O artigo apresenta o PhaForce, uma política de aprendizado visuoforce baseada em agendamento de fases que combina um planejador lento e um corretor rápido para coordenar planejamento de alto nível e correções em tempo real, alcançando desempenho superior em tarefas de manipulação rica em contato.

Mingxin Wang, Zhirun Yue, Renhao Lu, Yizhe Li, Zihan Wang, Guoping Pan, Kangkang Dong, Jun Cheng, Yi Cheng, Houde Liu2026-03-10💻 cs

Perception-Aware Communication-Free Multi-UAV Coordination in the Wild

Este artigo apresenta um método de coordenação multi-UAV sem comunicação que utiliza sensores LiDAR a bordo para navegação segura e autônoma em ambientes complexos e sem GNSS, como florestas, validando sua eficácia através de simulações e experimentos em campo.

Manuel Boldrer, Michal Kamler, Afzal Ahmad, Martin Saska2026-03-10💻 cs

MoMaStage: Skill-State Graph Guided Planning and Closed-Loop Execution for Long-Horizon Indoor Mobile Manipulation

O MoMaStage é um framework de visão e linguagem estruturado que utiliza um grafo de estado-habilidade e execução em malha fechada para permitir que robôs móveis manipuladores executem tarefas de longo alcance em ambientes internos com maior consistência lógica, adaptabilidade e sucesso, eliminando a necessidade de mapeamento explícito do ambiente.

Chenxu Li, Zixuan Chen, Yetao Li, Jiapeng Xu, Hongyu Ding, Jieqi Shi, Jing Huo, Yang Gao2026-03-10💻 cs

StructBiHOI: Structured Articulation Modeling for Long--Horizon Bimanual Hand--Object Interaction Generation

O artigo apresenta o StructBiHOI, um framework inovador que utiliza modelagem de articulação estruturada com um denoiser baseado em Mamba para gerar interações bimanuais mão-objeto de longo horizonte, superando desafios de estabilidade temporal e coordenação complexa ao separar o planejamento de juntas de longo prazo do refinamento de poses em nível de quadro.

Zhi Wang, Liu Liu, Ruonan Liu, Dan Guo, Meng Wang2026-03-10💻 cs

A Recipe for Stable Offline Multi-agent Reinforcement Learning

Este artigo aborda a instabilidade da decomposição de valores não linear no aprendizado por reforço multiagente offline ao propor a normalização de valores invariante à escala (SVN) para estabilizar o treinamento e estabelecer uma receita prática que desbloqueia o pleno potencial desse paradigma.

Dongsu Lee, Daehee Lee, Amy Zhang2026-03-10🤖 cs.LG

Human-Aware Robot Behaviour in Self-Driving Labs

Este artigo apresenta um método de percepção baseado em IA com previsão hierárquica de intenções humanas que permite aos robôs em laboratórios autônomos antecipar e interagir proativamente com pesquisadores humanos, superando as limitações dos sistemas atuais de detecção de obstruções e otimizando a coordenação em ambientes compartilhados.

Satheeshkumar Veeramani, Anna Kisil, Abigail Bentley, Hatem Fakhruldeen, Gabriella Pizzuto, Andrew I. Cooper2026-03-10💻 cs

Tactile Recognition of Both Shapes and Materials with Automatic Feature Optimization-Enabled Meta Learning

Este artigo propõe o framework AFOP-ML, uma rede prototípica com otimização automática de recursos que utiliza aprendizado meta para realizar o reconhecimento tátil de formas e materiais com alta precisão em cenários de poucos exemplos, superando métodos existentes e demonstrando robustez frente a perturbações e classes não vistas.

Hongliang Zhao, Wenhui Yang, Yang Chen, Zhuorui Wang, Baiheng Liu, Longhui Qin2026-03-10💻 cs

FoMo: A Multi-Season Dataset for Robot Navigation in Forêt Montmorency

O artigo apresenta o conjunto de dados FoMo, uma coleção abrangente de um ano de duração na Floresta Montmorency que registra mudanças sazonais extremas, como neve profunda e crescimento vegetal, para avaliar e demonstrar os desafios que essas variações impõem aos sistemas de localização e mapeamento de robôs.

Matej Boxan, Gabriel Jeanson, Alexander Krawciw, Effie Daum, Xinyuan Qiao, Sven Lilge, Timothy D. Barfoot, François Pomerleau2026-03-10💻 cs

Adaptive Entropy-Driven Sensor Selection in a Camera-LiDAR Particle Filter for Single-Vessel Tracking

Este artigo apresenta um rastreador de partículas com fusão de sensores heterogêneos (câmera e LiDAR) que utiliza uma política adaptativa baseada em ganho de informação para selecionar dinamicamente o sensor mais informativo, demonstrando em um teste real no Chipre que essa abordagem oferece um equilíbrio superior entre precisão e continuidade na vigilância marítima em comparação com o uso isolado de sensores ou a fusão contínua de todos os dados.

Andrei Starodubov, Yaqub Aris Prabowo, Andreas Hadjipieris, Ioannis Kyriakides, Roberto Galeazzi2026-03-10🤖 cs.LG

R2F: Repurposing Ray Frontiers for LLM-free Object Navigation

O artigo propõe o R2F, um framework sem LLMs que reinterpreta as fronteiras de raios como hipóteses semânticas direcionais para navegação de objetos em ambientes internos, alcançando desempenho competitivo em tempo real e até seis vezes mais rápido que alternativas baseadas em grandes modelos de visão e linguagem.

Francesco Argenziano, John Mark Alexis Marcelo, Michele Brienza, Abdel Hakim Drid, Emanuele Musumeci, Daniele Nardi, Domenico D. Bloisi, Vincenzo Suriani2026-03-10💻 cs

LAR-MoE: Latent-Aligned Routing for Mixture of Experts in Robotic Imitation Learning

O artigo apresenta o LAR-MoE, um framework de duas etapas que utiliza um espaço latente aprendido de forma não supervisionada para regular o roteamento de especialistas em arquiteturas Mixture-of-Experts, permitindo que robôs adquiram habilidades de manipulação complexas e generalizem para novos tecidos biológicos sem depender de anotações de fase supervisionadas.

Ariel Rodriguez, Chenpan Li, Lorenzo Mazza, Rayan Younis, Ortrun Hellig, Sebastian Bodenstedt, Martin Wagner, Stefanie Speidel2026-03-10💻 cs

STRIDE: Structured Lagrangian and Stochastic Residual Dynamics via Flow Matching

O artigo apresenta o STRIDE, um framework de aprendizado de dinâmica que combina uma Rede Neural Lagrangiana para modelar a mecânica rígida conservativa com Fluxo de Condição para capturar efeitos estocásticos de interação, resultando em previsões mais precisas e confiáveis para o controle de robôs em ambientes incertos.

Prakrut Kotecha, Ganga Nair B, Shishir Kolathaya2026-03-10🤖 cs.LG

3PoinTr: 3D Point Tracks for Robot Manipulation Pretraining from Casual Videos

O artigo apresenta o 3PoinTr, um método que utiliza uma arquitetura Transformer para prever rastros de pontos 3D a partir de vídeos humanos casuais e desestruturados, permitindo o pré-treinamento eficiente de políticas robóticas com apenas 20 demonstrações rotuladas e superando abordagens anteriores ao lidar eficazmente com a lacuna de embutimento entre humanos e robôs.

Adam Hung, Bardienus Pieter Duisterhof, Jeffrey Ichnowski2026-03-10💻 cs

The Neural Compass: Probabilistic Relative Feature Fields for Robotic Search

O artigo apresenta o ProReFF, um modelo de campo de características probabilístico que aprende implicitamente relações de co-ocorrência de objetos a partir de dados não rotulados para guiar agentes robóticos na busca por objetos em ambientes desconhecidos, alcançando uma eficiência 20% superior às melhores linhas de base e até 80% do desempenho humano.

Gabriele Somaschini, Adrian Röfer, Abhinav Valada2026-03-10🤖 cs.LG

← Anterior Próximo →