ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers

O artigo apresenta o ViTaPEs, uma arquitetura baseada em transformers que utiliza codificações de posição visotáteis em dois estágios para aprender representações multimodais robustas e generalizáveis, superando os métodos atuais em tarefas de reconhecimento e manipulação robótica sem depender de modelos pré-treinados de visão e linguagem.

Fotios Lygerakis, Ozan Özdenizci, Elmar Rückert2026-03-10🤖 cs.LG

Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification

O artigo propõe o método SGV (Self-Grounded Verification) para mitigar o viés de concordância em Verificadores de LLMs Multimodais, permitindo que eles gerem priores independentes antes de avaliar trajetórias, o que resulta em detectores de falhas mais precisos e alinhados com humanos, melhorando significativamente o desempenho de agentes em tarefas de navegação web, uso de computador e robótica.

Moises Andrade, Joonhyuk Cha, Brandon Ho, Vriksha Srihari, Karmesh Yadav, Zsolt Kira2026-03-10🤖 cs.LG

Improving the Resilience of Quadrotors in Underground Environments by Combining Learning-based and Safety Controllers

Este trabalho apresenta um sistema de controle híbrido que combina um controlador baseado em aprendizado com um controlador de segurança, utilizando um monitor de runtime baseado em fluxo normalizante para detectar ambientes fora da distribuição e garantir a navegação segura e eficiente de quadricópteros em cavernas subterrâneas.

Isaac Ronald Ward, Mark Paral, Kristopher Riordan + 1 more2026-03-10⚡ eess

ORN-CBF: Learning Observation-conditioned Residual Neural Control Barrier Functions via Hypernetworks

Este trabalho propõe o método ORN-CBF, que utiliza redes neurais condicionadas a observações e uma arquitetura de hiperrede baseada em análise de alcançabilidade de Hamilton-Jacobi para garantir segurança rigorosa e recuperar conjuntos seguros máximos em ambientes parcialmente observáveis, demonstrando superioridade em simulações e experimentos com robôs terrestres e quadricópteros.

Bojan Derajic, Sebastian Bernhard, Wolfgang Hönig2026-03-10🤖 cs.LG

CroSTAta: Cross-State Transition Attention Transformer for Robotic Manipulation

O artigo apresenta o CroSTAta, um Transformer que utiliza um mecanismo de Atenção à Transição de Estados (STA) e mascaramento temporal para melhorar a robustez e o desempenho de políticas de manipulação robótica ao modelar explicitamente padrões de evolução temporal, como falhas e recuperações, superando abordagens convencionais em tarefas críticas.

Giovanni Minelli, Giulio Turrisi, Victor Barasuol, Claudio Semini2026-03-10🤖 cs.LG

Pretraining in Actor-Critic Reinforcement Learning for Robot Locomotion

Este trabalho propõe um paradigma de pré-treinamento para aprendizado por reforço em locomoção robótica, onde um Modelo Inverso de Dinâmica Proprioceptivo (PIDM) é treinado com dados de exploração agnósticos a tarefas para inicializar redes de ator e crítico, resultando em ganhos significativos de eficiência de amostra e desempenho de tarefa em comparação com a inicialização aleatória.

Jiale Fan, Andrei Cramariuc, Tifanny Portela, Marco Hutter2026-03-10🤖 cs.LG

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

O artigo apresenta o TimeSpot, um novo benchmark com 1.455 imagens reais de 80 países para avaliar a capacidade de modelos de visão e linguagem de inferir atributos geográficos e temporais, revelando que os modelos atuais têm desempenho insuficiente nessa tarefa e destacando a necessidade de novos métodos para um entendimento geo-temporal robusto.

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan Parvez2026-03-10💬 cs.CL

One-Shot Badminton Shuttle Detection for Mobile Robots

Este artigo apresenta um framework robusto de detecção de uma única etapa para raquetes de badminton em robôs móveis, que inclui a criação de um novo conjunto de dados anotados semi-automaticamente, o desenvolvimento de um pipeline de anotação eficiente e a otimização de uma rede YOLOv8 para detecção em tempo real em viewpoints dinâmicos e ambientes variados.

Florentin Dipner, William Talbot, Turcan Tuna, Andrei Cramariuc, Marco Hutter2026-03-10💻 cs

A Pivot-Based Kirigami Utensil for Hand-Held and Robot-Assisted Feeding

Este artigo apresenta a "kiri-spoon", uma colher de utensílio reconfigurável baseada em pivô e kirigami, desenvolvida em colaboração com stakeholders para permitir que adultos com tremores essenciais ou Parkinson possam alimentar-se de forma independente ou assistida por robôs, prevenindo derramamentos ao permitir que o usuário aperte as alças para prender ou escorar os alimentos.

Keone Leao, Grace Brotherson, Iain Mischel, Sagar Parekh, Dylan P. Losey2026-03-10💻 cs

Dynamic Targeting of Satellite Observations Using Supplemental Geostationary Satellite Data and Hierarchical Planning

Este artigo apresenta uma abordagem de planejamento hierárquico que integra dados suplementares de satélites geoestacionários para melhorar o desempenho do direcionamento dinâmico de observações de satélites, superando as limitações de sensores a bordo e alcançando ganhos de até 41% em cenários como evasão de nuvens e caça a tempestades.

Akseli Kangaslahti, Itai Zilberstein, Alberto Candela, Steve Chien2026-03-10💻 cs

Don't Freeze, Don't Crash: Extending the Safe Operating Range of Neural Navigation in Dense Crowds

O artigo propõe uma abordagem de aprendizado por reforço que utiliza codificação de observação invariante à densidade e recompensas adaptativas para permitir que agentes de navegação social generalizem com sucesso para multidões mais densas do que as vistas no treinamento, evitando tanto colisões quanto o congelamento em interações complexas.

Jiefu Zhang, Yang Xu, Vaneet Aggarwal2026-03-10🤖 cs.LG

Robotic Foundation Models for Industrial Control: A Comprehensive Survey and Readiness Assessment Framework

Este artigo apresenta uma revisão abrangente dos modelos fundamentais robóticos (RFMs) e propõe um novo framework de avaliação com 149 critérios para analisar sua prontidão industrial, concluindo que, embora promissores, os modelos atuais ainda possuem maturidade limitada para aplicações industriais devido à falta de integração sistemática de segurança, tempo real e robustez.

David Kube, Simon Hadwiger, Tobias Meisen2026-03-10💻 cs