IMPACT: Intelligent Motion Planning with Acceptable Contact Trajectories via Vision-Language Models

O artigo apresenta o IMPACT, um novo framework de planejamento de movimento que utiliza Modelos Visuais-Linguísticos para inferir a semântica do ambiente e gerar mapas de custo anisotrópicos, permitindo que robôs realizem trajetórias ricas em contato de forma segura e eficiente em cenários desordenados.

Yiyang Ling, Karan Owalekar, Oluwatobiloba Adesanya, Erdem Bıyık, Daniel SeitaTue, 10 Ma🤖 cs.LG

ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers

O artigo apresenta o ViTaPEs, uma arquitetura baseada em transformers que utiliza codificações de posição visotáteis em dois estágios para aprender representações multimodais robustas e generalizáveis, superando os métodos atuais em tarefas de reconhecimento e manipulação robótica sem depender de modelos pré-treinados de visão e linguagem.

Fotios Lygerakis, Ozan Özdenizci, Elmar RückertTue, 10 Ma🤖 cs.LG

Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification

O artigo propõe o método SGV (Self-Grounded Verification) para mitigar o viés de concordância em Verificadores de LLMs Multimodais, permitindo que eles gerem priores independentes antes de avaliar trajetórias, o que resulta em detectores de falhas mais precisos e alinhados com humanos, melhorando significativamente o desempenho de agentes em tarefas de navegação web, uso de computador e robótica.

Moises Andrade, Joonhyuk Cha, Brandon Ho, Vriksha Srihari, Karmesh Yadav, Zsolt KiraTue, 10 Ma🤖 cs.LG

ORN-CBF: Learning Observation-conditioned Residual Neural Control Barrier Functions via Hypernetworks

Este trabalho propõe o método ORN-CBF, que utiliza redes neurais condicionadas a observações e uma arquitetura de hiperrede baseada em análise de alcançabilidade de Hamilton-Jacobi para garantir segurança rigorosa e recuperar conjuntos seguros máximos em ambientes parcialmente observáveis, demonstrando superioridade em simulações e experimentos com robôs terrestres e quadricópteros.

Bojan Derajic, Sebastian Bernhard, Wolfgang HönigTue, 10 Ma🤖 cs.LG

CroSTAta: Cross-State Transition Attention Transformer for Robotic Manipulation

O artigo apresenta o CroSTAta, um Transformer que utiliza um mecanismo de Atenção à Transição de Estados (STA) e mascaramento temporal para melhorar a robustez e o desempenho de políticas de manipulação robótica ao modelar explicitamente padrões de evolução temporal, como falhas e recuperações, superando abordagens convencionais em tarefas críticas.

Giovanni Minelli, Giulio Turrisi, Victor Barasuol, Claudio SeminiTue, 10 Ma🤖 cs.LG

Pretraining in Actor-Critic Reinforcement Learning for Robot Locomotion

Este trabalho propõe um paradigma de pré-treinamento para aprendizado por reforço em locomoção robótica, onde um Modelo Inverso de Dinâmica Proprioceptivo (PIDM) é treinado com dados de exploração agnósticos a tarefas para inicializar redes de ator e crítico, resultando em ganhos significativos de eficiência de amostra e desempenho de tarefa em comparação com a inicialização aleatória.

Jiale Fan, Andrei Cramariuc, Tifanny Portela, Marco HutterTue, 10 Ma🤖 cs.LG

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

O artigo apresenta o TimeSpot, um novo benchmark com 1.455 imagens reais de 80 países para avaliar a capacidade de modelos de visão e linguagem de inferir atributos geográficos e temporais, revelando que os modelos atuais têm desempenho insuficiente nessa tarefa e destacando a necessidade de novos métodos para um entendimento geo-temporal robusto.

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan ParvezTue, 10 Ma💬 cs.CL

One-Shot Badminton Shuttle Detection for Mobile Robots

Este artigo apresenta um framework robusto de detecção de uma única etapa para raquetes de badminton em robôs móveis, que inclui a criação de um novo conjunto de dados anotados semi-automaticamente, o desenvolvimento de um pipeline de anotação eficiente e a otimização de uma rede YOLOv8 para detecção em tempo real em viewpoints dinâmicos e ambientes variados.

Florentin Dipner, William Talbot, Turcan Tuna, Andrei Cramariuc, Marco HutterTue, 10 Ma💻 cs

A Pivot-Based Kirigami Utensil for Hand-Held and Robot-Assisted Feeding

Este artigo apresenta a "kiri-spoon", uma colher de utensílio reconfigurável baseada em pivô e kirigami, desenvolvida em colaboração com stakeholders para permitir que adultos com tremores essenciais ou Parkinson possam alimentar-se de forma independente ou assistida por robôs, prevenindo derramamentos ao permitir que o usuário aperte as alças para prender ou escorar os alimentos.

Keone Leao, Grace Brotherson, Iain Mischel, Sagar Parekh, Dylan P. LoseyTue, 10 Ma💻 cs

Dynamic Targeting of Satellite Observations Using Supplemental Geostationary Satellite Data and Hierarchical Planning

Este artigo apresenta uma abordagem de planejamento hierárquico que integra dados suplementares de satélites geoestacionários para melhorar o desempenho do direcionamento dinâmico de observações de satélites, superando as limitações de sensores a bordo e alcançando ganhos de até 41% em cenários como evasão de nuvens e caça a tempestades.

Akseli Kangaslahti, Itai Zilberstein, Alberto Candela, Steve ChienTue, 10 Ma💻 cs

Don't Freeze, Don't Crash: Extending the Safe Operating Range of Neural Navigation in Dense Crowds

O artigo propõe uma abordagem de aprendizado por reforço que utiliza codificação de observação invariante à densidade e recompensas adaptativas para permitir que agentes de navegação social generalizem com sucesso para multidões mais densas do que as vistas no treinamento, evitando tanto colisões quanto o congelamento em interações complexas.

Jiefu Zhang, Yang Xu, Vaneet AggarwalTue, 10 Ma🤖 cs.LG

Robotic Foundation Models for Industrial Control: A Comprehensive Survey and Readiness Assessment Framework

Este artigo apresenta uma revisão abrangente dos modelos fundamentais robóticos (RFMs) e propõe um novo framework de avaliação com 149 critérios para analisar sua prontidão industrial, concluindo que, embora promissores, os modelos atuais ainda possuem maturidade limitada para aplicações industriais devido à falta de integração sistemática de segurança, tempo real e robustez.

David Kube, Simon Hadwiger, Tobias MeisenTue, 10 Ma💻 cs