M2M^2-Occ: Resilient 3D Semantic Occupancy Prediction for Autonomous Driving with Incomplete Camera Inputs

O artigo apresenta o M2M^2-Occ, um framework inovador para previsão de oclusão semântica 3D em direção autônoma que utiliza reconstrução mascarada multiview e memória de características para manter a precisão geométrica e semântica mesmo na ausência de múltiplas câmeras, superando significativamente os métodos existentes em cenários de falha de visão.

Kaixin Lin, Kunyu Peng, Di Wen, Yufan Chen, Ruiping Liu, Kailun YangWed, 11 Ma⚡ eess

Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments

Este artigo apresenta o SACA, um novo quadro de alinhamento contrastivo sensível a etapas que extrai supervisão densa de trajetórias imperfeitas para superar as limitações de generalização e estabilidade no treinamento de agentes de Navegação Visão-Linguagem em Ambientes Contínuos, alcançando desempenho state-of-the-art.

Haoyuan Li, Rui Liu, Hehe Fan, Yi YangWed, 11 Ma💻 cs

PanoAffordanceNet: Towards Holistic Affordance Grounding in 360{\deg} Indoor Environments

O artigo apresenta o PanoAffordanceNet, um novo framework e conjunto de dados (360-AGD) que estabelecem a tarefa de "Grounding de Apropriação Holística" em ambientes internos de 360°, superando desafios como distorções geométricas e dispersão semântica para permitir uma percepção global em agentes corporificados.

Guoliang Zhu, Wanjun Jia, Caoyang Shao, Yuheng Zhang, Zhiyong Li, Kailun YangWed, 11 Ma⚡ eess

TIMID: Time-Dependent Mistake Detection in Videos of Robot Executions

O artigo apresenta o TIMID, uma nova arquitetura de detecção de anomalias em vídeos que utiliza aprendizado supervisionado fraco e um conjunto de dados de simulação multi-robô para identificar erros temporais dependentes do tempo em tarefas de alto nível executadas por robôs, superando as limitações de modelos de linguagem visuais existentes.

Nerea Gallego (University of Zaragoza), Fernando Salanova (University of Zaragoza), Claudio Mannarano (University of Zaragoza, University of Torino), Cristian Mahulea (University of Zaragoza), Eduardo Montijano (University of Zaragoza)Wed, 11 Ma💻 cs

Emerging Extrinsic Dexterity in Cluttered Scenes via Dynamics-aware Policy Learning

Este artigo apresenta o framework DAPL, que utiliza modelagem de mundo explícita para aprender representações de dinâmicas induzidas por contato, permitindo que a destreza extrínseca em cenas desordenadas surja naturalmente sem heurísticas manuais e superando métodos existentes tanto em simulação quanto em aplicações do mundo real.

Yixin Zheng, Jiangran Lyu, Yifan Zhang, Jiayi Chen, Mi Yan, Yuntian Deng, Xuesong Shi, Xiaoguang Zhao, Yizhou Wang, Zhizheng Zhang, He WangWed, 11 Ma🤖 cs.AI

Robust Cooperative Localization in Featureless Environments: A Comparative Study of DCL, StCL, CCL, CI, and Standard-CL

Este artigo apresenta um estudo comparativo de cinco abordagens de localização cooperativa em ambientes sem características, revelando que, embora métodos como StCL e Standard-CL ofereçam alta precisão, eles sofrem de inconsistência, enquanto a Interseção de Covariância (CI) se destaca como a solução mais equilibrada, combinando consistência robusta com precisão competitiva.

Nivand Khosravi, Meysam Basiri, Rodrigo VenturaWed, 11 Ma💻 cs

Kinodynamic Motion Retargeting for Humanoid Locomotion via Multi-Contact Whole-Body Trajectory Optimization

O artigo apresenta o KDMR, uma nova estrutura de retransmissão de movimento cinodinâmico que formula a locomoção humanoides como um problema de otimização de trajetória corporal completa com múltiplos contatos, superando as limitações de métodos puramente cinemáticos ao garantir consistência física e melhorar o treinamento de políticas de controle.

Xiaoyu Zhang, Steven Haener, Varun Madabushi, Maegan TuckerWed, 11 Ma💻 cs

BEACON: Language-Conditioned Navigation Affordance Prediction under Occlusion

O artigo apresenta o BEACON, um método que supera as limitações de navegação baseada em linguagem em cenários com oclusão ao prever um mapa de calor de affordance em visão de pássaro (BEV) a partir de observações multiview, alcançando uma melhoria significativa de 22,74 pontos percentuais em relação às abordagens de estado da arte baseadas em espaço de imagem.

Xinyu Gao, Gang Chen, Javier Alonso-MoraWed, 11 Ma🤖 cs.AI

TiPToP: A Modular Open-Vocabulary Planning System for Robotic Manipulation

O artigo apresenta o TiPToP, um sistema modular de planejamento de manipulação robótica que combina modelos de visão pré-treinados com um planejador de tarefas e movimentos para executar tarefas complexas a partir de imagens e instruções em linguagem natural sem necessidade de dados de treinamento específicos do robô, demonstrando desempenho superior ou equivalente a modelos de ação visão-linguagem treinados com milhares de horas de demonstrações.

William Shen, Nishanth Kumar, Sahit Chintalapudi, Jie Wang, Christopher Watson, Edward Hu, Jing Cao, Dinesh Jayaraman, Leslie Pack Kaelbling, Tomás Lozano-PérezWed, 11 Ma💻 cs

Influence-Based Reward Modulation for Implicit Communication in Human-Robot Interaction

Este artigo apresenta um método que utiliza Entropia de Transferência para modular a influência entre agentes em interações humano-robô, demonstrando que o reforço dessa influência melhora a colaboração e a comunicação implícita, enquanto a resistência a ela promove independência social, validado através de simulações e experimentos reais em navegação e direção autônoma.

Haoyang Jiang, Elizabeth A. Croft, Michael G. BurkeTue, 10 Ma💻 cs

From Pixels to Predicates: Learning Symbolic World Models via Pretrained Vision-Language Models

Este artigo propõe um método que utiliza modelos de visão e linguagem pré-treinados para aprender modelos de mundo simbólicos abstratos a partir de demonstrações curtas, permitindo que robôs generalizem para zero-shot e resolvam problemas de tomada de decisão de longo horizonte em cenários complexos e variados através de planejamento.

Ashay Athalye, Nishanth Kumar, Tom Silver, Yichao Liang, Jiuguang Wang, Tomás Lozano-Pérez, Leslie Pack KaelblingTue, 10 Ma🤖 cs.LG