RFM-HRI : A Multimodal Dataset of Medical Robot Failure, User Reaction and Recovery Preferences for Item Retrieval Tasks

Il paper presenta il dataset RFM-HRI, una risorsa multimodale che analizza le reazioni verbali e non verbali degli utenti e le loro preferenze di recupero di fronte a specifici fallimenti di interazione durante compiti di prelievo di oggetti con robot medici, fornendo fondamentali indicazioni per migliorare la sicurezza e la fiducia nelle interazioni uomo-robot critiche.

Yashika Batra, Giuliano Pioldi, Promise Ekpo, Arman Sayatqyzy, Purnjay Maruur, Shalom Otieno, Kevin Ching, Angelique Taylor2026-03-09💻 cs

Relational Semantic Reasoning on 3D Scene Graphs for Open World Interactive Object Search

Il paper introduce SCOUT, un metodo innovativo che utilizza grafi di scena 3D e una distillazione procedurale offline da grandi modelli linguistici per abilitare una ricerca interattiva di oggetti in ambienti aperti, superando i limiti di velocità e costo delle soluzioni precedenti mantenendo un'efficace generalizzazione semantica.

Imen Mahdi, Matteo Cassinelli, Fabien Despinoy, Tim Welschehold, Abhinav Valada2026-03-09🤖 cs.AI

Contact-Grounded Policy: Dexterous Visuotactile Policy with Generative Contact Grounding

Il documento presenta la Contact-Grounded Policy (CGP), un approccio che abilita la manipolazione abile e ricca di contatti prevedendo lo stato del robot e il feedback tattile per generare comandi di controllo conformi, validato sia in simulazione che su robot fisico attraverso dimostrazioni teleoperate.

Zhengtong Xu, Yeping Wang, Ben Abbatematteo, Jom Preechayasomboon, Sonny Chan, Nick Colonnese, Amirhossein H. Memar2026-03-09💻 cs

Safe-Night VLA: Seeing the Unseen via Thermal-Perceptive Vision-Language-Action Models for Safety-Critical Manipulation

Il paper presenta Safe-Night VLA, un framework multimodale che integra la percezione termica a infrarossi e vincoli di sicurezza deterministici nei modelli visione-linguaggio-azione, permettendo ai robot di manipolare oggetti in modo sicuro e robusto anche in condizioni di scarsa visibilità o scenari non visti in precedenza.

Dian Yu, Qingchuan Zhou, Bingkun Huang, Majid Khadiv, Zewen Yang2026-03-09💻 cs

EmboAlign: Aligning Video Generation with Compositional Constraints for Zero-Shot Manipulation

Il paper presenta EmboAlign, un framework privo di dati che allinea i modelli generativi video con vincoli compositivi estratti da modelli linguistico-visivi per selezionare rollouts fisicamente plausibili e ottimizzare le traiettorie robotiche, migliorando significativamente il successo delle manipolazioni robotiche zero-shot senza necessità di addestramento specifico.

Gehao Zhang, Zhenyang Ni, Payal Mohapatra, Han Liu, Ruohan Zhang, Qi Zhu2026-03-09💻 cs

Multi-Robot Trajectory Planning via Constrained Bayesian Optimization and Local Cost Map Learning with STL-Based Conflict Resolution

Il paper propone un framework a due stadi che integra l'ottimizzazione bayesiana vincolata e la ricerca basata su conflitti potenziata dalla logica temporale spaziale (STL) per pianificare traiettorie efficienti e sicure per robot multipli soggetti a vincoli cinematici e dinamiche, validando l'approccio sia tramite benchmark che con esperimenti reali su veicoli autonomi.

Sourav Raxit, Abdullah Al Redwan Newaz, Jose Fuentes, Paulo Padrao, Ana Cavalcanti, Leonardo Bobadilla2026-03-09💻 cs

Task-Level Decisions to Gait Level Control: A Hierarchical Policy Approach for Quadruped Navigation

Questo articolo presenta TDGC, un'architettura di policy gerarchica per la navigazione quadrupede che risolve il disallineamento tra decisioni di alto livello e controllo dell'andatura, migliorando la robustezza e l'adattabilità su terreni misti e in scenari fuori distribuzione attraverso un'interfaccia esplicita e un curriculum di addestramento strutturato.

Sijia Li, Haoyu Wang, Shenghai Yuan, Yizhuo Yang, Thien-Minh Nguyen2026-03-09💻 cs

OpenHEART: Opening Heterogeneous Articulated Objects with a Legged Manipulator

Il paper presenta OpenHEART, un framework robusto ed efficiente dal punto di vista del campionamento che utilizza un manipolatore zampe per aprire oggetti articolati eterogenei, sfruttando l'estrazione di caratteristiche astratte (SAFE) e un stimatore di informazioni di articolazione (ArtIEst) per migliorare la generalizzazione e la stima dei movimenti di apertura.

Seonghyeon Lim, Hyeonwoo Lee, Seunghyun Lee, I Made Aswin Nahrendra, Hyun Myung2026-03-09💻 cs

Terrain characterization and locomotion adaptation in a small-scale lizard-inspired robot

Il paper presenta il SILA Bot, un robot ispirato alle lucertole in scala ridotta che utilizza segnali propriocettivi e un semplice controllore lineare per stimare la profondità del terreno granulare e adattare dinamicamente il proprio movimento, permettendo una locomozione efficace in ambienti complessi con bassa complessità computazionale.

Duncan Andrews, Landon Zimmerman, Evan Martin, Joe DiGennaro, Baxi Chong2026-03-09💻 cs

Expert Knowledge-driven Reinforcement Learning for Autonomous Racing via Trajectory Guidance and Dynamics Constraints

Il paper propone il metodo TraD-RL, una strategia di apprendimento per rinforzo guidata da conoscenze esperte e vincoli dinamici che, attraverso una rappresentazione dello stato potenziata, funzioni di barriera per la sicurezza e un curriculum learning multi-fase, ottimizza sinergicamente velocità e stabilità nelle corse autonome.

Bo Leng, Weiqi Zhang, Zhuoren Li, Lu Xiong, Guizhe Jin, Ran Yu, Chen Lv2026-03-09💻 cs

AnyCamVLA: Zero-Shot Camera Adaptation for Viewpoint Robust Vision-Language-Action Models

Il paper presenta AnyCamVLA, un framework di adattamento zero-shot che migliora la robustezza dei modelli Vision-Language-Action alle variazioni di viewpoint sintetizzando in tempo reale le osservazioni della telecamera per corrispondere alla configurazione di addestramento, senza richiedere dati aggiuntivi o fine-tuning.

Hyeongjun Heo, Seungyeon Woo, Sang Min Kim, Junho Kim, Junho Lee, Yonghyeon Lee, Young Min Kim2026-03-09💻 cs

Systematic Evaluation of Novel View Synthesis for Video Place Recognition

Questo articolo presenta una valutazione sistematica dell'impatto delle viste sintetiche innovative sul riconoscimento dei luoghi nei video, dimostrando che l'aggiunta di tali viste migliora le statistiche di riconoscimento e che, per aggiunte più ampie, il numero di viste e il tipo di immagine sono fattori più critici rispetto alla magnitudine del cambiamento di prospettiva.

Muhammad Zawad Mahmud, Samiha Islam, Damian Lyons2026-03-09💻 cs