RFM-HRI : A Multimodal Dataset of Medical Robot Failure, User Reaction and Recovery Preferences for Item Retrieval Tasks

Die Studie stellt den multimodalen RFM-HRI-Datensatz vor, der menschliche Reaktionen und Wiederherstellungspräferenzen bei Fehlern medizinischer Roboter während der Entnahme von Gegenständen erfasst, um die Grundlage für zuverlässigere Fehlererkennung und -behebung in sicherheitskritischen HRI-Szenarien zu schaffen.

Yashika Batra, Giuliano Pioldi, Promise Ekpo, Arman Sayatqyzy, Purnjay Maruur, Shalom Otieno, Kevin Ching, Angelique Taylor2026-03-09💻 cs

Relational Semantic Reasoning on 3D Scene Graphs for Open World Interactive Object Search

Die Arbeit stellt SCOUT vor, eine effiziente Methode zur interaktiven Objektsuche in offenen Welten, die durch die Suche in 3D-Szenengraphen und eine procedurale Distillation von LLM-Wissen in leichte Modelle eine Echtzeit-Leistung bei hoher semantischer Generalisierung ermöglicht, was durch das neue Benchmark SymSearch und reale Experimente validiert wird.

Imen Mahdi, Matteo Cassinelli, Fabien Despinoy, Tim Welschehold, Abhinav Valada2026-03-09🤖 cs.AI

Contact-Grounded Policy: Dexterous Visuotactile Policy with Generative Contact Grounding

Die Arbeit stellt die Contact-Grounded-Policy (CGP) vor, eine Methode für dexterous Manipulation, die durch die Vorhersage von Roboterkontaktzuständen und taktilem Feedback sowie deren Umwandlung in Steuerungsziele feingranulare, kontaktreiche Aufgaben sowohl in Simulation als auch auf physischen Robotern erfolgreich bewältigt.

Zhengtong Xu, Yeping Wang, Ben Abbatematteo, Jom Preechayasomboon, Sonny Chan, Nick Colonnese, Amirhossein H. Memar2026-03-09💻 cs

Vision-Language System using Open-Source LLMs for Gestures in Medical Interpreter Robots

Diese Arbeit stellt ein datenschutzfreundliches Vision-Language-Framework für medizinische Dolmetscherroboter vor, das auf lokal eingesetzten Open-Source-LLMs basiert, um sprachliche Handlungen zu erkennen und menschenähnliche Gesten zu generieren, wobei ein neuartiger klinischer Datensatz und eine hohe Genauigkeit von 0,90 die Wirksamkeit des Ansatzes belegen.

Thanh-Tung Ngo, Emma Murphy, Robert J. Ross2026-03-09💻 cs

Safe-Night VLA: Seeing the Unseen via Thermal-Perceptive Vision-Language-Action Models for Safety-Critical Manipulation

Der Artikel stellt Safe-Night VLA vor, ein multimodales Framework, das durch die Integration von Wärmebildsensoren in ein Vision-Language-Action-Modell und die Anwendung von Control Barrier Functions Robotern ermöglicht, in unsicheren Umgebungen unsichtbare thermische Merkmale zu erkennen und sichere Manipulationsaufgaben durchzuführen.

Dian Yu, Qingchuan Zhou, Bingkun Huang, Majid Khadiv, Zewen Yang2026-03-09💻 cs

EmboAlign: Aligning Video Generation with Compositional Constraints for Zero-Shot Manipulation

Die Arbeit stellt EmboAlign vor, ein datenfreies Framework, das Video-Generierungsmodelle durch die Nutzung von Vision-Language-Modellen zur Extraktion kompositorischer Constraints mit robotischen Manipulationsaufgaben abstimmt, um die Erfolgsrate bei Null-Shot-Aufgaben ohne spezifisches Training signifikant zu steigern.

Gehao Zhang, Zhenyang Ni, Payal Mohapatra, Han Liu, Ruohan Zhang, Qi Zhu2026-03-09💻 cs

Multi-Robot Trajectory Planning via Constrained Bayesian Optimization and Local Cost Map Learning with STL-Based Conflict Resolution

Die Autoren stellen einen zweistufigen Rahmen vor, der eine durch Bayessche Optimierung gesteuerte Trajektorienplanung für einzelne Roboter mit einem STL-erweiterten Konfliktbasierten Suchalgorithmus für Multi-Roboter-Systeme kombiniert, um kinodynamisch eingeschränkte Bewegungsplanung unter Signal-Temporal-Logic-Spezifikationen effizient und sicher zu lösen.

Sourav Raxit, Abdullah Al Redwan Newaz, Jose Fuentes, Paulo Padrao, Ana Cavalcanti, Leonardo Bobadilla2026-03-09💻 cs

Task-Level Decisions to Gait Level Control: A Hierarchical Policy Approach for Quadruped Navigation

Dieses Paper stellt TDGC vor, einen hierarchischen Policy-Ansatz für die Navigation von Vierbein-Robotern, der eine robuste Sim-zu-Real-Übertragung durch die Trennung von hochleveligen Aufgabenentscheidungen und niedrigleveliger Gangsteuerung ermöglicht und dabei explizite Schnittstellen für Anpassungen sowie eine strukturierte Curriculum-Lernmethode bietet.

Sijia Li, Haoyu Wang, Shenghai Yuan, Yizhuo Yang, Thien-Minh Nguyen2026-03-09💻 cs

CDF-Glove: A Cable-Driven Force Feedback Glove for Dexterous Teleoperation

Die Arbeit stellt die CDF-Glove vor, eine kostengünstige, leichte und kabelgetriebene Handschuh-Plattform mit Kraft-Rückkopplung, die die Qualität von teleoperierten Demonstrationen für das Imitationslernen durch Echtzeit-Feedback signifikant verbessert und damit die Erfolgsrate von Roboteraufgaben im Vergleich zu Systemen ohne Rückkopplung vervierfacht.

Huayue Liang, Ruochong Li, Yaodong Yang, Long Zeng, Yuanpei Chen, Xueqian Wang2026-03-09💻 cs

Expert Knowledge-driven Reinforcement Learning for Autonomous Racing via Trajectory Guidance and Dynamics Constraints

Diese Arbeit stellt TraD-RL vor, eine reinforcement-learning-basierte Methode für autonomes Rennfahren, die durch die Integration von Expertenwissen zur Trajektorienführung, dynamische Sicherheitsbeschränkungen und ein mehrstufiges Curriculum-Lernen sowohl die Fahrstabilität als auch die Rundenzeiten in hochdynamischen Umgebungen signifikant verbessert.

Bo Leng, Weiqi Zhang, Zhuoren Li, Lu Xiong, Guizhe Jin, Ran Yu, Chen Lv2026-03-09💻 cs

Systematic Evaluation of Novel View Synthesis for Video Place Recognition

Diese Studie führt eine systematische Evaluierung der synthetischen Neuansichtengenerierung für die Video-Ortserkennung durch und zeigt, dass bereits kleine Mengen zusätzlicher Ansichten die Erkennungsleistung verbessern, wobei bei größeren Datenmengen die Anzahl der hinzugefügten Ansichten und die Bildart wichtiger sind als die reine Blickwinkeländerung.

Muhammad Zawad Mahmud, Samiha Islam, Damian Lyons2026-03-09💻 cs