ELMUR: External Layer Memory with Update/Rewrite for Long-Horizon RL Problems

Das Paper stellt ELMUR vor, eine Transformer-Architektur mit strukturierter externer Speicherprozedur, die durch bidirektionale Cross-Attention und ein LRU-basiertes Update-Verfahren langfristige Abhängigkeiten in teilweise beobachtbaren Umgebungen effektiv modelliert und damit bei Langzeit-Robotersteuerungsaufgaben signifikant bessere Ergebnisse als bestehende Baselines erzielt.

Egor Cherepanov, Alexey K. Kovalev, Aleksandr I. Panov2026-03-05🤖 cs.AI

TIGeR: Tool-Integrated Geometric Reasoning in Vision-Language Models for Robotics

Das Paper stellt TIGeR vor, ein Framework, das Vision-Language-Modelle durch die Generierung und Ausführung präziser geometrischer Berechnungen mit externen Tools von reinen Schätzern zu rechnerischen Systemen weiterentwickelt und so durch ein neues Datenset sowie ein zweistufiges Trainingsverfahren Zentimeter-Genauigkeit für robotische Manipulationsaufgaben erreicht.

Yi Han, Enshen Zhou, Shanyu Rong + 6 more2026-03-05🤖 cs.AI

LaViRA: Language-Vision-Robot Actions Translation for Zero-Shot Vision Language Navigation in Continuous Environments

Die Arbeit stellt LaViRA vor, ein einfaches, zero-shot Framework für die Vision-and-Language Navigation in kontinuierlichen Umgebungen, das durch eine hierarchische Zerlegung der Aktionen in sprachbasierte Planung, visuelle Verankerung und Robotersteuerung die Generalisierungsfähigkeit und Leistungsfähigkeit gegenüber bestehenden Methoden deutlich verbessert.

Hongyu Ding, Ziming Xu, Yudong Fang + 6 more2026-03-05💻 cs

SoraNav: Adaptive UAV Task-Centric Navigation via Zeroshot VLM Reasoning

Das Paper stellt SoraNav vor, ein Framework, das durch die Einführung von Multi-modal Visual Annotation (MVA) und einer adaptiven Entscheidungsstrategie (ADM) die Lücke zwischen null-shot VLM-Reasoning und der präzisen 3D-Raumnavigation von UAVs schließt und damit in realen Experimenten signifikant bessere Erfolgsraten und Navigations-effizienz als bestehende Methoden erzielt.

Hongyu Song, Rishabh Dev Yadav, Cheng Guo + 1 more2026-03-05💻 cs

Metric, inertially aligned monocular state estimation via kinetodynamic priors

Diese Arbeit stellt eine Methode zur metrischen, inertial ausgerichteten monokularen Zustandsschätzung für flexible Robotersysteme vor, die durch die Integration von Kinetodynamik-Priors mittels eines MLP-basierten Deformations-Kraft-Modells und kontinuierlicher B-Spline-Kinematik die Skalierung und Gravitationsbestimmung auch bei nicht-starr deformierenden Strukturen ermöglicht.

Jiaxin Liu, Min Li, Wanting Xu + 3 more2026-03-05💻 cs

CERNet: Class-Embedding Predictive-Coding RNN for Unified Robot Motion, Recognition, and Confidence Estimation

Die Arbeit stellt CERNet vor, ein einheitliches hierarchisches prädiktiv-codierendes rekurrentes neuronales Netzwerk mit einem Klassen-Einbettungsvektor, das einem humanoiden Roboter ermöglicht, Bewegungen in Echtzeit zu generieren, beobachtete Verhaltensweisen zu erkennen und das Vertrauen in diese Erkennung durch interne Vorhersagefehler abzuschätzen.

Hiroki Sawada, Alexandre Pitti, Mathias Quoy2026-03-05💻 cs