cs.RO Arbeiten | Gist.Science

Fine-Tuning Robot Policies While Maintaining User Privacy

Die Arbeit stellt PRoP vor, ein modellunabhängiges Framework, das Robotern ermöglicht, sich durch einen einzigartigen Schlüssel individuell an Benutzerpräferenzen anzupassen, während die dabei gesammelten Daten durch mathematische Gewichtsmanipulation vor externen Beobachtern geschützt bleiben.

Benjamin A. Christie, Sagar Parekh, Dylan P. Losey2026-03-05💻 cs

Category-Level Object Shape and Pose Estimation in Less Than a Millisecond

Die Autoren stellen einen extrem schnellen lokalen Löser vor, der auf Basis von RGB-D-Bildern und kategorisierten Objektpriors gleichzeitig Form und Pose schätzt und dabei durch eine Eigenwertzerlegung eine globale Optimalitätsgarantie in weniger als einer Millisekunde bietet.

Lorenzo Shaikewitz, Tim Nguyen, Luca Carlone2026-03-05💻 cs

RehearseVLA: Simulated Post-Training for VLAs with Physically-Consistent World Model

Die Arbeit stellt RehearseVLA vor, ein RL-basiertes Nachtrainierungs-Framework für Vision-Language-Action-Modelle, das mithilfe eines physikalisch konsistenten Weltmodells und eines VLM-gesteuerten Reflektors kostengünstige, sichere Simulationen ermöglicht, um die Datenineffizienz und Sicherheitsbeschränkungen realer Umgebungen zu überwinden.

Junjin Xiao, Yandan Yang, Xinyuan Chang + 5 more2026-03-05💻 cs

ELMUR: External Layer Memory with Update/Rewrite for Long-Horizon RL Problems

Das Paper stellt ELMUR vor, eine Transformer-Architektur mit strukturierter externer Speicherprozedur, die durch bidirektionale Cross-Attention und ein LRU-basiertes Update-Verfahren langfristige Abhängigkeiten in teilweise beobachtbaren Umgebungen effektiv modelliert und damit bei Langzeit-Robotersteuerungsaufgaben signifikant bessere Ergebnisse als bestehende Baselines erzielt.

Egor Cherepanov, Alexey K. Kovalev, Aleksandr I. Panov2026-03-05🤖 cs.AI

TIGeR: Tool-Integrated Geometric Reasoning in Vision-Language Models for Robotics

Das Paper stellt TIGeR vor, ein Framework, das Vision-Language-Modelle durch die Generierung und Ausführung präziser geometrischer Berechnungen mit externen Tools von reinen Schätzern zu rechnerischen Systemen weiterentwickelt und so durch ein neues Datenset sowie ein zweistufiges Trainingsverfahren Zentimeter-Genauigkeit für robotische Manipulationsaufgaben erreicht.

Yi Han, Enshen Zhou, Shanyu Rong + 6 more2026-03-05🤖 cs.AI

LaViRA: Language-Vision-Robot Actions Translation for Zero-Shot Vision Language Navigation in Continuous Environments

Die Arbeit stellt LaViRA vor, ein einfaches, zero-shot Framework für die Vision-and-Language Navigation in kontinuierlichen Umgebungen, das durch eine hierarchische Zerlegung der Aktionen in sprachbasierte Planung, visuelle Verankerung und Robotersteuerung die Generalisierungsfähigkeit und Leistungsfähigkeit gegenüber bestehenden Methoden deutlich verbessert.

Hongyu Ding, Ziming Xu, Yudong Fang + 6 more2026-03-05💻 cs

SoraNav: Adaptive UAV Task-Centric Navigation via Zeroshot VLM Reasoning

Das Paper stellt SoraNav vor, ein Framework, das durch die Einführung von Multi-modal Visual Annotation (MVA) und einer adaptiven Entscheidungsstrategie (ADM) die Lücke zwischen null-shot VLM-Reasoning und der präzisen 3D-Raumnavigation von UAVs schließt und damit in realen Experimenten signifikant bessere Erfolgsraten und Navigations-effizienz als bestehende Methoden erzielt.

Hongyu Song, Rishabh Dev Yadav, Cheng Guo + 1 more2026-03-05💻 cs

Dynamic-ICP: Doppler-Aware Iterative Closest Point Registration for Dynamic Scenes

Das Paper stellt Dynamic-ICP vor, einen Doppler-bewussten Registrierungsansatz für FMCW-LiDAR, der durch die Kombination von geometrischen und Doppler-Residuen eine robuste Odometrie in hochdynamischen Umgebungen ohne externe Sensoren ermöglicht.

Dong Wang, Daniel Casado Herraez, Stefan May + 1 more2026-03-05💻 cs

Metric, inertially aligned monocular state estimation via kinetodynamic priors

Diese Arbeit stellt eine Methode zur metrischen, inertial ausgerichteten monokularen Zustandsschätzung für flexible Robotersysteme vor, die durch die Integration von Kinetodynamik-Priors mittels eines MLP-basierten Deformations-Kraft-Modells und kontinuierlicher B-Spline-Kinematik die Skalierung und Gravitationsbestimmung auch bei nicht-starr deformierenden Strukturen ermöglicht.

Jiaxin Liu, Min Li, Wanting Xu + 3 more2026-03-05💻 cs

CERNet: Class-Embedding Predictive-Coding RNN for Unified Robot Motion, Recognition, and Confidence Estimation

Die Arbeit stellt CERNet vor, ein einheitliches hierarchisches prädiktiv-codierendes rekurrentes neuronales Netzwerk mit einem Klassen-Einbettungsvektor, das einem humanoiden Roboter ermöglicht, Bewegungen in Echtzeit zu generieren, beobachtete Verhaltensweisen zu erkennen und das Vertrauen in diese Erkennung durch interne Vorhersagefehler abzuschätzen.

Hiroki Sawada, Alexandre Pitti, Mathias Quoy2026-03-05💻 cs

Agile Flight Emerges from Multi-Agent Competitive Racing

Diese Studie zeigt, dass durch Multi-Agenten-Wettrennen mit sparsamen Zielvorgaben sowohl agile Flugmanöver als auch strategisches Verhalten erlernt werden, was im Vergleich zu isoliert trainierten Agenten eine überlegene Leistung und eine zuverlässigere Übertragung von der Simulation in die reale Welt ermöglicht.

Vineet Pasumarti, Lorenzo Bianchi, Antonio Loquercio2026-03-05🤖 cs.AI

TOLEBI: Learning Fault-Tolerant Bipedal Locomotion via Online Status Estimation and Fallibility Rewards

Die Arbeit stellt TOLEBI vor, ein Lernframework für fehlertolerante bipedale Fortbewegung, das durch Simulation von Hardwarefehlern und einen Online-Statusmodul zur Klassifizierung von Gelenkzuständen robuste Laufstrategien für den realen Einsatz entwickelt.

Hokyun Lee, Woo-Jeong Baek, Junhyeok Cha + 1 more2026-03-05💻 cs

Aerial Manipulation with Contact-Aware Onboard Perception and Hybrid Control

Die vorgestellte Arbeit präsentiert eine vollständig onboard-basierte Wahrnehmungs- und Steuerungskette für berührungsreiche Luftmanipulation, die durch eine kontaktbewusste visuelle-inertiale Odometrie und einen hybriden Kraft-Bewegungsregler präzise Kontaktkräfte ohne externe Motion-Capture-Systeme ermöglicht.

Yuanzhu Zhan, Yufei Jiang, Muqing Cao + 1 more2026-03-05💻 cs

H-WM: Robotic Task and Motion Planning Guided by Hierarchical World Model

Die Arbeit stellt H-WM vor, ein hierarchisches Weltmodell, das logische und visuelle Zustandsübergänge in einem einheitlichen Framework kombiniert, um die Robustheit und Genauigkeit von Roboteraufgaben über lange Zeithorizonte zu verbessern.

Jinbang Huang, Wenyuan Chen, Zhiyuan Li + 9 more2026-03-05💻 cs

Learning Physical Principles from Interaction: Self-Evolving Planning via Test-Time Memory

Die Arbeit stellt PhysMem vor, ein Testzeit-Gedächtnisframework, das Vision-Language-Modelle befähigt, durch gezielte Interaktion und Hypothesenverifikation physikalische Prinzipien zu erlernen und so die Erfolgsrate bei Roboter-Manipulationsaufgaben ohne Parameter-Updates signifikant zu steigern.

Haoyang Li, Yang You, Hao Su + 1 more2026-03-05🤖 cs.AI

FlowCorrect: Efficient Interactive Correction of Generative Flow Policies for Robotic Manipulation

FlowCorrect ist ein effizientes, interaktives Lernverfahren, das generative Fluss-Policies für die robotische Manipulation durch spärliche menschliche Korrekturen in Echtzeit anpasst, ohne das Grundmodell neu trainieren zu müssen, und so die Erfolgsrate bei vorherigen Fehlern deutlich steigert.

Edgar Welte, Yitian Shi, Rosa Wolf + 2 more2026-03-05🤖 cs.LG

LiteVLA-Edge: Quantized On-Device Multimodal Control for Embedded Robotics

Dieses Paper stellt LiteVLA-Edge vor, eine auf Jetson-Hardware optimierte Pipeline für die vollständige On-Device-Inferenz quantisierter Vision-Language-Action-Modelle, die eine reaktive, offline-fähige robotische Steuerung mit einer Latenz von etwa 150 ms ermöglicht.

Justin Williams, Kishor Datta Gupta, Roy George + 1 more2026-03-05🤖 cs.AI

Multi-Agent-Based Simulation of Archaeological Mobility in Uneven Landscapes

Diese Studie stellt einen Multi-Agenten-Simulationsrahmen vor, der durch die Integration realistischer Geländedaten, heterogener Agentenmodelle und verstärkendem Lernen das Verständnis von archäologischer Mobilität in unebenem Terrain ermöglicht.

Chairi Kiourt, Vassilis Evangelidis, Dimitris Grigoropoulos2026-03-05🤖 cs.AI

Phys4D: Fine-Grained Physics-Consistent 4D Modeling from Video Diffusion

Die Arbeit stellt Phys4D vor, eine Pipeline, die durch ein dreistufiges Trainingsparadigma aus Video-Diffusionsmodellen physik-konsistente 4D-Weltdarstellungen ableitet und dabei geometrische Kohärenz sowie langfristige physikalische Plausibilität signifikant verbessert.

Haoran Lu, Shang Wu, Jianshu Zhang + 9 more2026-03-05🤖 cs.AI

Real-time loosely coupled GNSS and IMU integration via Factor Graph Optimization

Diese Arbeit stellt eine Echtzeit-Implementierung einer lose gekoppelten GNSS/IMU-Integration mittels Faktorgraphen-Optimierung vor, die in urbanen Umgebungen eine erhöhte Verfügbarkeit gegenüber Batch-Verfahren bietet, jedoch mit einem Kompromiss bei der Positionsgenauigkeit einhergeht.

Radu-Andrei Cioaca, Cristian Rusu, Paul Irofti + 3 more2026-03-05🤖 cs.LG

← Zurück Weiter →