cs.RO Arbeiten | Gist.Science

ICLR: In-Context Imitation Learning with Visual Reasoning

Das Paper stellt ICLR vor, ein neuartiges Framework für kontextbasiertes Imitationslernen, das durch die Integration strukturierter visueller Schlussfolgerungen über zukünftige Robotertrajektorien in einen einheitlichen autoregressiven Transformer die Generalisierungsfähigkeit und Erfolgsrate von Robotern bei komplexen Manipulationsaufgaben im Vergleich zu bestehenden Methoden signifikant verbessert.

Toan Nguyen, Weiduo Yuan, Songlin Wei, Hui Li, Daniel Seita, Yue Wang2026-03-10💻 cs

ACCURATE: Arbitrary-shaped Continuum Reconstruction Under Robust Adaptive Two-view Estimation

Das Paper stellt ACCURATE vor, ein 3D-Rekonstruktionsframework, das neuronale Segmentierung mit einem geometrie-beschränkten Topologie-Traversierungs- und Dynamischen-Programmierungsalgorithmus kombiniert, um die präzise und robuste Rekonstruktion beliebig geformter, langer, schlanker Kontinuumskörper wie Katheter aus zwei Röntgenansichten zu ermöglichen.

Yaozhi Zhang, Shun Yu, Yugang Zhang, Yang Liu2026-03-10💻 cs

ReconDrive: Fast Feed-Forward 4D Gaussian Splatting for Autonomous Driving Scene Reconstruction

ReconDrive ist ein feed-forward Framework, das den 3D-Foundation-Modell VGGT durch hybride Vorhersageköpfe und eine statisch-dynamische 4D-Kompositionsstrategie erweitert, um für autonome Fahrzeugszenen eine skalierbare, hochpräzise und extrem schnelle 4D-Gaussian-Splatting-Rekonstruktion zu ermöglichen, die in der Qualität mit optimierungsintensiven Methoden konkurriert, aber um Größenordnungen schneller ist.

Haibao Yu, Kuntao Xiao, Jiahang Wang, Ruiyang Hao, Yuxin Huang, Guoran Hu, Haifang Qin, Bowen Jing, Yuntian Bo, Ping Luo2026-03-10💻 cs

Approximate Imitation Learning for Event-based Quadrotor Flight in Cluttered Environments

Die vorgestellte Arbeit stellt einen neuartigen Ansatz für das approximative Imitationslernen vor, der es einem Quadrocopter ermöglicht, mithilfe einer einzigen Event-Kamera und effizienter Simulationstraining ohne teures Event-Rendering bis zu 9,8 m/s schnell durch verstopfte Umgebungen zu fliegen.

Nico Messikommer, Jiaxu Xing, Leonard Bauersfeld, Marco Cannici, Elie Aljalbout, Davide Scaramuzza2026-03-10💻 cs

FeasibleCap: Real-Time Embodiment Constraint Guidance for In-the-Wild Robot Demonstration Collection

Das Paper stellt FeasibleCap vor, ein System zur roboterfreien Datenerfassung per Handgelenk-Greifer, das durch Echtzeit-Feedback zu Erreichbarkeit, Gelenkgeschwindigkeiten und Kollisionen die Erfolgsrate von Demonstrationen auf Zielrobotern erhöht, ohne auf AR-Brillen, Hardware oder gelernte Dynamikmodelle angewiesen zu sein.

Zi Yin, Fanhong Li, Yun Gui, Jia Liu2026-03-10💻 cs

Model-Based and Neural-Aided Approaches for Dog Dead Reckoning

Die vorgestellte Arbeit stellt drei Algorithmen zur präzisen Positionsbestimmung von biologischen und robotischen Hunden ausschließlich mittels Inertialsensoren vor, wobei neuromodellierte Ansätze in einem neu erstellten Datensatz konventionelle modellbasierte Methoden übertreffen und eine kostengünstige Lösung mit einem Positionsfehler von unter 10 % bieten.

Gal Versano. Itai Savin, Itzik Klein2026-03-10💻 cs

SMAT: Staged Multi-Agent Training for Co-Adaptive Exoskeleton Control

Die vorgestellte Studie stellt SMAT vor, ein vierstufiges Multi-Agenten-Trainingsverfahren, das durch die Nachahmung der natürlichen menschlichen Anpassung an tragbare Geräte eine stabile und effektive Ko-Adaptation zwischen Benutzer und Hüft-Exoskelett ermöglicht, was zu einer signifikanten Reduktion der Muskelaktivierung und konsistenten positiven mechanischen Leistung ohne subjektspezifisches Nachtrainieren führt.

Yifei Yuan, Ghaith Androwis, Xianlian Zhou2026-03-10🤖 cs.LG

GeoLoco: Leveraging 3D Geometric Priors from Visual Foundation Model for Robust RGB-Only Humanoid Locomotion

Die Arbeit stellt GeoLoco vor, ein rein RGB-basiertes Framework für die Roboterlokomotion, das geometrische Priors eines visuellen Basismodells nutzt, um durch eine proprietärspezifische Aufmerksamkeitsmechanik und eine duale Hilfsaufgabe eine robuste Zero-Shot-Übertragung von der Simulation auf den Unitree G1-Humanoiden zu ermöglichen.

Yufei Liu, Xieyuanli Chen, Hainan Pan, Chenghao Shi, Yanjie Chen, Kaihong Huang, Zhiwen Zeng, Huimin Lu2026-03-10💻 cs

Exoskeleton Control through Learning to Reduce Biological Joint Moments in Simulations

Diese Arbeit stellt einen Reinforcement-Learning-Rahmen zur Entwicklung von Exoskelett-Steuerungen vor, die biologische Gelenkmomente reduzieren, und validiert deren Leistung mittels eines offenen Gait-Datensatzes, wobei eine hohe Übereinstimmung der simulierten Drehmomente mit realen Daten, insbesondere im Hüftbereich, nachgewiesen wird.

Zihang You, Xianlian Zhou2026-03-10🤖 cs.LG

PanoDP: Learning Collision-Free Navigation with Panoramic Depth and Differentiable Physics

Das Paper stellt PanoDP vor, ein kommunikationsfreies Lernframework, das mittels vierfach panoramischer Tiefenwahrnehmung und differenzierbarer Physik-Signale autonome Kollisionsvermeidung in überfüllten Umgebungen verbessert.

Hao Zhong, Pei Chi, Jiang Zhao, Shenghai Yuan, Xuyang Gao, Thien-Minh Nguyen, Lihua Xie2026-03-10💻 cs

TempoFit: Plug-and-Play Layer-Wise Temporal KV Memory for Long-Horizon Vision-Language-Action Manipulation

TempoFit ist eine trainingsfreie, Plug-and-Play-Methode, die vortrainierte Vision-Language-Action-Modelle durch die Wiederverwendung und gezielte Rückführung von layer-spezifischen KV-Memories mit einem zeitlichen Verzerrungsmechanismus in die Lage versetzt, langfristige Manipulationsaufgaben mit hoher Effizienz und ohne Nachtraining zu bewältigen.

Jun Sun, Boyu Yang, Jiahao Zhang, Ning Ma, Chencheng Wu, Siqing Zhang, Yiou Huang, Qiufeng Wang, Shan Liang, Yaran Chen2026-03-10💻 cs

AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots

Die Arbeit stellt AtomicVLA vor, ein einheitliches Planungs- und Ausführungsframework, das durch eine Skill-Guided Mixture-of-Experts-Architektur skalierbare atomare Fertigkeiten lernt und so die Leistung von Robotern bei langfristigen Aufgaben und kontinuierlichem Lernen im Vergleich zu bestehenden VLA-Modellen erheblich verbessert.

Likui Zhang, Tao Tang, Zhihao Zhan, Xiuwei Chen, Zisheng Chen, Jianhua Han, Jiangtong Zhu, Pei Xu, Hang Xu, Hefeng Wu, Liang Lin, Xiaodan Liang2026-03-10💻 cs

Multi-Agent Off-World Exploration for Sparse Evidence Discovery via Gaussian Belief Mapping and Dual-Domain Coverage

Diese Arbeit stellt einen Multi-Agenten-Framework für die Off-World-Erkundung vor, der mittels Gaußscher Glaubenskartierung und einer dualen Domänenabdeckung die effiziente Entdeckung seltener Beweise in gefährlichen Umgebungen ermöglicht, indem er Informationsgewinn mit operationeller Sicherheit verbindet und gleichzeitig die Robustheit gegenüber voreingenommenen Interessensgebieten erhöht.

Zhuoran Qiao, Tianxin Hu, Thien-Minh Nguyen, Shenghai Yuan2026-03-10💻 cs

DAISS: Phase-Aware Imitation Learning for Dual-Arm Robotic Ultrasound-Guided Interventions

Die vorgestellte Arbeit stellt das DAISS-System vor, das durch eine phasenbewusste Imitationslernstrategie und Echtzeit-Ultraschall-Feedback präzise, koordinierte Dual-Arm-Robotik für ultraschallgeführte medizinische Eingriffe ermöglicht und dabei Expertenwissen aus begrenzten Teleoperation-Demonstrationen effizient erlernt.

Feng Li, Pei Liu, Shiting Wang, Ning Wang, Zhongliang Jiang, Nassir Navab, Yuan Bi2026-03-10💻 cs

Low-Cost Teleoperation Extension for Mobile Manipulators

Die vorgestellte Open-Source-Framework-Lösung ermöglicht eine intuitive Teleoperation von mobilen bimanualen Manipulatoren unter Verwendung kostengünstiger Standardhardware wie Smartphones und Fußpedalen, wodurch teure VR-Ausrüstung überflüssig wird und gleichzeitig die Aufgabenleistung sowie die kognitive Belastung im Vergleich zur Tastatursteuerung verbessert werden.

Danil Belov, Artem Erkhov, Yaroslav Savotin, Tatiana Podladchikova, Pavel Osinenko2026-03-10💻 cs

UniUncer: Unified Dynamic Static Uncertainty for End to End Driving

Die Arbeit stellt UniUncer vor, ein leichtgewichtiges, einheitliches Unsicherheitsframework für End-to-End-Fahrsysteme, das erstmals Unsicherheiten sowohl für statische als auch dynamische Szenenelemente gemeinsam schätzt und durch adaptive Mechanismen in die Planung integriert, um die Zuverlässigkeit und Leistung in komplexen Verkehrssituationen signifikant zu verbessern.

Yu Gao, Jijun Wang, Zongzheng Zhang, Anqing Jiang, Yiru Wang, Yuwen Heng, Shuo Wang, Hao Sun, Zhangfeng Hu, Hao Zhao2026-03-10💻 cs

RoboPCA: Pose-centered Affordance Learning from Human Demonstrations for Robot Manipulation

Die Arbeit stellt RoboPCA vor, ein pose-zentriertes Framework zur gemeinsamen Vorhersage von Kontaktregionen und -orientierungen für die Robotermanipulation, das durch die automatische Datenerfassungsmethode Human2Afford aus menschlichen Demonstrationen lernt und dabei Konsistenzprobleme bestehender Ansätze überwindet.

Zhanqi Xiao, Ruiping Wang, Xilin Chen2026-03-10💻 cs

C $^2$ -Explorer: Contiguity-Driven Task Allocation with Connectivity-Aware Task Representation for Decentralized Multi-UAV Exploration

Die Arbeit stellt C²-Explorer vor, ein dezentrales Framework für die Multi-UAV-Erkundung unter eingeschränkter Kommunikation, das durch eine kontiguitätsgetriebene Aufgabenallokation und eine connectivity-bewusste Aufgabenrepräsentation die Erkundungszeit um 43,1 % und die Pfadlänge um 33,3 % im Vergleich zu bestehenden Methoden reduziert.

Xinlu Yan, Mingjie Zhang, Yuhao Fang, Yanke Sun, Jun Ma, Youmin Gong, Boyu Zhou, Jie Mei2026-03-10💻 cs

AeroPlace-Flow: Language-Grounded Object Placement for Aerial Manipulators via Visual Foresight and Object Flow

Der Artikel stellt AeroPlace-Flow vor, ein trainingsfreies Framework, das visuelle Voraussicht und 3D-Geometrie nutzt, um Luftmanipulatoren präzise Objekte basierend auf natürlichen Sprachanweisungen zu platzieren, ohne dass vordefinierte Zielkoordinaten erforderlich sind.

Sarthak Mishra, Rishabh Dev Yadav, Naveen Nair, Wei Pan, Spandan Roy2026-03-10💻 cs

Directing the Robot: Scaffolding Creative Human-AI-Robot Interaction

Der Artikel schlägt vor, die Interaktion zwischen Mensch, KI und Robotern neu als „Scaffolding" zu konzeptualisieren, bei dem Menschen als Regisseure ihre kreative Absicht steuern, während die KI als Vermittler zwischen menschlichem Ausdruck und robotischer Ausführung dient, um so menschliche Kreativität und Handlungsfähigkeit in offenen Umgebungen zu unterstützen.

Jordan Aiko Deja, Isidro Butaslac, Nicko Reginio Caluya, Maheshya Weerasinghe2026-03-10💻 cs

← Zurück Weiter →

cs.RO