cs.RO Arbeiten | Gist.Science

FlowTouch: View-Invariant Visuo-Tactile Prediction

Das Paper stellt FlowTouch vor, ein neuartiges Modell zur vorhersage von taktilen Reaktionen aus visuellen Eingaben mittels lokaler 3D-Meshes und Flow-Matching, das eine view-invariante Generalisierung über verschiedene Sensoren hinweg ermöglicht und die Lücke zwischen Simulation und Realität schließt.

Seongjin Bien, Carlo Kneissl, Tobias Jülg, Frank Fundel, Thomas Ressler-Antal, Florian Walter, Björn Ommer, Gitta Kutyniok, Wolfram Burgard2026-03-10🤖 cs.LG

Seed2Scale: A Self-Evolving Data Engine for Embodied AI via Small to Large Model Synergy and Multimodal Evaluation

Der Artikel stellt Seed2Scale vor, eine selbstentwickelnde Daten-Engine für Embodied AI, die durch die Synergie kleiner und großer Modelle sowie multimodale Evaluierung ausgehend von nur vier Seed-Demonstrationen eine signifikante Leistungssteigerung von 131,2 % und eine skalierbare Lösung für die Datenbeschaffung erreicht.

Cong Tai, Zhaoyu Zheng, Haixu Long, Hansheng Wu, Zhengbin Long, Haodong Xiang, Rong Shi, Zhuo Cui, Shizhuang Zhang, Gang Qiu, He Wang, Ruifeng Li, Biao Liu, Zhenzhe Sun, Tao Shen2026-03-10💻 cs

SAIL: Test-Time Scaling for In-Context Imitation Learning with VLM

Das Paper stellt SAIL vor, ein Framework für das In-Context-Imitationslernen, das die Robustheit von Robotern bei variierenden Umgebungen durch testzeitbasiertes Skalieren mittels Monte-Carlo-Baumsuche, eines VLM-basierten Bewertungssystems und einer automatisierten Archivierung erfolgreicher Trajektorien signifikant verbessert.

Makoto Sato, Yusuke Iwasawa, Yujin Tang, So Kuroki2026-03-10💻 cs

Less is More: Robust Zero-Communication 3D Pursuit-Evasion via Representational Parsimony

Die Studie zeigt, dass die gezielte Reduktion von Agenten-Kommunikationskanälen und die Einführung einer lokalitätsbasierten Kreditvergabe die Robustheit und den Erfolg von dezentralen 3D-Verfolgungs-Szenarien in lauten und verzögerten Umgebungen im Vergleich zu vollvernetzten Ansätzen signifikant steigern.

Jialin Ying, Zhihao Li, Zicheng Dong, Guohua Wu, Yihuan Liao2026-03-10💻 cs

EndoSERV: A Vision-based Endoluminal Robot Navigation System

Das Paper stellt EndoSERV vor, ein neuartiges, vision-basiertes Navigationssystem für endoluminale Roboter, das durch eine Segment-zu-Struktur- und Real-zu-Virtual-Mapping-Strategie sowie Transferlernen die präzise Lokalisierung in komplexen, deformierbaren anatomischen Umgebungen ohne reale Pose-Labels ermöglicht.

Junyang Wu, Fangfang Xie, Minghui Zhang, Hanxiao Zhang, Jiayuan Sun, Yun Gu, Guang-Zhong Yang2026-03-10💻 cs

Hierarchical Multi-Modal Planning for Fixed-Altitude Sparse Target Search and Sampling

Der Artikel stellt HIMoS vor, ein hierarchisches, multimodales Planungsframework für autonome Unterwasserfahrzeuge, das durch die Integration von akustischen und visuellen Sensoren sowie eine zweistufige Strategie die energieeffiziente Suche und Probenahme seltener Korallen in fester Höhe ermöglicht.

Lingpeng Chen, Yuchen Zheng, Apple Pui-Yi Chui, Junfeng Wu, Ziyang Hong2026-03-10💻 cs

PhaForce: Phase-Scheduled Visual-Force Policy Learning with Slow Planning and Fast Correction for Contact-Rich Manipulation

Die Arbeit stellt PhaForce vor, einen phasengesteuerten visuomotorischen Ansatz, der durch die Kombination eines langsamen Diffusionsplaners und eines schnellen Korrektors kontaktreiche Manipulationsaufgaben mit einer durchschnittlichen Erfolgsrate von 86 % löst, indem er die visuelle Semantik bewahrt und gleichzeitig hochfrequente Kraft-Rückkopplung für präzise Anpassungen nutzt.

Mingxin Wang, Zhirun Yue, Renhao Lu, Yizhe Li, Zihan Wang, Guoping Pan, Kangkang Dong, Jun Cheng, Yi Cheng, Houde Liu2026-03-10💻 cs

Perception-Aware Communication-Free Multi-UAV Coordination in the Wild

Die Arbeit stellt eine kommunikationsfreie Methode zur sicheren Koordination mehrerer UAVs in GNSS-freien, komplexen Umgebungen wie Wäldern vor, die auf einer onboard 3D-LiDAR-basierten Wahrnehmung und einem neuartigen navigationsorientierten Framework für die Hindernis- und Nachbarnerkennung beruht.

Manuel Boldrer, Michal Kamler, Afzal Ahmad, Martin Saska2026-03-10💻 cs

MoMaStage: Skill-State Graph Guided Planning and Closed-Loop Execution for Long-Horizon Indoor Mobile Manipulation

Der Artikel stellt MoMaStage vor, ein strukturiertes Vision-Language-Framework, das durch einen graphenbasierten Skill-State-Ansatz und eine geschlossene Regelkreis-Execution die Zuverlässigkeit und Generalisierung von Robotern bei langfristigen mobilen Manipulationsaufgaben in Innenräumen ohne explizite Kartierung verbessert.

Chenxu Li, Zixuan Chen, Yetao Li, Jiapeng Xu, Hongyu Ding, Jieqi Shi, Jing Huo, Yang Gao2026-03-10💻 cs

StructBiHOI: Structured Articulation Modeling for Long--Horizon Bimanual Hand--Object Interaction Generation

Das Paper stellt StructBiHOI vor, ein hierarchisches Framework, das durch die Entkopplung langfristiger Gelenkplanung und feinkörniger Manipulationsverfeinerung sowie den Einsatz eines Mamba-basierten Diffusionsdenoisers stabile und physikalisch plausible bimanuelle Hand-Objekt-Interaktionen über lange Zeiträume generiert.

Zhi Wang, Liu Liu, Ruonan Liu, Dan Guo, Meng Wang2026-03-10💻 cs

A Recipe for Stable Offline Multi-agent Reinforcement Learning

Die Arbeit analysiert die Instabilität nicht-linearer Wertzerlegung im Offline-Multi-Agenten-Reinforcement-Learning und schlägt eine skalierungsinvariante Wertnormalisierung vor, um ein stabiles Training zu ermöglichen und eine praktische Anleitung für den erfolgreichen Einsatz dieses Paradigmas zu entwickeln.

Dongsu Lee, Daehee Lee, Amy Zhang2026-03-10🤖 cs.LG

Human-Aware Robot Behaviour in Self-Driving Labs

Diese Studie stellt ein KI-gestütztes Wahrnehmungssystem für mobile Roboterchemiker in selbstfahrenden Laboren vor, das durch eine hierarchische Vorhersage menschlicher Absichten eine proaktive Interaktion und effizientere Koordination im gemeinsamen Betrieb mit Menschen ermöglicht.

Satheeshkumar Veeramani, Anna Kisil, Abigail Bentley, Hatem Fakhruldeen, Gabriella Pizzuto, Andrew I. Cooper2026-03-10💻 cs

Tactile Recognition of Both Shapes and Materials with Automatic Feature Optimization-Enabled Meta Learning

Die Autoren stellen ein AFOP-ML-Framework vor, das mittels eines automatisch optimierten prototypischen Netzwerks und Few-Shot-Learning sowohl Formen als auch Materialien aus taktilen Sensordaten mit hoher Genauigkeit erkennt und dabei Datenknappheit sowie lange Trainingszeiten überwindet.

Hongliang Zhao, Wenhui Yang, Yang Chen, Zhuorui Wang, Baiheng Liu, Longhui Qin2026-03-10💻 cs

FoMo: A Multi-Season Dataset for Robot Navigation in Forêt Montmorency

Das FoMo-Dataset ist eine umfassende, über ein Jahr in einem borealen Wald aufgezeichnete Datensammlung mit multi-saisonalen Umgebungsbedingungen, die zur Evaluierung der Robustheit von Roboternavigationssystemen gegenüber extremen saisonalen Veränderungen wie Schneefall und Vegetationswachstum dient.

Matej Boxan, Gabriel Jeanson, Alexander Krawciw, Effie Daum, Xinyuan Qiao, Sven Lilge, Timothy D. Barfoot, François Pomerleau2026-03-10💻 cs

Adaptive Entropy-Driven Sensor Selection in a Camera-LiDAR Particle Filter for Single-Vessel Tracking

Diese Arbeit stellt einen adaptiven, entropiegesteuerten Sensorauswahlmechanismus für einen Kamera-LiDAR-Partikelfilter vor, der in einer realen maritimen Testumgebung in Zypern nachweist, dass durch die dynamische Auswahl der informativsten Sensorkonfiguration eine robuste Einzel-Schiff-Verfolgung mit einem optimalen Kompromiss zwischen Genauigkeit und Kontinuität erreicht wird.

Andrei Starodubov, Yaqub Aris Prabowo, Andreas Hadjipieris, Ioannis Kyriakides, Roberto Galeazzi2026-03-10🤖 cs.LG

R2F: Repurposing Ray Frontiers for LLM-free Object Navigation

Das Papier stellt R2F vor, einen Echtzeit-fähigen, LLM-freien Ansatz für die objektorientierte Navigation, der Strahlfronten als semantische Hypothesen nutzt, um die Latenz und den Rechenaufwand von herkömmlichen VLM-basierten Systemen zu eliminieren.

Francesco Argenziano, John Mark Alexis Marcelo, Michele Brienza, Abdel Hakim Drid, Emanuele Musumeci, Daniele Nardi, Domenico D. Bloisi, Vincenzo Suriani2026-03-10💻 cs

LAR-MoE: Latent-Aligned Routing for Mixture of Experts in Robotic Imitation Learning

Die Arbeit stellt LAR-MoE vor, ein zweistufiges Framework für das Imitationslernen in der Robotik, das durch latente Ausrichtung der Expert-Routing-Mechanismen eine strukturierte Spezialisierung ohne manuelle Phasenannotationen ermöglicht und dabei hohe Erfolgsraten auf Benchmarks sowie eine erfolgreiche Zero-Shot-Übertragung auf ex-vivo-Gewebe demonstriert.

Ariel Rodriguez, Chenpan Li, Lorenzo Mazza, Rayan Younis, Ortrun Hellig, Sebastian Bodenstedt, Martin Wagner, Stefanie Speidel2026-03-10💻 cs

STRIDE: Structured Lagrangian and Stochastic Residual Dynamics via Flow Matching

Die Arbeit stellt STRIDE vor, ein Framework zur Vorhersage der Roboterdynamik in unstrukturierten Umgebungen, das konservative Lagrange-Mechanik über ein Lagrange-Neuronales Netz mit stochastischen Restdynamiken mittels bedingtem Flow-Matching kombiniert, um physikalische Konsistenz und präzise Modellierung komplexer Interaktionen zu gewährleisten.

Prakrut Kotecha, Ganga Nair B, Shishir Kolathaya2026-03-10🤖 cs.LG

3PoinTr: 3D Point Tracks for Robot Manipulation Pretraining from Casual Videos

Das Paper stellt 3PoinTr vor, eine Methode zur Vortrainierung von Roboter-Policies aus ungesteuerten menschlichen Videos durch die Vorhersage von 3D-Punktspuren als embodiment-unabhängige Repräsentation, die es ermöglicht, robuste Manipulationsaufgaben mit nur wenigen roboterspezifischen Demonstrationen zu erlernen.

Adam Hung, Bardienus Pieter Duisterhof, Jeffrey Ichnowski2026-03-10💻 cs

The Neural Compass: Probabilistic Relative Feature Fields for Robotic Search

Die Arbeit stellt ProReFF vor, ein probabilistisches Modell, das aus ungelabelten Daten relative Merkmalsverteilungen lernt, um Roboter bei der Objektsuche in unbekannten Umgebungen effizienter zu steuern und dabei bis zu 80 % der menschlichen Leistung zu erreichen.

Gabriele Somaschini, Adrian Röfer, Abhinav Valada2026-03-10🤖 cs.LG

← Zurück Weiter →