FlowTouch: View-Invariant Visuo-Tactile Prediction

Das Paper stellt FlowTouch vor, ein neuartiges Modell zur vorhersage von taktilen Reaktionen aus visuellen Eingaben mittels lokaler 3D-Meshes und Flow-Matching, das eine view-invariante Generalisierung über verschiedene Sensoren hinweg ermöglicht und die Lücke zwischen Simulation und Realität schließt.

Seongjin Bien, Carlo Kneissl, Tobias Jülg, Frank Fundel, Thomas Ressler-Antal, Florian Walter, Björn Ommer, Gitta Kutyniok, Wolfram Burgard2026-03-10🤖 cs.LG

Seed2Scale: A Self-Evolving Data Engine for Embodied AI via Small to Large Model Synergy and Multimodal Evaluation

Der Artikel stellt Seed2Scale vor, eine selbstentwickelnde Daten-Engine für Embodied AI, die durch die Synergie kleiner und großer Modelle sowie multimodale Evaluierung ausgehend von nur vier Seed-Demonstrationen eine signifikante Leistungssteigerung von 131,2 % und eine skalierbare Lösung für die Datenbeschaffung erreicht.

Cong Tai, Zhaoyu Zheng, Haixu Long, Hansheng Wu, Zhengbin Long, Haodong Xiang, Rong Shi, Zhuo Cui, Shizhuang Zhang, Gang Qiu, He Wang, Ruifeng Li, Biao Liu, Zhenzhe Sun, Tao Shen2026-03-10💻 cs

PhaForce: Phase-Scheduled Visual-Force Policy Learning with Slow Planning and Fast Correction for Contact-Rich Manipulation

Die Arbeit stellt PhaForce vor, einen phasengesteuerten visuomotorischen Ansatz, der durch die Kombination eines langsamen Diffusionsplaners und eines schnellen Korrektors kontaktreiche Manipulationsaufgaben mit einer durchschnittlichen Erfolgsrate von 86 % löst, indem er die visuelle Semantik bewahrt und gleichzeitig hochfrequente Kraft-Rückkopplung für präzise Anpassungen nutzt.

Mingxin Wang, Zhirun Yue, Renhao Lu, Yizhe Li, Zihan Wang, Guoping Pan, Kangkang Dong, Jun Cheng, Yi Cheng, Houde Liu2026-03-10💻 cs

MoMaStage: Skill-State Graph Guided Planning and Closed-Loop Execution for Long-Horizon Indoor Mobile Manipulation

Der Artikel stellt MoMaStage vor, ein strukturiertes Vision-Language-Framework, das durch einen graphenbasierten Skill-State-Ansatz und eine geschlossene Regelkreis-Execution die Zuverlässigkeit und Generalisierung von Robotern bei langfristigen mobilen Manipulationsaufgaben in Innenräumen ohne explizite Kartierung verbessert.

Chenxu Li, Zixuan Chen, Yetao Li, Jiapeng Xu, Hongyu Ding, Jieqi Shi, Jing Huo, Yang Gao2026-03-10💻 cs

StructBiHOI: Structured Articulation Modeling for Long--Horizon Bimanual Hand--Object Interaction Generation

Das Paper stellt StructBiHOI vor, ein hierarchisches Framework, das durch die Entkopplung langfristiger Gelenkplanung und feinkörniger Manipulationsverfeinerung sowie den Einsatz eines Mamba-basierten Diffusionsdenoisers stabile und physikalisch plausible bimanuelle Hand-Objekt-Interaktionen über lange Zeiträume generiert.

Zhi Wang, Liu Liu, Ruonan Liu, Dan Guo, Meng Wang2026-03-10💻 cs

FoMo: A Multi-Season Dataset for Robot Navigation in Forêt Montmorency

Das FoMo-Dataset ist eine umfassende, über ein Jahr in einem borealen Wald aufgezeichnete Datensammlung mit multi-saisonalen Umgebungsbedingungen, die zur Evaluierung der Robustheit von Roboternavigationssystemen gegenüber extremen saisonalen Veränderungen wie Schneefall und Vegetationswachstum dient.

Matej Boxan, Gabriel Jeanson, Alexander Krawciw, Effie Daum, Xinyuan Qiao, Sven Lilge, Timothy D. Barfoot, François Pomerleau2026-03-10💻 cs

Adaptive Entropy-Driven Sensor Selection in a Camera-LiDAR Particle Filter for Single-Vessel Tracking

Diese Arbeit stellt einen adaptiven, entropiegesteuerten Sensorauswahlmechanismus für einen Kamera-LiDAR-Partikelfilter vor, der in einer realen maritimen Testumgebung in Zypern nachweist, dass durch die dynamische Auswahl der informativsten Sensorkonfiguration eine robuste Einzel-Schiff-Verfolgung mit einem optimalen Kompromiss zwischen Genauigkeit und Kontinuität erreicht wird.

Andrei Starodubov, Yaqub Aris Prabowo, Andreas Hadjipieris, Ioannis Kyriakides, Roberto Galeazzi2026-03-10🤖 cs.LG

LAR-MoE: Latent-Aligned Routing for Mixture of Experts in Robotic Imitation Learning

Die Arbeit stellt LAR-MoE vor, ein zweistufiges Framework für das Imitationslernen in der Robotik, das durch latente Ausrichtung der Expert-Routing-Mechanismen eine strukturierte Spezialisierung ohne manuelle Phasenannotationen ermöglicht und dabei hohe Erfolgsraten auf Benchmarks sowie eine erfolgreiche Zero-Shot-Übertragung auf ex-vivo-Gewebe demonstriert.

Ariel Rodriguez, Chenpan Li, Lorenzo Mazza, Rayan Younis, Ortrun Hellig, Sebastian Bodenstedt, Martin Wagner, Stefanie Speidel2026-03-10💻 cs

STRIDE: Structured Lagrangian and Stochastic Residual Dynamics via Flow Matching

Die Arbeit stellt STRIDE vor, ein Framework zur Vorhersage der Roboterdynamik in unstrukturierten Umgebungen, das konservative Lagrange-Mechanik über ein Lagrange-Neuronales Netz mit stochastischen Restdynamiken mittels bedingtem Flow-Matching kombiniert, um physikalische Konsistenz und präzise Modellierung komplexer Interaktionen zu gewährleisten.

Prakrut Kotecha, Ganga Nair B, Shishir Kolathaya2026-03-10🤖 cs.LG