Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments

Die Arbeit stellt SACA (Step-Aware Contrastive Alignment) vor, ein Framework zur Verbesserung der Vision-Language Navigation in kontinuierlichen Umgebungen, das durch schrittweise, wahrnehmungsgegründete Bewertung und dynamisches Batch-Management die Probleme von SFT-bedingten kumulativen Fehlern und RFT-bedingten spärlichen Belohnungen überwindet und damit neue State-of-the-Art-Ergebnisse erzielt.

Haoyuan Li, Rui Liu, Hehe Fan, Yi YangWed, 11 Ma💻 cs

PanoAffordanceNet: Towards Holistic Affordance Grounding in 360{\deg} Indoor Environments

Die Arbeit stellt PanoAffordanceNet vor, ein neuartiges Framework mit einem verzerrungsbewussten spektralen Modulator und einem omni-sphärischen Verdichtungskopf, das zusammen mit dem ersten hochqualitativen Datensatz 360-AGD die holistische Affordanz-Verankerung in 360°-Indoor-Umgebungen für embodied Intelligence ermöglicht.

Guoliang Zhu, Wanjun Jia, Caoyang Shao, Yuheng Zhang, Zhiyong Li, Kailun YangWed, 11 Ma⚡ eess

MuxGel: Simultaneous Dual-Modal Visuo-Tactile Sensing via Spatially Multiplexing and Deep Reconstruction

Die Arbeit stellt MuxGel vor, einen neuartigen taktile Sensor, der durch räumliche Multiplexierung und ein auf U-Net basierendes Rekonstruktionsframework gleichzeitig hochauflösende visuelle und taktile Informationen erfasst, um den klassischen Zielkonflikt zwischen Berührungserkennung und Vor-Kontakt-Sichtbarkeit bei robotischen Greifern zu lösen.

Zhixian Hu, Zhengtong Xu, Sheeraz Athar, Juan Wachs, Yu SheWed, 11 Ma💻 cs

TIMID: Time-Dependent Mistake Detection in Videos of Robot Executions

Die Arbeit stellt TIMID vor, ein neuartiges Video-Anomalie-Erkennungsframework, das mithilfe schwacher Überwachung und einer Simulationsumgebung zeitabhängige Fehler bei der Ausführung komplexer Roboteraufgaben in Videos auf Frame-Ebene erkennt, wo herkömmliche Modelle und reine Vision-Language-Modelle an mangelnder temporaler Reasoning-Fähigkeit scheitern.

Nerea Gallego (University of Zaragoza), Fernando Salanova (University of Zaragoza), Claudio Mannarano (University of Zaragoza, University of Torino), Cristian Mahulea (University of Zaragoza), Eduardo Montijano (University of Zaragoza)Wed, 11 Ma💻 cs

Emerging Extrinsic Dexterity in Cluttered Scenes via Dynamics-aware Policy Learning

Die vorgestellte Arbeit stellt einen Dynamics-Aware Policy Learning (DAPL)-Rahmen vor, der durch explizite Modellierung kontaktinduzierter Dynamiken in überfüllten Umgebungen extrinsische Dexterity ohne manuell erstellte Heuristiken ermöglicht und dabei sowohl in Simulationen als auch in realen Szenarien signifikant bessere Erfolgsraten als herkömmliche Methoden erzielt.

Yixin Zheng, Jiangran Lyu, Yifan Zhang, Jiayi Chen, Mi Yan, Yuntian Deng, Xuesong Shi, Xiaoguang Zhao, Yizhou Wang, Zhizheng Zhang, He WangWed, 11 Ma🤖 cs.AI

NanoBench: A Multi-Task Benchmark Dataset for Nano-Quadrotor System Identification, Control, and State Estimation

Das Paper stellt NanoBench vor, ein Open-Source-Benchmark-Datensatz für den Crazyflie 2.1-Nano-Quadrocopter, der erstmals synchronisierte Aktor-, Regler- und Schätzerdaten mit millimetergenauer Ground Truth bereitstellt, um Systemidentifikation, Regelung und Zustandsschätzung unter den spezifischen physikalischen und rechnerischen Randbedingungen von Nano-Luftfahrzeugen zu evaluieren.

Syed Izzat Ullah, Jose BacaWed, 11 Ma⚡ eess

Kinodynamic Motion Retargeting for Humanoid Locomotion via Multi-Contact Whole-Body Trajectory Optimization

Die Arbeit stellt KDMR vor, ein neuartiges Framework für die kinodynamische Bewegungsnachbildung bei humanoiden Robotern, das durch die Formulierung als multi-kontaktbasierte Ganzkörper-Trajektorienoptimierung physikalisch konsistente und dynamisch machbare Bewegungsabläufe erzeugt, die rein kinematischen Methoden überlegen sind und die Effizienz sowie Stabilität nachgelagerter Lernstrategien signifikant verbessern.

Xiaoyu Zhang, Steven Haener, Varun Madabushi, Maegan TuckerWed, 11 Ma💻 cs

BEACON: Language-Conditioned Navigation Affordance Prediction under Occlusion

Das Paper stellt BEACON vor, ein System zur Vorhersage von Navigationsaffordanzen in einer vogelperspektivischen Wärmebildkarte, das durch die Kombination von Sprachanweisungen mit RGB-D-Observationen und einem visuell-sprachlichen Modell in der Lage ist, auch verdeckte Zielorte zu erkennen und so die Genauigkeit im Vergleich zu bildbasierten Methoden signifikant zu steigern.

Xinyu Gao, Gang Chen, Javier Alonso-MoraWed, 11 Ma🤖 cs.AI

TiPToP: A Modular Open-Vocabulary Planning System for Robotic Manipulation

Das Paper stellt TiPToP vor, ein modulares Open-Vocabulary-Planungssystem für Roboter, das vortrainierte Vision-Modelle mit einem Task-and-Motion-Planer kombiniert, um komplexe Manipulationsaufgaben allein aus RGB-Bildern und Sprachbefehlen zu lösen, ohne dass roboterspezifische Trainingsdaten erforderlich sind.

William Shen, Nishanth Kumar, Sahit Chintalapudi, Jie Wang, Christopher Watson, Edward Hu, Jing Cao, Dinesh Jayaraman, Leslie Pack Kaelbling, Tomás Lozano-PérezWed, 11 Ma💻 cs

Input-to-State Stable Coupled Oscillator Networks for Closed-form Model-based Control in Latent Space

Diese Arbeit stellt ein neuartiges Modell gekoppelter Oszillatoren (CON) vor, das durch die Kombination von Lagrange-Struktur, globaler Input-to-State-Stabilität und einer invertierbaren Abbildung zwischen Eingabe und latenter Kraft effiziente, modellbasierte Regelung im latenten Raum für physikalische Systeme ermöglicht, wie am Beispiel eines Soft-Roboters demonstriert wird.

Maximilian Stölzle, Cosimo Della SantinaTue, 10 Ma🤖 cs.LG

xTED: Cross-Domain Adaptation via Diffusion-Based Trajectory Editing

Das Paper stellt xTED vor, ein Framework, das mithilfe eines speziell entwickelten Diffusionsmodells Trajektorien aus einer Quell-Domäne direkt auf Daten-Ebene an eine Ziel-Domäne anpasst, um Domänenlücken universell zu überbrücken und so eine flexible und effiziente Politikübertragung auch bei begrenzten Ziel-Daten zu ermöglichen.

Haoyi Niu, Qimao Chen, Tenglong Liu, Jianxiong Li, Guyue Zhou, Yi Zhang, Jianming Hu, Xianyuan ZhanTue, 10 Ma🤖 cs.LG

From Pixels to Predicates: Learning Symbolic World Models via Pretrained Vision-Language Models

Diese Arbeit stellt eine Methode vor, die vortrainierte Vision-Language-Modelle nutzt, um abstrakte symbolische Weltmodelle aus wenigen Bild-Demonstrationen zu lernen, wodurch Roboter in der Lage sind, langfristige Entscheidungsprobleme in komplexen Umgebungen durch Planung auf neue Ziele und Szenarien zu verallgemeinern.

Ashay Athalye, Nishanth Kumar, Tom Silver, Yichao Liang, Jiuguang Wang, Tomás Lozano-Pérez, Leslie Pack KaelblingTue, 10 Ma🤖 cs.LG