cs.RO Arbeiten | Gist.Science

$M^2$ -Occ: Resilient 3D Semantic Occupancy Prediction for Autonomous Driving with Incomplete Camera Inputs

Die Arbeit stellt $M^2$ -Occ vor, ein Framework für die semantische 3D-Occupancy-Vorhersage beim autonomen Fahren, das durch einen Multi-View-Masked-Reconstruction-Modul und ein Feature-Memory-Modul auch bei unvollständigen Kameraeingängen robuste geometrische und semantische Ergebnisse liefert.

Kaixin Lin, Kunyu Peng, Di Wen, Yufan Chen, Ruiping Liu, Kailun YangWed, 11 Ma⚡ eess

Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments

Die Arbeit stellt SACA (Step-Aware Contrastive Alignment) vor, ein Framework zur Verbesserung der Vision-Language Navigation in kontinuierlichen Umgebungen, das durch schrittweise, wahrnehmungsgegründete Bewertung und dynamisches Batch-Management die Probleme von SFT-bedingten kumulativen Fehlern und RFT-bedingten spärlichen Belohnungen überwindet und damit neue State-of-the-Art-Ergebnisse erzielt.

Haoyuan Li, Rui Liu, Hehe Fan, Yi YangWed, 11 Ma💻 cs

Caterpillar-Inspired Spring-Based Compressive Continuum Robot for Bristle-based Exploration

Dieser Artikel stellt einen kompakten, federbasierten, seilgesteuerten Kontinuum-Roboter vor, der von der Fortbewegung und Sensorik von Raupen inspiriert ist und durch die Integration künstlicher Borstensensoren eine effektive Erkundung und Oberflächenwahrnehmung in beengten Räumen ermöglicht.

Zhixian Hu, Yu She, Juan WachsWed, 11 Ma💻 cs

PanoAffordanceNet: Towards Holistic Affordance Grounding in 360{\deg} Indoor Environments

Die Arbeit stellt PanoAffordanceNet vor, ein neuartiges Framework mit einem verzerrungsbewussten spektralen Modulator und einem omni-sphärischen Verdichtungskopf, das zusammen mit dem ersten hochqualitativen Datensatz 360-AGD die holistische Affordanz-Verankerung in 360°-Indoor-Umgebungen für embodied Intelligence ermöglicht.

Guoliang Zhu, Wanjun Jia, Caoyang Shao, Yuheng Zhang, Zhiyong Li, Kailun YangWed, 11 Ma⚡ eess

MuxGel: Simultaneous Dual-Modal Visuo-Tactile Sensing via Spatially Multiplexing and Deep Reconstruction

Die Arbeit stellt MuxGel vor, einen neuartigen taktile Sensor, der durch räumliche Multiplexierung und ein auf U-Net basierendes Rekonstruktionsframework gleichzeitig hochauflösende visuelle und taktile Informationen erfasst, um den klassischen Zielkonflikt zwischen Berührungserkennung und Vor-Kontakt-Sichtbarkeit bei robotischen Greifern zu lösen.

Zhixian Hu, Zhengtong Xu, Sheeraz Athar, Juan Wachs, Yu SheWed, 11 Ma💻 cs

TIMID: Time-Dependent Mistake Detection in Videos of Robot Executions

Die Arbeit stellt TIMID vor, ein neuartiges Video-Anomalie-Erkennungsframework, das mithilfe schwacher Überwachung und einer Simulationsumgebung zeitabhängige Fehler bei der Ausführung komplexer Roboteraufgaben in Videos auf Frame-Ebene erkennt, wo herkömmliche Modelle und reine Vision-Language-Modelle an mangelnder temporaler Reasoning-Fähigkeit scheitern.

Nerea Gallego (University of Zaragoza), Fernando Salanova (University of Zaragoza), Claudio Mannarano (University of Zaragoza, University of Torino), Cristian Mahulea (University of Zaragoza), Eduardo Montijano (University of Zaragoza)Wed, 11 Ma💻 cs

Lightweight 3D LiDAR-Based UAV Tracking: An Adaptive Extended Kalman Filtering Approach

Diese Arbeit stellt ein leichtgewichtiges 3D-LiDAR-basiertes UAV-Tracking-System vor, das einen adaptiven erweiterten Kalman-Filter (AEKF) nutzt, um auch bei spärlichen Daten und unter strengen Nutzlastbeschränkungen eine zuverlässige relative Positionsbestimmung in GPS-freien Umgebungen zu gewährleisten.

Nivand Khosravi, Meysam Basiri, Rodrigo VenturaWed, 11 Ma⚡ eess

Emerging Extrinsic Dexterity in Cluttered Scenes via Dynamics-aware Policy Learning

Die vorgestellte Arbeit stellt einen Dynamics-Aware Policy Learning (DAPL)-Rahmen vor, der durch explizite Modellierung kontaktinduzierter Dynamiken in überfüllten Umgebungen extrinsische Dexterity ohne manuell erstellte Heuristiken ermöglicht und dabei sowohl in Simulationen als auch in realen Szenarien signifikant bessere Erfolgsraten als herkömmliche Methoden erzielt.

Yixin Zheng, Jiangran Lyu, Yifan Zhang, Jiayi Chen, Mi Yan, Yuntian Deng, Xuesong Shi, Xiaoguang Zhao, Yizhou Wang, Zhizheng Zhang, He WangWed, 11 Ma🤖 cs.AI

Robust Cooperative Localization in Featureless Environments: A Comparative Study of DCL, StCL, CCL, CI, and Standard-CL

Diese Arbeit vergleicht fünf kooperative Lokalisierungsmethoden in featurelosen Umgebungen und zeigt, dass Covariance Intersection (CI) den besten Kompromiss zwischen Genauigkeit und Konsistenz bietet, während sequenzielle Ansätze zwar präzise, aber für sicherheitskritische Anwendungen ungeeignet sind.

Nivand Khosravi, Meysam Basiri, Rodrigo VenturaWed, 11 Ma💻 cs

NanoBench: A Multi-Task Benchmark Dataset for Nano-Quadrotor System Identification, Control, and State Estimation

Das Paper stellt NanoBench vor, ein Open-Source-Benchmark-Datensatz für den Crazyflie 2.1-Nano-Quadrocopter, der erstmals synchronisierte Aktor-, Regler- und Schätzerdaten mit millimetergenauer Ground Truth bereitstellt, um Systemidentifikation, Regelung und Zustandsschätzung unter den spezifischen physikalischen und rechnerischen Randbedingungen von Nano-Luftfahrzeugen zu evaluieren.

Syed Izzat Ullah, Jose BacaWed, 11 Ma⚡ eess

Kinodynamic Motion Retargeting for Humanoid Locomotion via Multi-Contact Whole-Body Trajectory Optimization

Die Arbeit stellt KDMR vor, ein neuartiges Framework für die kinodynamische Bewegungsnachbildung bei humanoiden Robotern, das durch die Formulierung als multi-kontaktbasierte Ganzkörper-Trajektorienoptimierung physikalisch konsistente und dynamisch machbare Bewegungsabläufe erzeugt, die rein kinematischen Methoden überlegen sind und die Effizienz sowie Stabilität nachgelagerter Lernstrategien signifikant verbessern.

Xiaoyu Zhang, Steven Haener, Varun Madabushi, Maegan TuckerWed, 11 Ma💻 cs

BEACON: Language-Conditioned Navigation Affordance Prediction under Occlusion

Das Paper stellt BEACON vor, ein System zur Vorhersage von Navigationsaffordanzen in einer vogelperspektivischen Wärmebildkarte, das durch die Kombination von Sprachanweisungen mit RGB-D-Observationen und einem visuell-sprachlichen Modell in der Lage ist, auch verdeckte Zielorte zu erkennen und so die Genauigkeit im Vergleich zu bildbasierten Methoden signifikant zu steigern.

Xinyu Gao, Gang Chen, Javier Alonso-MoraWed, 11 Ma🤖 cs.AI

TiPToP: A Modular Open-Vocabulary Planning System for Robotic Manipulation

Das Paper stellt TiPToP vor, ein modulares Open-Vocabulary-Planungssystem für Roboter, das vortrainierte Vision-Modelle mit einem Task-and-Motion-Planer kombiniert, um komplexe Manipulationsaufgaben allein aus RGB-Bildern und Sprachbefehlen zu lösen, ohne dass roboterspezifische Trainingsdaten erforderlich sind.

William Shen, Nishanth Kumar, Sahit Chintalapudi, Jie Wang, Christopher Watson, Edward Hu, Jing Cao, Dinesh Jayaraman, Leslie Pack Kaelbling, Tomás Lozano-PérezWed, 11 Ma💻 cs

Utility Theory based Cognitive Modeling in the Application of Robotics: A Survey

Diese Übersichtsarbeit untersucht die Anwendung nutzungstheoretischer kognitiver Modelle in der Robotik, indem sie die Entwicklung von Verhaltensbasierter Robotik und kognitiven Architekturen hin zu wertebasierten Systemen für Entscheidungsfindung, Lernen und Interaktion in ein- und multi-agentischen Umgebungen analysiert und zukünftige Forschungsrichtungen sowie offene Probleme aufzeigt.

Qin YangTue, 10 Ma💻 cs

Influence-Based Reward Modulation for Implicit Communication in Human-Robot Interaction

Diese Arbeit stellt eine Methode vor, die Transfer-Entropie nutzt, um den Einfluss zwischen Agenten in der Mensch-Roboter-Interaktion über Belohnungsmodulation zu steuern und so implizite Kommunikation sowie verbesserte Zusammenarbeit oder soziale Unabhängigkeit in kollaborativen und kompetitiven Szenarien zu fördern.

Haoyang Jiang, Elizabeth A. Croft, Michael G. BurkeTue, 10 Ma💻 cs

Input-to-State Stable Coupled Oscillator Networks for Closed-form Model-based Control in Latent Space

Diese Arbeit stellt ein neuartiges Modell gekoppelter Oszillatoren (CON) vor, das durch die Kombination von Lagrange-Struktur, globaler Input-to-State-Stabilität und einer invertierbaren Abbildung zwischen Eingabe und latenter Kraft effiziente, modellbasierte Regelung im latenten Raum für physikalische Systeme ermöglicht, wie am Beispiel eines Soft-Roboters demonstriert wird.

Maximilian Stölzle, Cosimo Della SantinaTue, 10 Ma🤖 cs.LG

xTED: Cross-Domain Adaptation via Diffusion-Based Trajectory Editing

Das Paper stellt xTED vor, ein Framework, das mithilfe eines speziell entwickelten Diffusionsmodells Trajektorien aus einer Quell-Domäne direkt auf Daten-Ebene an eine Ziel-Domäne anpasst, um Domänenlücken universell zu überbrücken und so eine flexible und effiziente Politikübertragung auch bei begrenzten Ziel-Daten zu ermöglichen.

Haoyi Niu, Qimao Chen, Tenglong Liu, Jianxiong Li, Guyue Zhou, Yi Zhang, Jianming Hu, Xianyuan ZhanTue, 10 Ma🤖 cs.LG

Variational approach to nonholonomic and inequality-constrained mechanics

Dieser Artikel stellt ein explizites Variationsprinzip für nicht-holonome und durch Ungleichungen eingeschränkte mechanische Systeme vor, das auf dem Schwinger-Keldysh-Formalismus basiert, die korrekte Lagrange-d'Alembert-Dynamik durch Extremierung einer skalaren Wirkung liefert und durch numerische Optimierung validiert wird.

A. Rothkopf, W. A. HorowitzTue, 10 Ma🔢 math

From Pixels to Predicates: Learning Symbolic World Models via Pretrained Vision-Language Models

Diese Arbeit stellt eine Methode vor, die vortrainierte Vision-Language-Modelle nutzt, um abstrakte symbolische Weltmodelle aus wenigen Bild-Demonstrationen zu lernen, wodurch Roboter in der Lage sind, langfristige Entscheidungsprobleme in komplexen Umgebungen durch Planung auf neue Ziele und Szenarien zu verallgemeinern.

Ashay Athalye, Nishanth Kumar, Tom Silver, Yichao Liang, Jiuguang Wang, Tomás Lozano-Pérez, Leslie Pack KaelblingTue, 10 Ma🤖 cs.LG

Strengthening Generative Robot Policies through Predictive World Modeling

Die Arbeit stellt GPC vor, ein Lernsteuerungsframework, das durch die Kombination einer generativen Diffusions-Policy, eines prädiktiven Weltmodells und eines Online-Planers die Leistung von Behavior Cloning in verschiedenen robotischen Manipulationsaufgaben sowohl in Simulation als auch in der realen Welt übertrifft.

Han Qi, Haocheng Yin, Aris Zhu, Yilun Du, Heng YangTue, 10 Ma🤖 cs.LG

← Zurück Weiter →

cs.RO

M2M^2M2-Occ: Resilient 3D Semantic Occupancy Prediction for Autonomous Driving with Incomplete Camera Inputs