Compose by Focus: Scene Graph-based Atomic Skills
Die Arbeit stellt einen Framework vor, der szenengraphbasierte Repräsentationen mit diffusionsbasiertem Imitationslernen und einem VLM-Planer kombiniert, um die Robustheit und kompositionelle Generalisierung von Robotern bei langfristigen Manipulationsaufgaben zu verbessern.