Action-Geometry Prediction with 3D Geometric Prior for Bimanual Manipulation
Este trabajo propone un marco para la manipulación bimanual que aprovecha un modelo fundacional geométrico 3D preentrenado para predecir simultáneamente acciones y la evolución de la escena en 3D a partir de imágenes RGB, logrando un rendimiento superior al de los métodos basados en 2D o nubes de puntos explícitas.