Universal Pose Pretraining for Generalizable Vision-Language-Action Policies
El paper presenta Pose-VLA, un paradigma de preentrenamiento universal que desacopla la percepción de la acción mediante tokens de pose discretos para mejorar la generalización y eficiencia de los modelos de visión-idioma-acción en robótica.