Pixel Motion Diffusion is What We Need for Robot Control
Il paper presenta DAWN, un framework unificato basato sulla diffusione che utilizza una rappresentazione strutturata del movimento dei pixel per il controllo robotico guidato dal linguaggio, ottenendo risultati all'avanguardia su benchmark come CALVIN e MetaWorld e dimostrando una efficace trasferibilità nel mondo reale con un minimo fine-tuning.