Efficient and Explainable End-to-End Autonomous Driving via Masked Vision-Language-Action Diffusion
Il paper presenta MVLAD-AD, un nuovo framework di diffusione mascherata che combina tokenizzazione discreta delle azioni e apprendimento di embedding geometrici per realizzare una guida autonoma end-to-end efficiente, precisa e spiegabile, superando i limiti di latenza e struttura dei modelli linguistici e di diffusione esistenti.