Less is More: Lean yet Powerful Vision-Language Model for Autonomous Driving
Este trabalho apresenta o Max-V1, um modelo visão-linguagem leve e poderoso que reformula o planejamento de trajetória para direção autônoma como uma tarefa de previsão de próximos waypoints, alcançando desempenho superior ao estado da arte no conjunto de dados nuScenes e demonstrando robustez em cenários cruzados.