VGGDrive: Empowering Vision-Language Models with Cross-View Geometric Grounding for Autonomous Driving
O artigo apresenta o VGGDrive, uma nova arquitetura que integra modelos de fundação 3D maduros a Modelos Visão-Linguagem (VLMs) por meio de um mecanismo de ativação geométrica de cruzamento de visão (CVGE), superando as limitações atuais e aprimorando significativamente o desempenho em diversas tarefas de direção autônoma, como percepção de risco, previsão de movimento e planejamento de trajetória.