WalkGPT: Grounded Vision-Language Conversation with Depth-Aware Segmentation for Pedestrian Navigation
O artigo apresenta o WalkGPT, um modelo de linguagem e visão grande (LVLM) pixel-grounded que integra raciocínio linguístico e segmentação para fornecer orientação de navegação acessível e consciente de profundidade, acompanhado pelo lançamento do benchmark PAVE.