WalkGPT: Grounded Vision-Language Conversation with Depth-Aware Segmentation for Pedestrian Navigation
Il paper presenta WalkGPT, un modello visione-linguaggio ancorato ai pixel che unisce ragionamento linguistico e segmentazione per fornire guide di navigazione accessibili e consapevoli della profondità, supportato dal nuovo benchmark PAVE.