WalkGPT: Grounded Vision-Language Conversation with Depth-Aware Segmentation for Pedestrian Navigation
Le papier présente WalkGPT, un modèle de langage-vision ancré au niveau des pixels qui intègre la segmentation et l'estimation de profondeur pour fournir des guides de navigation piétonne accessibles, accompagné du nouveau benchmark PAVE.