WalkGPT: Grounded Vision-Language Conversation with Depth-Aware Segmentation for Pedestrian Navigation
Das Paper stellt WalkGPT vor, ein pixelbasiertes Vision-Language-Modell mit Tiefenwahrnehmung und Segmentierungsfähigkeiten, das zusammen mit dem neuen Benchmark PAVE zuverlässige, zugängliche Navigationshinweise für Fußgänger in komplexen städtischen Umgebungen generiert.