WalkGPT: Grounded Vision-Language Conversation with Depth-Aware Segmentation for Pedestrian Navigation
El artículo presenta WalkGPT, un modelo de lenguaje-vision grounded que integra razonamiento conversacional, segmentación y estimación de profundidad para guiar la navegación peatonal accesible, junto con el nuevo benchmark PAVE para evaluar estas capacidades.