CMMR-VLN: Vision-and-Language Navigation via Continual Multimodal Memory Retrieval
El artículo presenta CMMR-VLN, un marco de navegación visual y lingüística que mejora el rendimiento de los agentes LLM en escenarios complejos mediante una memoria multimodal estructurada, recuperación de experiencias pasadas y una estrategia de actualización reflexiva, logrando mejoras significativas en las tasas de éxito tanto en simulación como en pruebas reales.