CMMR-VLN: Vision-and-Language Navigation via Continual Multimodal Memory Retrieval
Die Arbeit stellt CMMR-VLN vor, ein Vision-and-Language-Navigation-Framework, das Large-Language-Modelle durch eine strukturierte, multimodale Erinnerung und Reflexionsmechanismen befähigt, relevante Erfahrungen selektiv abzurufen, was in Simulationen und realen Tests zu signifikant verbesserten Erfolgsraten im Vergleich zu bestehenden Ansätzen führt.