Seeing Farther and Smarter: Value-Guided Multi-Path Reflection for VLM Policy Optimization
Este artículo presenta un marco de computación en tiempo de prueba que optimiza la política de los Modelos Visión-Lenguaje para la manipulación robótica mediante una reflexión multi-trayectoria guiada por valor, logrando una mejora del 24,6% en la tasa de éxito y una reducción del 56,5% en el tiempo de inferencia frente a los métodos existentes.