GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training
El artículo presenta GTR-Turbo, un método eficiente que utiliza un modelo maestro "gratuito" generado mediante la fusión de checkpoints durante el entrenamiento por refuerzo para mejorar el rendimiento de los agentes VLM, reducir costos computacionales y eliminar la dependencia de modelos propietarios costosos.