GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training
O artigo apresenta o GTR-Turbo, um método eficiente que utiliza um modelo fundido a partir de checkpoints de treinamento como um "professor gratuito" para orientar o aprendizado por reforço de agentes VLM, eliminando a dependência de modelos proprietários caros enquanto aumenta a precisão e reduz significativamente o tempo e o custo computacional.