GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training
Le papier présente GTR-Turbo, une méthode efficace qui fusionne les checkpoints d'un modèle pendant son entraînement par renforcement pour créer un « enseignant gratuit », éliminant ainsi la dépendance aux modèles propriétaires coûteux tout en améliorant significativement les performances et en réduisant les coûts de calcul pour les agents VLM.