SPINE: Token-Selective Test-Time Reinforcement Learning with Entropy-Band Regularization
Le papier propose SPINE, une méthode d'apprentissage par renforcement à l'inférence qui améliore la stabilité et les performances des modèles de raisonnement en sélectionnant sélectivement les tokens critiques pour les mises à jour et en appliquant une régularisation par bande d'entropie, évitant ainsi l'effondrement des réponses sans nécessiter d'étiquettes ni de modèles de récompense.