Efficient Reasoning at Fixed Test-Time Cost via Length-Aware Attention Priors and Gain-Aware Training
Ce papier propose une méthode d'apprentissage exclusive intégrant des priors d'attention sensibles à la longueur et un contrôleur de gain adaptatif pour améliorer le raisonnement des Transformers sans augmenter les coûts d'inférence.