Efficient Reasoning at Fixed Test-Time Cost via Length-Aware Attention Priors and Gain-Aware Training
Este artigo propõe um método de treinamento que utiliza um prior de atenção sensível ao comprimento e um controlador de ganho adaptativo para melhorar a eficiência do raciocínio em modelos Transformer sem aumentar os custos computacionais durante a inferência.