Efficient Reasoning at Fixed Test-Time Cost via Length-Aware Attention Priors and Gain-Aware Training
Il paper propone un metodo per migliorare l'efficienza del ragionamento nei Transformer a costo di test fisso, introducendo durante l'addestramento un prior di attenzione sensibile alla lunghezza e un controller "Guardian" che, senza aggiungere parametri o latenza durante l'inferenza, riduce l'entropia incrociata di validazione mantenendo invariati i costi computazionali.